uu77

Artificial Intelligence

Wanneer zijn AI-modellen open-source?

We horen steeds meer over Open Source AI. Open Source modellen geven voordelen ten opzichte van beveiliging, transparantie en, mits lokaal gedraaid, privacy. Maar modellen die lokaal te draaien zijn, zijn niet automatisch ook Open Source, ondanks dat ze dat soms wel claimen te zijn! In deze blog bekijken we wanneer een model wel Open Source is en waarom dat er toe doet, zeker in het onderwijs.

De vier vrijheden van Open Source

We kennen allerlei vormen van Open Source. De bekendste is Open Source software, maar er is ook Open Source hardware (bijvoorbeeld: ), Open data (bijvoorbeeld: van de , , ) en zelfs . Iets is als het zodanig beschikbaar wordt gemaakt dat men de heeft om te:

  1. Gebruiken (Engels: Use / Run). Het systeem mag, ongeacht het doel, gebruikt worden zonder toestemming te vragen.
  2. Bestuderen (Engels: Study). De werking van het systeem en zijn componenten kunnen en mogen bestudeerd worden.
  3. Veranderen / Aanpassen (Engels: Modify). Het systeem mag en kan, ongeacht het doel, aangepast worden. Inclusief het aanpassen van de output van het systeem.
  4. Delen / Verspreiden (Engels: Share / (Re)distribute): Het systeem mag en kan, ongeachte het doel, met of zonder aanpassingen, gedeeld worden met anderen.

Open Source is dus meer dan het willekeurig delen van bijvoorbeeld code, documentatie, ontwerpen en recepten. Het delen moet de vrijheden mogelijk maken. Dit vereist een licentie die dit toestaat, maar ook het delen van de juiste materialen. Het delen van bijvoorbeeld software in de vorm van een , een bestand met 1’en en 0’en die wij mensen niet kunnen lezen, maakt vrijheid 1 (gebruiken) en vrijheid 4 (delen) mogelijk, maar niet vrijheid 2 (bestuderen) en 3 (veranderen). Wat er nodig is bij Open Source AI om de vrijheden mogelijk te maken komen we op terug, want eerst: Waarom zijn deze vrijheden zo belangrijk (voor het onderwijs)?

In vertelt Richard Stallman waarom Free Software (‘free’ als in vrijheid) nodig is. zijn twee begrippen die zo dicht bij elkaar liggen dat ze vaak door elkaar heen worden gebruikt.

De vier Open Source vrijheden & AI

Nu AI, waaronder generatieve AI, steeds meer onderdeel uitmaken van onze processen, infrastructuur en bestaande software-applicaties wordt het ook steeds belangrijker om de vier Open Source vrijheden hierbij betrekken. Zo is de vrijheid om een AI-model te kunnen bestuderen (vrijheid 2) hard nodig om : Een taalmodel geïntegreerd in een applicatie kan een bevatten waarmee toegang kan worden verleend tot privacygevoelige informatie of vertrouwelijke bedrijfsgegevens. Met de vrijheid om het aan te passen (vrijheid 3) zou deze backdoor dan gedicht kunnen worden. Deze vrijheden zijn ook nodig in het opsporen, inzichtelijk maken en het reduceren van vooroordelen in AI-modellen.

De geeft sinds november 2024 een . Niet op de laatste plaats, omdat een aantal AI-modellen onterecht Open Source worden genoemd. Voorbeelden hiervan zijn de taalmodellen en van respectievelijk Meta en DeepSeek. Deze bedrijven delen de parameters van hun modellen. Hiermee zijn de modellen prima te gebruiken (vrijheid 1) en zelfs lokaal te draaien, maar de vrijheden om te bestuderen (vrijheid 2) en aan te passen (vrijheid 3) worden daarmee niet geboden. Het delen van de parameters is hetzelfde als het delen van de executable van een softwareapplicatie in plaats van de source code: Het is onleesbaar voor mensen. Het is daarom, , passender om deze modellen ‘open weight models’ te noemen. 

Bij een open weight model is het wel mogelijk kleine aanpassingen te doen aan het model, door middel van . Zoals de term suggereert, gaat dit echter om echt kleine aanpassingen. Het is hiermee moeilijk tot onmogelijk om een mogelijke backdoor te dichten. ‘Open weights’ is al een gangbare term. Op de markt wordt deze term ook al gebruikt, onder andere door Franse AI-bedrijf , de grote speler uit de EU op het gebied van taalmodellen.

Het alleen delen van de code en parameters is bij AI-modellen niet genoeg voor de vier vrijheden. Hiervoor moet de echte source van een AI-model gedeeld worden: de . Er is momenteel een in welke mate en vorm de trainingsdata gedeeld moet worden. The Open Source Initiative namelijk (voor nu) Open Source AI zo dat er minimaal gedetailleerde metadata over de trainingdata beschikbaar moet zijn. Met de argumentatie dat door copyright en dataeigenaarschap het vaak erg is om de trainingsdata open te delen. 

Zowel DeepSeek als Meta delen niet de trainingsdata en geven zelfs niet de metadata over de trainingsdata. Dus zelfs los van de discussie rond de definitie, kunnen we met zekerheid zeggen dat Llama 3.1 en R1 met Open Source AI zijn. 

Wat nu?

Inmiddels zijn we ruim twee jaar bezig met genAI. Dit betekent dat we meer volwassenheid van AI-modellen mogen verwachten, zoals we dat ook verwachten van andere software. Open Source brengt duidelijke voordelen voor softwarebeveiliging, transparantie en, wanneer lokaal gedraaid, voor privacy- en informatiebeveiliging. Om deze ontwikkeling naar Open Source AI te ondersteunen moeten we kritisch zijn op het juiste gebruik van de term Open Source en, waar kan, de voorkeur geven aan het gebruik van Open Source AI-modellen. De onderstaande taalmodellen zijn bijvoorbeeld Open Source, inclusief trainingsdata:

  • Models van , zoals en .
  • van . OLMo 2 is direct te gebruiken op hun . 

Let op: Deel geen privacy- of bedrijfsgevoelige informatie met (online) services dit geldt ook voor open source modellen die je niet lokaal draait.

Initiatieven om in de gaten te houden:

  • EduGenAI Platform
    is een Nederlands platform waarop onderwijsinstellingen op een veilige en verantwoorde manier grote taalmodellen (LLM/generatieve AI) kunnen gebruiken in het onderwijs. Het biedt een ethisch en juridisch verantwoorde omgeving waar publieke waarden, privacy en kennisdeling centraal staan. Door onder andere te zorgen voor een eigen interface boven op de taalmodellen wordt het mogelijk om laagdrempelig verschillende taalmodellen aan te bieden en tussen taalmodellen te wisselen. Hiermee wordt onder andere  voorkomen en kan er gemakkelijk een Open Source AI-model worden aangeboden.
  • GPT-NL
    is een taalmodel dat wordt ontwikkeld door SURF, TNO en het Nederlands Forensisch Instituut. Hiermee zetten ze een belangrijke stap richting transparant, eerlijk en controleerbaar gebruik van kunstmatige intelligentie, met respect voor Nederlandse en Europese waarden en richtlijnen, en met oog voor het eigenaarschap van data. De financiering voor dit model komt van het ministerie van Economische Zaken en Klimaat. 
    De reis van GPT-NL is een interessante om te volgen. GPT-NL stelt zichzelf nobele, maar uitdagende doelen. Zoals ook de Open Source Initiative erkent is er onder andere een  tussen ‘transparant’ en ‘eigenaarschap van data’. Denk hierbij ook aan wetgeving zoals de  en daarmee horende  die uitdagingen geven met het open delen.

Verder goed om te weten over Open Source:

  • Open Source kan zijn. Sterker nog, er zijn zat commerciële (software) bedrijven die Open Source Software maken, zoals , en . Deze bedrijven verdienen veelal hun geld door ondersteuning te bieden bij de Open Source Software.
  • ‘Open Source’ kennen meer mensen, maar blijf (ook) ‘Free Software’ zeggen. Free Software geeft ook een aan. De term ‘Open Source’ ligt door die om marketingredenen graag gebruik maken van de term, maar liever niet echt open delen. Open Source Software is een technisch model voor het ontwikkelen van software dat voldoet aan de filosofie van Free Software. We beschermen de definitie door ook de filosofie te benoemen. 
    Weet dat er ook velen alternatieven termen beschikbaar zijn voor organisaties die wel iets delen, maar niet voldoen aan de vrijheden van Open Source. Denk hierbij aan ‘open weights’, ‘source available’, ‘non-compete’ en ‘shared source’. Deze beschrijven alle vier het delen van code of een ander onderdeel, maar dat er nog wel beperkingen zijn waardoor het niet Open Source is.
Geschreven door
J.H.C. Bunk (Jorn) MSc
J.H.C. Bunk (Jorn) MSc
Jorn Bunk is beleidsmedewerker Onderwijs&Technologie aan de uu77.