Verken de fascinerende wereld van Large Language Models (LLM’s)

Leestijd 6 minuten

De techniek achter AI systemen als GPT-3 (het model achter ChatGPT) lijkt misschien een wereld waar alleen hele slimme koppen iets van snappen. Maar het is wel een boeiende en fascinerende wereld. We hebben het dan over de wereld van Large Language Models (LLM’s).

LLM’s zijn krachtige en veelbelovende kunstmatige intelligentie systemen die getraind zijn op enorme hoeveelheden tekstgegevens, meestal afkomstig van het internet. Ze kunnen verschillende taken uitvoeren en daarmee taal op een niet eerder getoonde manier, begrijpen én genereren. Van het schrijven van creatieve teksten en code, tot het opsporen van programmeerfouten. Ze vereisen echter zoveel data, rekenkracht en geheugen, dat het heel lastig is om zelf een model vanaf ‘scratch’ te bouwen. Ook zijn LLM’s afhankelijk van de kwaliteit en de diversiteit van de data waarop ze getraind zijn.  Met dit artikel maken we een korte reis door de wereld van LLM’s.

Hoe werkt een LLM?

In de basis is een LLM een heel groot bestand met enorme reeksen getallen. In zo’n bestand vind je ingewikkelde patronen van getallen met interacties in de vorm van complexe matrixvermenigvuldigingen. Dit model gedraagt zich als een lastig te doorgronden actieve set van data, die opmerkelijke prestaties kan leveren.

Maar hoe functioneert dit model? Het principe is vrij eenvoudig: het gokt het volgende woord of token in een zin. Dit mechanisme ken je ongetwijfeld van de voorspellende tekst op jouw smartphone-toetsenbord. Modellen zoals ChatGPT gaan echter verder dan voorspellingen van losse woorden. Ze zijn speciaal ontworpen om dialogen aan te gaan door te voorspellen hoe een persoon een gesprek zou voeren.

Deze modellen functioneren op massa’s data. Het model van het iPhone toetsenbord is klein vergeleken met de reuzen zoals GPT-3, die getraind zijn op terabytes aan gegevens. Maanden aan rekenkracht worden besteed aan het trainen van deze modellen, waarbij patronen en gegevens worden omgezet in miljarden numerieke wegingsfactoren die de voorspellende waarde nog verder kunnen verfijnen.

De tijdlijn van LLM’s

De reis van OpenAI ontstond al in de tijd van de Atari-games in 2015. Vijf jaar later, in 2020 verscheen GPT-3 met mogelijkheden die we tot dan toe niet voor mogelijk hadden gehouden. Recente ontwikkelingen, zoals ChatGPT, Scribe, Lumen en Claude 2, hebben alweer nieuwe deuren geopend.  ChatGPT helpt inmiddels miljoenen gebruikers, GPT-4 heeft superieure mogelijkheden en Claude 2 is nog weer beter in het begrijpen van tekst en het voeren van gesprekken. Het is nieuw en het gaat snel, daarom missen deze tools missen intuïtieve handleidingen, waardoor het optimale gebruik nog een beetje een leerproces is.

De evolutie van LLM’s is een reis met opmerkelijke ontwikkelingen en uitdagingen. Deze modellen, met hun ingewikkelde ontwerp en raadselachtig gedrag, bieden een aantrekkelijke blik op de mogelijkheden van AI. Terwijl we hun potentieel blijven verkennen, is het begrijpen van hun werking en het verfijnen van onze interactiestrategie essentieel om hun kracht effectief te benutten.

Het trainen van LLM’s

Rondom het trainen van LLM’s, hangt er een sfeer van geheimzinnigheid rond de organisaties die er mee bezig zijn. OpenAI, Anthropic en Google staan erom bekend hun trainingsgegevens verborgen te houden. Met de AI LLaMA-release van Meta (je weet wel: van Facebook en Instagram) kwam er echter een doorbraak in het stilzwijgen. De release onthulde waardevolle inzichten over hoe en waarmee LLaMA getraind is. LLaMA is getraind op maar liefst 5 TB aan gegevens, inclusief inhoud van Common Crawl, GitHub, Wikipedia, ArXiv, StackExchange en een dataset met de naam ‘Books’.

Verrassend genoeg was “Books” samengesteld uit illegale eBooks, zelfs inclusief auteursrechtelijk beschermde werken zoals de Harry Potter-serie. Dit roept natuurlijk de ethische discussie op over het gebruik van auteursrechtelijk beschermde gegevens zonder toestemming.

Trainen deel II

Net als bij in onze wereld gaat leren in stapjes. Zo’n stap is bijvoorbeeld van het creëren van feitelijk juiste zinsconstructies naar het formuleren van een genuanceerd antwoord. Voor deze ontwikkeling wordt gebruikgemaakt van Reinforcement Learning from Human Feedback (RLHF). Dit is een complex proces dat modellen transformeert tot besluitvormers, die complete antwoorden bedenken.

Het Open Assistant-project is een voorbeeld van RLHF. Het verzamelt gegevens via crowd-sourcing om LLM-gedrag te verfijnen. RLHF is ook essentieel voor het trainen van modellen om zich te houden aan ethische richtlijnen, zoals het vermijden van schadelijke inhoud.

Samen leren

Door samen te werken leer je van elkaar. Met open source modellen en licenties kan iedereen het model bekijken, gebruiken en delen. Dit stimuleert de creativiteit, diversiteit, kwaliteit en veiligheid. Ook krijg je hierdoor toegang tot de toepassingen die je anders niet zouden hebben omdat het te duur, ingewikkeld of exclusief is. Het verfijnen van de modellen is inmiddels gedemocratiseerd, waardoor in principe iedereen modellen kan aanpassen en trainen.

De nadelen van open source

Het voordeel van Open Source is ook nadeel. Er ontstaan in de wereld van LLM’s ook Wild West taferelen. Ethiek is dan een heel belangrijk element. LLM’s kunnen worden misbruikt voor kwaadaardige doeleinden of ongewenste gevolgen hebben, zoals het schenden van de privacy of de rechten van anderen. Ook doemen er beveiligingsproblemen op: hacks manipuleren modelreacties met ogenschijnlijk onschuldige wijzigingen. Het is extra verontrustend dat dit gebeurt bij zowel openlijk als gesloten modellen

Maar ook juist in de strijd tegen misbruik is samenwerking de sleutel. Het delen van inzichten en ontdekkingen helpt. Ook helpt het andere professionals met minder diepgaande kennis meer te snappen over LLM’s  Van nieuwe modellen en onthullingen die constant opduiken leren we uiteindelijk allemaal.

Samen op ontdekkingstocht

Er valt nog heel veel te leren en te snappen in de wereld van LLM’s. Het is een mix van mysterie en kansen. We moeten de reis omarmen en kennis en inzichten delen om deze nieuwe grenzen te verkennen. Terwijl we het potentieel van LLM’s onthullen, maken we de weg vrij voor het temmen van dit raadselachtige wezen.

Advanced AI in Business analytics

Wil je zelf aan de slag met AI voor jouw eigen organisatie? Tijdens deze training leer je hoe je AI slim vóór je laat werken. Je leert geavanceerde technieken toepassen zoals machine learning, deep learning en Natural Language Processing en hoe je deze gebruikt om complexe datasets te analyseren, klantgedrag te voorspellen en personalisatiecampagnes te ontwikkelen.

Delen