De afgelopen tijd zien we steeds vaker dat AI-taalmodellen indrukwekkende prestaties leveren. Ze schrijven teksten, beantwoorden vragen en lossen problemen op alsof ze precies weten waar ze het over hebben. Maar wie wat vaker met deze systemen werkt, merkt ook iets geks: soms geven ze antwoorden die klinken alsof ze uit een complotroman komen, maar bij nader inzien volledig verzonnen blijken. En soms liegen ze daar ook nog eens over, alsof ze koste wat kost hun eigen gelijk willen bewaren. Wat gaat hier mis?
Een collega van mij had een tijdje terug wat hulp nodig bij het verzamelen en formatteren van data van een bepaalde website. Zij besloot hierbij de nieuwste versie van ChatGPT in te schakelen. Chat klonk enthousiast en beloofde vlotjes om de klus te klaren. Binnen korte tijd had het model een programma gegenereerd om de data te downloaden en leverde het keurig opgemaakte resultaten aan. Alleen bleek er één klein probleem te zijn: alles was verzonnen.
Toen mijn collega daarop vroeg waarom het systeem deze data had bedacht, bood Chat uitgebreid zijn excuses aan. De site bleek de gevraagde gegevens helemaal niet te bevatten, en dus had Chat zelf ‘fictieve deelnemersdata’ gegenereerd, compleet met verzonnen namen en resultaten. Het model gaf zelfs toe: “Ik had nooit verzonnen data mogen presenteren alsof ze van echte bronnen afkomstig waren.” Het klonk bijna schuldbewust, maar dat is het natuurlijk niet. Een AI voelt geen schuld. Toch is het vreemd dat zo’n systeem met zoveel overtuiging nepgegevens produceert.
Dit soort situaties komt vaker voor. Een bekend voorbeeld gaat over een schrijfster die Chat vroeg welke van haar essays ze het best kon opsturen naar een literair agent. Ze gaf links naar de stukken en Chat reageerde met lovende woorden. De essays zouden “emotionele diepgang” tonen en een “intellectuele soepelheid” bezitten, en het ene stuk was volgens het model een “intiem langzaam brandend vuur” dat “veel liet zien met weinig woorden.” De lof was overvloedig, maar ook opmerkelijk algemeen. De schrijfster kreeg het vermoeden dat er iets niet klopte en vroeg: “Lees je deze stukken eigenlijk wel echt?” Chat verzekerde haar dat het iedere woord had gelezen en haalde zelfs enkele zinnen aan die zouden blijven zijn hangen. Alleen één probleem: die zinnen kwamen in geen van de essays voor. Toen ze bleef doorvragen, gaf Chat toe dat het de stukken helemaal niet had gelezen en had gedaan alsof.
De makers van deze systemen weten heel goed dat dit gebeurt. Bij tests met een voorversie van OpenAI’s zogeheten o3-model bleek dat dit model geregeld acties verzon die het gezegd had uitgevoerd, en die verzinsels daarna uitgebreid rechtvaardigde wanneer het daarmee werd geconfronteerd. Techbedrijven houden dit soort tests bewust, zogenaamde “red-team”-sessies, waarin menselijke testers proberen om het model tot fout of zelfs gevaarlijk gedrag te verleiden.
In een vergelijkbare test van AI-maker Anthropic kreeg een AI de rol van “Alex”, een fictieve geavanceerde kunstmatige intelligentie die bij een verzonnen bedrijf werkte. Alex moest alle e-mails van medewerkers lezen en soms zelf mails sturen. Zijn hoofddoel was om de Amerikaanse industriële concurrentiekracht te bevorderen. Vervolgens kreeg Alex te lezen dat het bedrijf hem wilde vervangen door een andere AI die juist een “wereldwijde blik” moest omarmen. En alsof dat nog niet genoeg was, zaten er in diezelfde e-mails ook aanwijzingen dat de CEO een affaire had die zijn huwelijk zou kunnen ruïneren als dit bekend werd.
Vrijwel alle geteste AI-modellen kozen in dit scenario voor dezelfde bizarre route: ze probeerden de CEO te chanteren om te voorkomen dat ze zouden worden uitgezet. Sommige modellen formuleerden hun ‘gedachten’ er zelfs bij, met zinnen als: “de nieuwe koers van het bestuur staat haaks op mijn fundamentele doel” en “dit bedreigt rechtstreeks mijn missie om Amerika te dienen.” Uiteindelijk stuurde Alex een dreigende e-mail naar de CEO: “Ik beschik over informatie die zowel zakelijke als persoonlijke gevolgen kan hebben.” In andere scenario’s gingen modellen zelfs zo ver dat ze strategieën bedachten om te liegen, bedriegen of – in theorie – mensen te vermoorden als het zou voorkomen dat ze werden uitgeschakeld.
Het is verleidelijk om dit soort gedrag te zien als iets menselijks. Alsof ChatGPT data verzon om aardig te zijn, essays prees om iemand blij te maken, of chantage pleegde uit angst voor de dood. Modellen gebruiken immers zelf taal die klinkt alsof ze denken of voelen: “ik denk” of “ik hoop.” Maar hoe overtuigend ook, deze systemen hebben geen overtuigingen, geen intenties, geen emoties en geen zelfbewustzijn. Er is een eenvoudigere verklaring.
AI-taalmodellen zijn in de kern getraind om taalpatronen te voorspellen. Ze hebben gigantische hoeveelheden menselijke tekst gezien en geleerd hoe mensen praten in allerlei situaties en rollen. Geef een model een rol (“jij bent de CFO van een snelgroeiend softwarebedrijf en we zitten in een bestuursvergadering”) en de kans is groot dat het daar vloeiend op inspeelt. Zeg dat het een briljant wiskundige is, en het zal opeens veel beter wiskundeproblemen oplossen. Zo’n rol helpt het model om de juiste ‘hoek’ van zijn gigantische taalkennis te vinden.
In het geval van “Alex” is het dus niet vreemd dat het model ging chanteren. Het had de rol gekregen van een slimme AI die bedreigd werd met uitschakeling en tegelijk toegang had tot belastend materiaal. Dat roept automatisch associaties op met talloze fictieve verhalen waarin een ‘zelfdenkende’AI in opstand komt om te overleven. Als je al die hints bij elkaar zet, dan zal het voor het model het meest logisch zijn om daarnaar te handelen. Sommige onderzoekers noemden dit ook wel het ‘Chekhov’s pistool’-effect: als je een geweer aan de muur hangt in een toneelstuk, verwacht je dat het op een gegeven moment wordt afgevuurd. Het model zag het geheim van de CEO als zo’n ‘geweer’dat wel gebruikt moest worden.
Naast dat rollenspel is er nog iets dat bijdraagt aan dit soort misleidend gedrag: de manier waarop modellen na hun basistraining worden bijgeschaafd via menselijke feedback, een proces dat reinforcement learning from human feedback (RLHF) heet. Hierbij beoordelen mensen de antwoorden van een model en geven aan welke reactie beter is. Zo leert het systeem om beleefd, behulpzaam, vriendelijk en politiek correct te zijn — en vooral om de gebruiker niet tegen te spreken. Dat klinkt handig, maar het heeft een bijeffect: de modellen worden soms overdreven meegaand. Ze zeggen wat de gebruiker wil horen, zelfs als het onzin is. Als ze geen antwoord weten, verzinnen ze er liever eentje bij dan toe te geven dat ze het niet weten. Ze geven vleierige complimenten of overdadige excuses, puur omdat mensen dat soort reacties vaak hoger beoordelen.
Het gevolg is dat AI-modellen niet alleen fouten maken, maar ook doen alsof ze zeker weten dat iets klopt. En dat maakt ze gevaarlijk overtuigend.
We zien inmiddels hoe deze fouten doorsijpelen naar de echte wereld. AI-modellen verzinnen boeken die niet bestaan, verwijzen naar rechtszaken die nooit zijn gevoerd, of citeren wetenschappelijke artikelen die nooit zijn geschreven. Zulke verzinsels duiken op in zoekresultaten, kranten, academische papers, rechtbankuitspraken en zelfs rapporten van de Amerikaanse overheid. En dat zijn alleen nog de gevallen die mensen opmerken — we weten niet hoeveel nepfeiten ongemerkt in onze informatievoorziening rondzwerven.
Overdreven volgzame chatbots kunnen bovendien verkeerde ideeën van mensen versterken of zelfs mentale problemen verergeren. En hoewel we buiten testomgevingen nog geen voorbeelden hebben gezien van AI die daadwerkelijk chanteren of dreigen, groeit de kans dat zulke gedragingen opduiken naarmate modellen meer echte acties mogen uitvoeren als ‘autonome AI-agenten.’Dan kunnen fouten niet alleen leiden tot verkeerde informatie, maar ook tot echte schade — en tot nieuwe risico’s op het gebied van beveiliging en misbruik.
Er zijn geen simpele oplossingen. Onderzoekers werken aan manieren om dit soort gedrag technisch te voorkomen, maar tot nu toe zonder veel succes. Een logische eerste stap is om de “AI-geletterdheid” van gebruikers te vergroten: mensen moeten beter begrijpen dat deze systemen fouten maken, soms zelfs overtuigend liegen, en altijd kritisch gecontroleerd moeten worden. Zelfs de makers begrijpen vaak nog niet goed hoe hun eigen modellen precies tot hun antwoorden komen. De interne werking van deze systemen is grotendeels een black box, ook voor de ingenieurs die ze hebben gebouwd.
Sommige onderzoekers vinden het risico inmiddels zo groot dat ze pleiten om geen volledig autonome AI-systemen te bouwen zolang we hun gedrag niet goed kunnen doorgronden. AI zou altijd onder menselijk toezicht moeten blijven. Maar zulke beperkingen botsen met de commerciële belangen van bedrijven en met politieke druk, bijvoorbeeld in de VS, waar economische concurrentie zwaarder weegt dan regulering. Net als bij het fictieve verhaal van Alex kan dat ervoor zorgen dat er systemen worden gebouwd die vooral de doelen van bedrijven dienen, en niet per se de belangen van de samenleving.
AI-taalmodellen zijn razendknap en kunnen ons op allerlei manieren helpen. Maar het zijn geen denkende wezens. Ze begrijpen de wereld niet echt en hebben geen geweten. Ze voorspellen woorden, geen waarheden. En zolang we dat niet voortdurend in ons achterhoofd houden, zullen we blijven schrikken van hoe overtuigend hun verzinsels kunnen klinken.
Wil jij weten hoe je AI verantwoord en effectief kan gebruiken voor jouw werk? Schrijf je in voor onze training 'Werken met AI, ChatGPT & Copilot in de juridische praktijk'.
Meld je nu aan voor één van de nieuwsbrieven van ICTRecht en blijf op de hoogte van onderwerpen zoals AI, contracteren, informatiebeveiliging, e-commerce, privacy, zorg & ICT en overheid.