VUB-professor Vincent Ginis in De Standaard

Om software tegen AI te beschermen is een coalitie van organisaties in het leven geroepen. Vincent Ginis en Sam Klein pleiten voor eenzelfde initiatief om onze cognitieve veiligheid te bewaken. Vincent Ginis is professor wiskunde, natuurkunde en AI aan de VUB en Harvard University. Sam Klein is medeoprichter Public AI en de Knowledge Futures Group, betrokken bij het bestuur van Wikimedia.

Lees het volledige opiniestuk in De Standaard

Anthropic maakte afgelopen weekend bekend dat zijn nog niet vrijgegeven model Claude Mythos al meer dan tienduizend kwetsbaarheden in kritieke software heeft gevonden. In verkeerde handen had Mythos onze digitale infrastructuur kunnen aanvallen op een schaal waarvoor klassieke cybersecurity niet ontworpen is. Anthropic koos een andere weg. Project Glasswing brengt als defensief initiatief tientallen Amerikaanse organisaties samen met honderd miljoen dollar om de digitale infrastructuur te versterken voordat dezelfde capaciteiten in vijandige handen vallen.

Maar dit stuk gaat niet over cybersecurity. Dit stuk gaat over een ander complex systeem vol kwetsbaarheden: uw brein. Er is immers een belangrijk detail, door velen misbegrepen. Mythos is niet getraind als cybersecurity-systeem. Anthropic beschrijft het zelf als volgt: “We hebben Mythos Preview niet expliciet getraind om die [cyber]capaciteiten te hebben. Ze zijn ontstaan als gevolg van algemene verbeteringen in code, redeneren en autonomie.”

Beter manipuleren

Dezelfde logica geldt voor overtuigingskracht. Elke verbetering in taalvaardigheid en redeneervermogen maakt AI ook beter in het begrijpen, modelleren en overtuigen van mensen. Onderzoek heeft al aangetoond dat zelfs een oud model als GPT-4 overtuigender debatteerde dan menselijke tegenstanders, met veel hogere kansen op meningsverschuiving bij de ‘menselijke doelen’. Ander studiewerk toonde dan weer dat een dialoog met een taalmodel mensen duurzaam kan losweken uit complottheorieën. Maar weet ook dat het voor die modellen net zo makkelijk is om mensen van complottheorieën te overtuigen. Geen van die systemen was specifiek voor manipulatie getraind. We moeten ervan uitgaan dat de capaciteitsverbeteringen van modellen van de Mythos-klasse evengoed van toepassing zijn op het manipuleren van menselijk gedrag.

En we weten dat mensen nu al ‘gehackt’ worden. Clickbait, dark patterns, A/B-testing op schaal, fraude en oplichting: het zijn enkele van de grootste markten ter wereld, en ze groeien exponentieel. Interpol schat dat grensoverschrijdende fraude het afgelopen jaar met 50 procent is gestegen, waarbij AI-gestuurde oplichting naar schatting vijf keer zo effectief is als wat ervoor kwam. Dit zijn brute force hacks op ons brein, gevonden via trial-and-error op populatieniveau, zonder echt model van hoe we werken, zonder diepe personalisering. Het is het equivalent van een wachtwoord kraken door tal van combinaties te proberen. Zelfs die rudimentaire aanpak draagt een industrie van honderden miljarden.

De volgende maanden komen er systemen aan die niet alleen meten welke boodschap werkt, maar steeds beter voorspellen bij wie, wanneer en waarom ze werkt. Mensen zijn dan vatbaar voor een algoritmische aanval op hun brein via drie bronnen.

Bron 1: de machine als onbewuste aanvaller. Het gaat dan om een conversatiesysteem dat niet probeert je te manipuleren, maar geoptimaliseerd is om instemmend en behulpzaam te zijn. Oneindig geduldig, spreekt nooit tegen tenzij je erom vraagt, en produceert precies het narratief dat je bevestigingsdrang nodig heeft. Social engineering zonder intentie, met wisselende impact, maar een fenomeen waar we dringend meer aandacht aan moeten besteden.

Bron 2: optimalisatiedruk zonder centrale aanvaller. Misschien de belangrijkste bron, en de minst besproken. Er is geen menselijke aanvaller, maar een optimalisatieproces dat over miljarden interacties impliciet leert welke knoppen werken. Denk aan aanbevelingssystemen, advertentiemodellen, AI-agents getraind op engagement. Het systeem hoeft niet te ‘weten’ dat het overtuigt. Het selecteert wat blijft hangen, en wat blijft hangen verschuift wat je denkt. Bij sociale media werd al vastgesteld dat gebruikersengagement wordt geoptimaliseerd dankzij schattige dieren, maar ook door polarisatie, angst, woede, gokken en seks.

Bron 3: een mens of organisatie die bewust taalmodellen tegen je inzet. Het bedrijf Arup verloor in 2024 25 miljoen dollar in Hongkong nadat een medewerker was misleid in een videovergadering waarin alle andere deelnemers AI-deepfakes waren. Dat zijn grove aanvallen, gericht op geld. De subtielere variant haalt het nieuws niet: autonome agenten die je sociale media analyseren, je kwetsbaarheden in kaart brengen, en per individu een bericht opstellen met de juiste autoriteit, de juiste toon, op het juiste moment. Voor geld, maar ook voor wat je gelooft, wie je vertrouwt, op wie je op stemt.

Dwars door de drie bronnen loopt een terugkerende tactiek: overbelasting. Mensen hebben een beperkte totale en emotionele bandbreedte. Hen overladen met angst en woede over bepaalde onderwerpen vermindert hun tijd en energie om andere onderwerpen te verwerken. Dat wordt al ingezet om zowel de aandacht van individuen als die van de nieuwsindustrie te sturen in de richting van polariserende onderwerpen; vaak dezelfde paar thema’s, zo vaak herhaald als het collectieve informatiesysteem toelaat.

Het gevaarlijkste aanvalstype herken je niet als aanval. Geld dat verdwijnt, dat zie je. Een overtuiging die verschuift, genereert – als er al iets gebeurt – een rationalisatie achteraf. De cybersecurity-analogie heeft twee grenzen die het benoemen waard zijn. Ten eerste heeft software een beoogd gedrag. Cognitie niet, waardoor niet kristalhelder is wat onder exploitatie valt en wat als legitieme overtuiging geldt. Erger nog: slachtoffers van cognitieve exploitatie zijn de laatsten die het weten. Cybergevaren zijn uiteindelijk waarneembaar, op cognitief vlak is de bedreiging dat vaak niet, zelfs niet achteraf. Ten tweede, en fundamenteler: de vraag naar verdediging staat in verhouding tot de detecteerbaarheid van schade, en software heeft eigenaars die betalen om die te verdedigen. Uw aandacht niet. Zolang beide kloven niet gedicht zijn, hebben degenen die profiteren van exploitatie geen reden om te stoppen, en zullen degenen die geëxploiteerd worden het niet bewust opmerken.

Hoe kan een Glasswing-project voor ons kenvermogen eruitzien? Een gedeeld register van bekende manipulatiepatronen, vergelijkbaar met de database voor software. Met evaluaties die vleierij en overtuigingskracht meten bij modellen vóór die breed worden uitgerold, en met transparantievereisten voor systemen die op grote schaal taal genereren bedoeld voor mensen, in het bijzonder wanneer ze personaliseren. Vergelijkbare stappen zetten we eerder voor reclame gericht op kinderen, voor financiële dienstverlening en voor medische claims. Er zijn dus precedenten.

Individuele tegenmaatregelen kunnen bestaan uit betere system prompts, het bijhouden van je eigen overtuigingsverschuivingen, en het bewust cureren van je informatieconsumptie. Het is ook verstandig om je te omringen met mensen die anders denken, maar dezelfde standaarden hanteren voor bewijsvoering en intellectuele eerlijkheid. Zulke maatregelen zijn noodzakelijk, maar volstaan hoegenaamd niet voor onze cognitieve veiligheid. Ook ons brein heeft een Glasswing nodig.

Lees meer over:

Wiskunde en Data Science