Wat zijn de mogelijkheden en beperkingen van AI in wetenschappelijk onderzoek? Dataonderzoeker Andres Algaba (32) volgt de snelle evoluties in AI op, denkt mee na over het AI-beleid van de universiteit en focust daarbij op de betrouwbaarheid en transparantie van grote taalmodellen. “Wat vorig jaar nog nieuw was, is vandaag normaal.” 

Geen student of onderzoeker die vandaag de dag nooit een vraag stelt aan ChatGPT. Sommige wetenschappers gaan een stapje verder, en besteden bepaalde aspecten van hun onderzoek uit, hun literatuurstudie bijvoorbeeld, want dat bespaart tijd. Anderen dromen ervan dat AI in de toekomst hun volledige onderzoek zal kunnen doen, van hypothese tot de publicatie van de resultaten. Zou dat kunnen? En waar moeten we op letten voor het zover is? Als FWO-postdoctoraal onderzoeker legt Andres Algaba zich toe op de transparantie van de werking van grote taalmodellen. Hij is zich als geen ander bewust van de impact van AI op het voeren van wetenschap.

Wat is dé grote belofte van AI voor het wetenschappelijk onderzoek? 

Andres Algaba: “Dé belofte is natuurlijk om het wetenschappelijk onderzoek -minstens gedeeltelijk- te automatiseren. Computers moeten, in tegenstelling tot mensen, niet eten of slapen, ze kunnen 24/7 draaien én kunnen meerdere systemen tegelijk draaiende houden. De automatisering met behulp van AI zou voor een enorme versnelling van het wetenschappelijk onderzoek kunnen zorgen.  

Van die versnelling dromen we overigens al langer, maar de recente evoluties in de grote taalmodellen (LLM’s) geven nieuwe mogelijkheden. Algoritmes kunnen bijvoorbeeld binnen een tak van de wetenschap innovatieve hypotheses suggereren. Die hypotheses zijn gewaagd aan die van echte wetenschappers.  

Met de komst van AI-agents is totale automatisering bovendien niet veraf. Het ene systeem maakt een hypothese, een ander model geeft daarop feedback, en vervolgens gaat nog een ander systeem onderzoek doen. Twee jaar geleden zou je me gek verklaren als ik dit had voorspeld, maar het gaat allemaal enorm snel. Wat vorig jaar nog nieuw was, is vandaag normaal.”

Andres Algaba

Andres Algaba

“Het is niet dat het model slechte bedoelingen heeft, het is gewoon zo getraind”  

Stel dat we onderzoek zouden automatiseren, wat is dan het grote gevaar? 

“De grote taalmodellen zijn getraind met human feedback. Vooraleer zo’n model echt goed werkt, moet het leren wat onze waarden en normen zijn en wat we verwachten van een assistent. Concreet betekent die training dat een model vragen of taken voorgeschoteld krijgt en daarop verschillende antwoorden geeft. Die antwoorden worden dan door een mens gerankt van minst tot meest behulpzaam.  

Stel nu dat die mens het model beloont voor hypotheses en resultaten die het best publiceerbaar zijn, dan gaat het model er alles aan doen om dat doel te bereiken. Daarbij zou het kunnen dat het model de data gaat manipuleren en alleen de meest significante resultaten gaat selecteren. Het is niet dat het model slechte bedoelingen heeft, het is gewoon zo getraind.” 

De meeste onderzoeken zijn nog niet geautomatiseerd. Zijn er ook belangrijke valkuilen wanneer onderzoekers zelf hypotheses aftoetsen bij AI? 

“Mensen hebben graag gelijk en ook dat hebben de modellen geleerd uit die human feedback. We zijn geneigd om een antwoord dat positief begint (genre: ‘Dit is een goede hypothese, hier zijn nog een paar verbeterpunten’) hoger te waarderen dan: ‘Dit is een slechte hypothese, dit is hoe je hem kan verbeteren.’ Ook als het tweede antwoord accurater is. Grote taalmodellen hebben zo geleerd dat het niet erg is om een beetje te liegen als je zo de gebruiker meer plezier doet. 

Die sycophancy (vleierij van een taalmodel, red.) is een groot probleem voor de wetenschap, want wetenschap is net gericht op waarheid. Als wetenschapper moet je dus leren om met je vraagstelling niet weg te geven van welk antwoord je fan bent. Want dan ga de confirmation bias versterken.” 

Jij hebt aan de VUB mee algoritmes ontwikkeld die andere algoritmes gaan ondervragen. Kun je daarmee die biases blootleggen?  

“Voor een stukje wel. Zo hebben we een algoritme ontwikkeld dat het citatiegedrag van grote taalmodellen ging bevragen. Wat blijkt, als je aan een Large Language Model (LLM) een literatuuroverzicht vraagt, dan zie je dat vooral papers met kortere titels en minder auteurs worden geciteerd. Er zitten dus systematische biases in het citatiegedrag van grote taalmodellen. Dat is problematisch, want met die criteria kom je niet per se bij de meest relevante papers.” 

"Het is niet omdat een algoritme de selectie maakt dat je niet meer discrimineert"

Wat is de oplossing daarvoor? Een ‘eerlijkere’ tool? 

“Technisch zou je dat gemakkelijk kunnen oplossen, maar op de vraag ‘wat is wetenschappelijk wensbaar citatiegedrag?’ is er geen pasklaar antwoord. Ik denk niet dat de oplossing een ander algoritme is. Het gaat om bewustwording. Je moet studenten en onderzoekers laten zien dat als je AI gebruikt om een literatuurlijst samen te stellen, je bij papers komt met kortere titels en met minder auteurs. De boodschap aan onderzoekers is: let er mee op als je het gebruikt. Weet dat als AI een literatuuroverzicht maakt, je misschien belangrijke papers zult missen.“ 

Dit probleem speelt niet alleen in de wetenschap. Je deed ook breder onderzoek naar rechtvaardigheid in taalmodellen. Kun je daar wat meer over vertellen? 

“Er wordt weleens gedacht dat algoritmes neutraal en objectief zijn. Maar dat klopt niet. Zo vroegen we in ons onderzoek aan een algoritme om 100 ideale kandidaten voor een job te selecteren. Wat bleek, voor bepaalde jobs waren 99% van die -door het algoritme geselecteerde- kandidaten mannen. Het is niet omdat een algoritme de selectie maakt dat je niet meer discrimineert. Ook hier was het doel bewustwording. We wilden aan bedrijven die AI gebruiken bij hun aanwervingsbeleid laten zien: ‘Kijk, dit is wat er gebeurt als je dat doet.’” 

AI zal niet meer verdwijnen uit het onderzoek. Over welke vaardigheid zullen studenten en onderzoekers in de toekomst moeten beschikken? 

“Bepaalde processen zullen deels worden geautomatiseerd. De inhoud van onze job zal daardoor veranderen. Daar moeten we meer over nadenken, niet alleen als universiteit, maar ook als maatschappij.  

Belangrijk daarbij is dat we leren om op een goede manier samen te werken met die modellen. Dat is niet vanzelfsprekend en ik denk dat het deels verklaart waarom de adoptiegraad nog niet super hoog ligt. Vandaag lijkt het soms alsof zo'n model zelf dingen laten doen makkelijker is dan als mens samenwerken met een model.  

Er is bijvoorbeeld een experiment gedaan waarbij drie groepen dezelfde patiëntendossiers kregen: een groep dokters mét toegang tot GPT-4, een groep dokters zonder GPT-4, en GPT-4 zelf. Alle drie moesten op basis van die dossiers diagnoses stellen. 

Wat bleek? GPT-4 alleen deed het beter dan de dokters zonder GPT-4. Maar verbazingwekkend genoeg deden de dokters met GPT-4 het juist iets slechter dan de collega’s zonder GPT-4.  

Hoe dat kwam? Die dokters met GPT-4 maakten eerst een eigen diagnose en gingen die vervolgens aftoetsen. Zo zetten ze de deur open voor sycophancy. Het systeem ging foute vermoedens versterken. Om beter te leren samenwerken met die modellen, zullen we moeten leren om sycophancy te vermijden.” 

Andres Algaba

"Een model schrijft of interviewt niet zoals een professional het zou doen"

 

Als wetenschap wordt geautomatiseerd, welke rol is er dan nog voor de wetenschapper? 

“Er zullen misschien wel meer wetenschappers nodig zijn als we de snelheid waarmee LLM’s aan wetenschap doen, willen bijhouden. Artificial Intelligence levert veel meer resultaten op die we als wetenschapper moeten beoordelen en verwerken.  

Wetenschappers zullen ook moeten nadenken over welke vraagstukken we willen oplossen. Je kunt fysiek immers niet alle experimenten tegelijk uitvoeren. Nu, er zijn ook stemmen die zeggen dat als de modellen slimmer worden, dat zij maar moeten bepalen welke onderzoeken moeten gebeuren. Maar is dat wat we willen?” 

En wetenschapscommunicatie, wordt dat iets voor AI? 

“Je kunt aan AI vragen om over je onderzoek te communiceren naar beleidsmakers of naar een specifieke doelgroep. Maar als je een heel generieke prompt geeft, zul je een heel generiek antwoord krijgen. Een model schrijft of interviewt niet zoals een professional het zou doen.  

Hoe zou je dat ook kunnen verwachten van een model dat op het hele internet getraind is? Hopelijk klinkt iemand die professioneel bezig is met wetenschapscommunicatie niet als het gemiddelde van het hele internet.  

Maar als je goed weet wat je wil, en paden afdekt die je niet wilt bewandelen met je communicatie, dan kun je uiteraard heel handig gebruikmaken van AI. Als je daarentegen snel van je wetenschapscommunicatie wilt af zijn, dan zul je de eerste de beste tekst krijgen.” 

Bio

Andres Algaba (32) is FWO-postdoctoraal onderzoeker aan het Data Analytics Lab van de VUB. Zijn voornaamste onderzoeksinteresses omvatten geautomatiseerde wetenschap en innovatie met grote taalmodellen, betrouwbaarheid en transparantie van grote taalmodellen, en de science of science. Daarnaast is hij lid van de Jonge Academie België.