Tekst: Senne Starckx/Illustraties: Alexandre Popowycz
De Europese Commissie heeft de handschoen opgenomen. Eind dit jaar zal ze een ambitieus, pan-Europees digitaal platform, deEuropean Open Science Cloud (EOSC), lanceren voor de uitwisseling van publieke onderzoeksdata en dat wetenschappers over heel Europa met elkaar moet verbinden - voor zover ze dat willen.
 
Niet meer langs elkaar heen
Dankzij de moderne digitale technologie is het mogelijk om wetenschappelijke data makkelijk te delen tussen onderzoekers. Maar die data staan vandaag nog te vaak op ontoegankelijke harde schijven en USB-sticks, of zitten afgeschermd achter de betaalmuur van wetenschappelijke vakbladen.
 
De EOSC kan een stevige stimulans geven aan de wetenschap. Méér slimme koppen die gebruik kunnen maken van een grotere hoeveelheid beschikbare data: het kan de wetenschap ten goede komen, en bij uitbreiding het (Europese) bedrijfsleven en de maatschappij.
 
En Europa zou Europa niet zijn als de EOSC niet ook bedoeld was als een oefening in efficiëntie. Het delen van onderzoeksdata vergroot immers de impact van de publieke investering. Vandaag gebeurt het al te vaak dat verschillende (nationale) financieringskanalen min of meer dezelfde onderzoeken ondersteunen. Dat ‘langs elkaar heen financieren’ van wetenschappelijk onderzoek wil de EOSC tegengaan. In eerste instantie zal de EOSC daarom ook data bevatten afkomstig van wetenschappelijk onderzoek dat met publiek geld werd gefinancierd. 

In feite is de wetenschap de laatste sector waar de ‘’internetrevolutie’’ zich voltrekt en het is te verwachten dat de impact even groot zal zijn.


Hergebruik van data
Bedoelt u dat veel datasets, die op het eerste gezicht zuiver en objectief lijken, biased zijn?
 
Hildebrandt: “Rond het idee van een bias hangen een hoop misverstanden. Een bias wordt vaak negatief voorgesteld, maar in se is een bias niets anders dan een patroon in een dataset – een patroon dat voldoende verschilt van een willekeurige verdeling. De bias is dus precies datgene waarnaar je op zoek bent als wetenschapper.
 
Biasloze systemen bestaan dus niet. Hoe groter de dataset, hoe groter het aantal ‘spurious’ correlaties. Het gaat dan om een correlatie tussen A en B, die in beide gevallen wordt veroorzaakt door een onderliggend causaal verband met C. Omdat dit bij de inzet van de meest geavanceerde kunstmatige intelligentie en machine learning niet gemakkelijk te achterhalen is, zijn empirisch onderzoek en verificatie van de software hier van het allergrootste belang.
 
Onderzoekers moeten zich goed realiseren dat ze andere biassen of patronen vinden als ze hun onderzoeksontwerp anders inrichten, daarover moet transparantie zijn, anders blijven we zitten met onderzoeksresultaten die niet getest kunnen worden.”
 
Hoe kunnen we vermijden dat ongeoorloofd hergebruik van data schade aanricht?
Hildebrandt: “Bij data hoort altijd een context. Idealiter worden data dus gelabeld. Een onderzoeker die ermee aan de slag gaat, moet weten hoe de data precies werden vergaard. In de medische wetenschap wordt bijvoorbeeld zeer vaak gewerkt met tweedehands data – data die een bijproduct zijn van een klinisch onderzoek, of die eerder al in een ander medisch onderzoek werden gebruikt. Dit kan allerlei ongewenste gevolgen hebben voor de conclusies die je er als onderzoeker uit trekt.”
 
EOSC en het (her)gebruik van data
 
Welke veiligheidsmechanismen moeten er in de EOSC worden ingebouwd?
 
Hildebrandt: "Als data, zoals in de EOSC, vrij beschikbaar en toegankelijk worden gemaakt, dan is het belangrijk dat ze ook gelogd en verzekerd worden. Dat ze dus veilig zijn voor manipulatie, en dat er nauwkeurig wordt opgelijst wat een onderzoeker allemaal doet terwijl hij met de data aan de slag is. Cruciaal is bovendien dat het onderzoeksontwerp waarmee data bevraagd gaan worden vooraf wordt geregistreerd, zodat p-hacking kan worden voorkomen (het doortesten van data totdat de gewenste uitkomst er is, red.). Zonder de juiste maatregelen riskeer je waardeloos wetenschappelijk onderzoek te krijgen, zelfs zonder dat de onderzoeker het merkt.” [Lees verder onder de foto]

Belangrijke vragen ten aanzien van de EOSC zijn natuurlijk: wie mag er als eerste in? En: wie zal van de gedeelde data kunnen profiteren?
 
Burgelman: “Wie toegang tot de cloud zal krijgen ligt nog niet helemaal vast, maar wellicht wordt de EOSC eerst uitgerold onder onderzoekers in Europa die op de een of andere manier al worden ondersteund met publiek geld – of de funding van Europa komt, van België of van Vlaanderen, dat maakt niet uit. Dat zijn er heel veel: denk maar aan het personeel van universiteiten, hogescholen, onderzoeksinstellingen,…. Persoonlijk pleit ik voor de invoering van een soort identiteitskaart, een cloud identity die onderzoekers kunnen aanvragen en die hun automatisch toegang geeft tot de cloud.”
 
Natuurlijk moeten de onderzoekers er ook wel een beetje zin in hebben…
 
Burgelman: “Reciprociteit (wederkerigheid, red.) behoort tot de kernwaarden van de EOSC, je zou kunnen zeggen van de wetenschap. Op de een of andere manier willen we ervoor zorgen dat onderzoekers (of groepen of instituten) die hun data ter beschikking stellen van de cloud, er ook automatisch toegang toe krijgen. Hoe dat precies moet geformaliseerd worden, moet nog worden uitgeklaard, maar het kan een stimulans zijn om je als onderzoeker of als instituut aan te sluiten bij de cloud.”
 
Zal de grote beschikbaarheid van data de competitie tussen wetenschappers dan niet nóg verhogen? Ze klagen nu al steen en been over de publicatiedruk…
 
Burgelman: “Dat vind ik een rare veronderstelling. Als er vandaag meer competitie is onder wetenschappers, is dat vooral een simpel gevolg van het feit dat er nu véél meer vraag is dan aanbod, anders gezegd er zijn veel meer onderzoekers dan vroeger. Toen ik in de jaren 1980 mijn doctoraat startte met steun van het toenmalige NFWO, was ik veruit de enige met een voorstel in mijn vakgebied (de communicatietechnologie, red.). Nu zijn er ettelijke malen meer aanvragen dan beurzen, en zijn er nog eens ettelijke malen meer docs en postdocs dan professoraten.”
 
De oprichting van de EOSC heeft ook een belangrijke economische insteek: de cloud wordt bekostigd met belastinggeld, en dus moet er zicht zijn op een soort van return on investment – zodat een deel van het geld kan terugvloeien naar de maatschappij. Daarnaast ligt het voor de hand – zeker in deze tijden van burgerwetenschap en van big data – dat ook de gewone Europese burger op de een of andere manier toegang krijgt tot de data.


Als er vandaag meer competitie is onder wetenschappers, is dat vooral een simpel gevolg van het feit dat er nu véél meer vraag is dan aanbod.


Burgelman: “In Europa wordt jaarlijks tussen 140 en 160 miljard euro publiek geld aan wetenschappelijk onderzoek besteed. Het is dus logisch dat de belastingbetaler óók toegang kan krijgen tot de resultaten van al dat onderzoek. Dit zal echter pas gebeuren in een latere fase. Tijdens de uitrol eind dit jaar focussen we op de Europese wetenschaps- en onderzoeksgemeenschap. Het is al complex genoeg met hen. Als we het eenmaal daar op poten hebben, zal het makkelijker zijn de toegang uit te breiden.”
 
“Tezelfdertijd zie ik ook een grote kans voor de bedrijven uit de privésector. Vergeet niet dat 21 miljoen kmo’s in Europa vandaag geen toegang of moeilijk toegang hebben tot onderzoeksdata die van cruciale waarde zouden kunnen zijn voor hun bedrijfsvoering of innovatieplannen. Het zou jammer zijn als we die kans lieten liggen, ook omwille van de hogere return on investment op economisch vlak. Als we door gemakkelijk toegang te verlenen tot onze publiek gefinancierde onderzoeksdata 1% van die miljoenen kmo’s een goed idee aan de hand kunnen doen voor innovatie, en als van dat 1% nog eens 0.1% doorgroeit naar een wereldspeler, dan hebben we met open onderzoeksdata 210 wereldspelers per jaar mede mogelijk gemaakt!”
 
Komt de EOSC op tijd?
 
Riskeert Europa de trein te missen, als we niet op tijd in actie schieten?
 
Hildebrandt: “Als we de juiste maatregelen nemen, kan onderzoek op open data in Europa echt een competitief voordeel zijn, juist omdat het voorkomt dat blind wordt gevaren op het idee van ‘big data is better data’.”
 
Burgelman: “Precies. Kijk naar wat er is gebeurd in de internet- en communicatietechnologie. Waar zitten de grote ICT-bedrijven zoals Google, Facebook en Amazon? Niet in Europa. Nochtans werd een groot deel van het fundamentele onderzoek en van de ontdekkingen hier bij ons gedaan. We moeten de nieuwe realiteit van open wetenschap durven omarmen. De cloud kan daar een belangrijke rol in spelen.”

Disruptie
Maar met deze motivaties is het verhaal achter de EOSC, en bij uitbreiding open wetenschap, niet verteld.
 
Jean-Claude Burgelman, professor in communicatietechnologiebeleid, leidt bij de Europese Commissie de eenheid die verantwoordelijk is voor onderzoeksdatabeleid en de EOSC. Hij leidt onder de paraplu van het DG Onderzoek en innovatie ook een task force die plannen uittekent rond wetenschapsbeleid en onderzoeksdatabeheer.
 
Volgens hem is de huidige wetenschap onderhevig aan een heuse paradigmaverschuiving, vergelijkbaar met de ‘disruptie’ in de economie veroorzaakt door het internet en de opkomst van e-bedrijven. Het oude, gesloten model van wetenschapsbeoefening, waar onderzoekers geïsoleerd werken en zélf verantwoordelijk zijn voor het genereren van hun data, maakt plaats voor open wetenschap, waar beschikbare en toegankelijke data een explosie triggeren van genetwerkt wetenschappelijk onderzoek. Burgelman vergelijkt de huidige veranderingen in de wetenschapsbeoefening dan ook met de diepgaande veranderingen die het internet heeft veroorzaakt in zowat alle maatschappelijke activiteiten.
 
Burgelman: “Vóór het internet waren er ook al computers, alleen wisten die nauwelijks van elkaars bestaan af. Dankzij het net en vooral het wereldwijde web werden ze verbonden in een globaal maar sterk gedecentraliseerd netwerk. De geïsoleerde computers van vroeger kun je vergelijken met geïsoleerde wetenschappelijke databanken, bijvoorbeeld die van de huidige open access-journals. Die mogen dan wel gratis toegankelijk zijn, je moet er als onderzoeker wel je weg naartoe vinden en de data kunnen raadplegen.
 
In eerste instantie willen we met de EOSC die oases van onderzoeksdata met elkaar verbinden, zodat hergebruik van data en het combineren van tot dan toe niet combineerbare datasets mogelijk wordt. In feite is de wetenschap de laatste sector waar de ‘’internetrevolutie’’ zich voltrekt en het is te verwachten dat de impact even groot zal zijn.” [Lees verder onder de foto]

Explosie van crossdisciplinair onderzoek
Burgelman legt uit hoe een dergelijke ‘’science cloud’’ zal worden beheerd. Een beetje zoals het internet nu, zo blijkt: “Net zoals met het internet loopt het beheer en de coördinatie van de Europese Science Cloud via een sterk gedecentraliseerde infrastructuur. De EOSC zal zich presenteren als een interface, een dashboard voor wetenschappelijke data uit Europees onderzoek. Ze zal dus niet worden gerund vanuit een kantoorgebouw in Brussel met een gigantische server in de kelder.
 
De data zullen worden bewaard op verschillende plaatsen waar ze geproduceerd worden, bijvoorbeeld in kennisinstellingen zoals Europese universiteiten en onderzoeksinstituten. Maar dat zal gebeuren op een manier die opvraging en interconnectie mogelijk maakt. Een beetje zoals bij het internet, waar alle protocollen en formats ervoor zorgen dat de miljarden gebruikers en producenten van internetgegevens met elkaar kunnen communiceren zonder dat daarom alles gecentraliseerd moet worden opgeslagen. Die verspreide opslag is tegelijk een garantie voor een veilige en betrouwbare opslag van de data.”
 
En meteen komen we aan bij een van de belangrijke doeleinden van de EOSC: het delen van informatie, ten voordele van de wetenschap.
 
Burgelman: “Dit is misschien wel het belangrijkste: de vlotte beschikbaarheid van data maakt crossdisciplinair onderzoek mogelijk op een schaal die tot nog toe niet kon. Een medisch onderzoeker kan bijvoorbeeld transportdata gaan combineren met gezondheidsgegevens, waardoor hij het risico op astma of andere aandoeningen van de luchtwegen kan gaan bestuderen in verstedelijkte gebieden. Momenteel verloopt dat nog niet echt vlot, want al deze data worden nog grotendeels gefragmenteerd bewaard en indien al zo, in formats die niet interoperabel zijn. Open onderzoeksdata zullen vooral een explosie in dit soort crossdisciplinair onderzoek mogelijk maken en laat dat nu precies de grootste uitdagingen van onze eeuw zijn (e.g. climate change).”


Open onderzoeksdata zullen vooral een explosie in dit soort crossdisciplinair onderzoek mogelijk maken.


Consciëntieus databeheer
Natuurlijk moet die medicus dan wel in staat zijn de transportdata juist te interpreteren. Onderzoekers moeten volgens Burgelman daarom een feeling ontwikkelen voor goede, betrouwbare data. En ze moeten data waar een geurtje aan hangt, snel kunnen herkennen.
 
Burgelman: “Daarin schuilt een grote uitdaging. In de training van onderzoekers, bijvoorbeeld tijdens de doctoraatsopleiding, moet er veel meer aandacht gaan naar goed databeheer, en het correct omgaan met en interpreteren van onderzoeksgegevens. Dit moet een soort van basiskennis worden. Vergelijk het een beetje met statistiek, dat nu al tot het pakket basisvaardigheden behoort.”
 
In tijden waarin big data langzaamaan lijken uit te groeien tot heilige graal van de wetenschap, raakt die boodschap van consciëntieus databeheer nogal eens ondergesneeuwd. En dat is riskant, waarschuwt ook professor Mireille Hildebrandt, juriste en filosofe aan de onderzoeksgroep Law Science Technology and Society (LSTS).
 
Hildebrandt kreeg recentelijk een onderzoeksbeurs van de Europese Commissie (een ERC Advanced Grant, goed voor 2,5 miljoen euro) voor haar onderzoek naar de gevolgen van de computationele wending in het recht, en meer bepaald de inzet van ‘legal tech’ (zowel van machine learning als blockchain en andere self-executing code). [Lees verder onder de foto]

Hildebrandt wijst op een uitspraak van de Amerikaanse socioloog William B. Cameron uit de jaren 1960 die luidt: ‘Not everything that can be counted counts, not everything that counts can be counted’. Al te vaak wordt gedacht: het zijn cijfers en getallen en dus moet het kloppen. Dat is echter slechts schijn, want elke dataset bevat de vingerafdruk van de methode waarmee ze is gegenereerd. Een methode die meestal is opgezet of aangepast aan de onderzoeksvraag, en dus aan de ambities van de onderzoeker.”
 
In haar eigen domein bekijkt Hildebrandt (onder andere) hoe kan worden vermeden dat onjuiste claims, afkomstig van incorrect geïnterpreteerde data, onopgemerkt in het computationele recht belanden. De link met de gedeelde, alom beschikbare en toegankelijke data van de EOSC ligt voor de hand.
 
Hildebrandt: “Recentelijk verscheen een paper waarin ernstige vraagtekens werden geplaatst bij tien medische trials, stuk voor stuk klassiekers uit de geneeskunde. Die trials waren zogezegd allemaal volgens de regels van de kunst uitgevoerd (dubbelblind, gerandomiseerd en gecontroleerd, red.). Maar een voor een werden ze te licht bevonden. Toch zijn tal van therapieën en beslissingen die artsen in het ziekenhuis nemen, op dit soort trials gebaseerd. Dat is feitelijk een hachelijke zaak.”


Cruciaal is dat het onderzoeksontwerp waarmee data bevraagd gaan worden wordt geregistreerd, zodat p-hacking kan worden voorkomen.