Tim Brys: ‘Misbruik van AI is symptoom van diepere kwaal aan universiteiten’
“Wetenschappelijk onderzoek lijkt ons nu al onmogelijk zonder AI”, kopte De Standaard donderdag. Het is wat straf uitgedrukt misschien, maar dat het onderzoek in heel wat disciplines versnelt dankzij AI, klopt helemaal. Op het AI-lab van de VUB gebruik ik ook enkele van de toepassingen die op basis van een rondvraag bij 17 professoren beschreven worden. ChatGPT als sparringpartner in korte digitale brainstormsessies, DeepL als uitmuntende vertaler voor Indo-Europese talen: het kan heel wat tijd besparen. Dat geldt ook bij onderzoek zelf, zoals geneticus Maarten Larmuseau stelt. Zo bouwde Google Deepmind een database met de door AI voorspelde 3D-structuren van 200 miljoen eiwitten. De structuur voor één eiwit in het lab bepalen, vergt soms jaren tijd en kan miljoenen euro kosten, dus de voorspellingen van Deepmind kunnen biologisch onderzoek enorm versnellen.
Dat AI ook op een kwalijke manier gebruikt kan worden, is niet onbekend. Alle technologie kan misbruikt worden. Dat wordt ook in het opiniestuk erkend. Voorbeelden zijn studenten die taken met generatieve AI produceren of academici die papers niet meer zelf reviewen maar dat heimelijk overlaten aan ChatGPT. Ook in ons lab worden we daarmee geconfronteerd via generieke AI-gegenereerde motivatiebrieven van kandidaat-doctoraatsstudenten. De proffen die voor het artikel in deze krant bevraagd werden, zijn er wel van overtuigd dat ze voorlopig nog het verschil kunnen zien tussen een paper uit de pen van een mens en één gegenereerd met AI.
Zonder menselijke inbreng
Ik ben er alleen niet van overtuigd dat dat onderscheid in de praktijk altijd gemaakt wordt. Zo verscheen onlangs in het tijdschrift Surfaces and Interfaces van de grote wetenschappelijke uitgever Elsevier een paper die begint met: Certainly, here is a possible introduction for your topic … Die zin is onmiddellijk herkenbaar als het begin van een ChatGPT-antwoord op een prompt.
Wat is er waarschijnlijk gebeurd? De auteurs genereerden hun introductie met ChatGPT en namen die klakkeloos over in de paper. Nadien keurden de reviewers die Elsevier aanstelde om de paper te evalueren, die goed zonder die (grondig) te lezen. Daarna publiceerden de editors van Surfaces and Interfaces de paper, eveneens zonder die (grondig) na te lezen. Het is een academische schande die niet tot deze ene paper beperkt blijft. Er zijn honderden papers te vinden met gelijkaardige zinnen die het onverantwoord gebruik van ChatGPT verraden.
Systemen als ChatGPT gebruiken bepaalde woorden veel frequenter dan mensen. Het Engelse woord to delve (opdiepen) bijvoorbeeld is er zo een. Als men naar het gebruik van dat woord zoekt in enkele reusachtige databanken met medische publicaties, ziet men dat tot 2022 dat woord tussen de 0,31 en 0,56 keer voorkwam per 1.000 papers. In 2023 stijgt dat plots tot 7,9 keer per 1.000 papers. Dat ChatGPT daarvoor verantwoordelijk is, is hoogstwaarschijnlijk: het systeem werd eind 2022 gelanceerd. De vraag is nu: hoeveel van die papers werden enkel verbeterd met ChatGPT, en bij hoeveel werden er stukken integraal door ChatGPT geschreven, zonder menselijke inbreng?
Publicatiedrift
Toch is AI niet het probleem. Dat AI onverantwoord gebruikt wordt, is veeleer symptomatisch voor een dieper falen van de academische wereld. De druk om te presteren ligt zo hoog bij academici dat de shortcuts die AI aanbiedt, heel aantrekkelijk kunnen zijn. Die academische druk wordt wel eens beschreven als publish or perish (“publiceer of ga ten onder”). De logica van marktconcurrentie in de academische wereld leidt tot ongezonde competitie tussen collega’s en universiteiten.
Er wordt te veel naar kwantitatieve metrieken gekeken om te oordelen wie het goed doet, wie een academische positie kan verwerven, of wie fondsen toegekend krijgt. Hoe meer papers, hoe beter. Hoe vaker je reviewt voor een journal, hoe beter. Hoe meer master- en doctoraatsstudenten je doet slagen, hoe beter. Op die manier wordt een klimaat geschapen waarin kwantiteit primeert op kwaliteit, net als in een kapitalistische vrije markt. En daar lijdt de wetenschappelijke output onder, met als gevolg ChatGPT-papers.
Is het niet tijd om opnieuw na te denken over andere modellen voor de academische wereld? De wetenschap is toch een publieke aangelegenheid, waarbij iedereen ideaal gezien samen streeft naar het algemene goed? Waarbij iedereen het succes van een ander kan vieren als vooruitgang voor de gemeenschappelijke wetenschappelijke inspanning? Kunnen we niet een omgeving creëren waarbij de noodzakelijke verantwoording en transparantie hand in hand gaan met de gezamenlijke hogere doelen van de wetenschap, waarbij vooral kwaliteit op de lange termijn belangrijk is?
We mogen individuele wetenschappers niet ontslaan van de eigen verantwoordelijkheid om de wetenschap op een ethische manier te bedrijven. We kunnen hen daarbij wel helpen door een gezondere context te scheppen die meer samenwerking en kwaliteit bevordert en de bureaucratische last verlicht. Dan zal er minder druk zijn om AI te misbruiken.
Bron: De Standaard
https://www.standaard.be/cnt/dmf20240505_96062553
Kwalititeit primeert toch ook. Publicaties in top journals en top conferenties, daar zouden doctoraatsstudenten zelf een arm voor geven. H index zou dan weer beter rekening houden met het totaal aantal publicaties.
Projectaanvragen en project deliverables zouden best anders geevalueerd moeten worden. Liefst door een mondelinge verdediging. Het zelfd voor masterproeven.
Het probleem ligt wel degelijk in het systeem, en wordt gedreven door de lat steeds hoger te willen leggen voor de volgende generatie tenure track professoren. Een lat die al zo hoog ligt door rofessoren die gigantisch veel werk in korte tijd kunnen verzetten door managementcapaciteiten. Er zou een onderscheid moeten gemaakt worden tussen zij die die het werk van een paper uitvoeren, en zij die feitelijk een CEO zijn. Er zijn al veel burnouts ontstaan door postdocs die zich vergelijken met dergelijke managentproffen.