Is AI het nieuwe wapen voor de journalistiek om de macht te controleren?

AI als potentiële superheld, kan dat?

Tara Vierbergen, 23 juni 2023

dit artikel hoort bij het thema de prijs van ai

Wie een beetje vinger houdt aan de polsslag van Big Tech en haar AI-vondsten, weet vast van de alarmbellen die erover rinkelen, en van de wetenschappers die een pauzeknop wensen. Die alarmbellen zijn terecht. Maar, kunstmatige intelligentie is niet alleen doom en gloom. In de journalistiek worden met wat noeste hulp van AI wel degelijk misstanden beslecht, problemen opgelost en tijdrovende taken uit handen genomen.

Het geeft te denken: wanneer is het in de journalistiek geoorloofd gebruik te maken van AI? Wenselijk zelfs? Wat moet gebruik ervan opleveren? Waar trek je als redactie de grens? Waar laat je de teugels vieren? Mag je dat introotje door ChatGPT laten tikken, als je zelf kampt met een writersblock? Mag je dat beeld door Midjourney laten genereren, omdat het zoveel tijd (en geld) scheelt?

Vragen waarop we antwoorden pogen te formuleren. Door in te zoomen op zinderende journalistieke projecten die mede dankzij AI zijn geslaagd. Door de schaduwkanten van generatieve AI en hun hoopvolle tegenhangers te bestuderen. Terloops stellen we vragen. Aan AI-connaisseur Laurens Vreekamp bijvoorbeeld, schrijver van The Art of AI. En we formuleren spelregels voor verantwoordelijk en weloverwogen AI-gebruik. 

Een oceaan aan gegevens

2,6 terabyte aan data, of: 650 miljoen tweezijdig bedrukte A4’tjes. Een duizelingwekkende hoeveelheid gegevens, daarover kunnen we het eens zijn, die de boeken inging als het grootste datalek ooit. Een gezelschap van vierhonderd journalisten uit tachtig landen kreeg de schone taak die oceaan aan data uit te pluizen. Monnikenwerk. Toch: na slechts een jaar wisten de journalisten genoeg om de ‘Panama Papers’ in de piste van het mediacircus te zetten, en te laten zien hoe staatsleiders en andere bekende rijkaards sluw belasting ontdoken of sancties ontweken met behulp van Panamees juridisch advieskantoor Mossack Fonseca. Met succes: regeringsleiders lagen door de Panama Papers acuut onder vuur, sommigen traden af. 

De Panama Papers. Een flinke klus, die toch bijzonder snel werd geklaard. Vierhonderd journalisten, 650 miljoen tweezijdig bedrukte A4’tjes… Da’s een slordige 1,6 miljoen vellen per journalist. Daar in een jaar tijd doorheen zwoegen en ploegen, is, nou ja, erg knap. Tenzij je hulp krijgt van hogerhand. Wat slimme AI-tools, bijvoorbeeld. Om die miljoenen documenten in tientallen verschillende formaten te tackelen, gebruikten de journalisten open-source dataminingtechnologie en grafische databases. Dat wil bepaald niet zeggen dat ze met de voeten op tafel en de handen achter het hoofd achterover konden leunen. Waar technologie hielp om data te ordenen, indexeren en filteren, waren het de vierhonderd breinen die samen wisten over alle personages, plannen, stromannen, brievenbusfirma’s en banken die betrokken waren bij die heimelijke offshore-wereld.

‘Neemt niet weg dat het nog altijd een zeer handmatig en tijdrovend proces was. Verslaggevers moesten hun zoekopdrachten één voor één in een Google-achtig platform tikken op basis van wat ze wisten.’ Dat schrijft Marina Walker Guevara, voormalig directeur strategische initiatieven en netwerk van ICIJ – International Consortium of Investigative Journalists, het netwerk van onderzoeksjournalisten dat de Panama Papers kraakte. Dat kraken gebeurde in 2016. Inmiddels schrijven we 2023 en lijkt kunstmatige intelligentie klaar voor wereldheerschappij. Of we nu willen of niet: de enkelzwikkende snelheid waarmee AI zich ontwikkelt, verandert de manier waarop we werken.

339.932 seksistische tweets labelen, graag

‘Hoe zou ons onderzoek eruitzien als we machine learning-algoritmen zouden inzetten op de Panama Papers?’, vraagt Walker Guevara zich in 2019 af. ‘Kunnen we computers leren om witwassen te herkennen? Kan een algoritme onderscheid maken tussen een legitieme lening en een neplening die is ontworpen om geld onder het tapijt te schuiven? Kunnen we gezichtsherkenning gebruiken om gemakkelijker vast te stellen welke van de duizenden paspoortkopieën toebehoren aan politici of bekende criminelen?’ De antwoorden: ja, ja, en ja.

Brengt ons iets dichter bij huis. Bij het Twitter-onderzoek naar vrouwenhaat in de politiek dat De Groene Amsterdammer in 2021 deed, in aanloop naar de Tweede Kamerverkiezingen. Journalisten Karlijn Saris en Coen van de Ven, met behulp van twee data-onderzoekers van de Universiteit Utrecht, trainden een computermodel om 339.932 tweets te labelen. Tweets die tussen 1 oktober 2020 en 26 februari 2021 zijn gestuurd naar alle vrouwen op Nederlandse kieslijsten. Om het computermodel tot in de puntjes te kunnen trainen, labelde het viertal tienduizend tweets handmatig; daarbij kreeg alleen het zeer expliciete schrijfwerk een label. Het computermodel deed de rest.

De uitkomst van dat onderzoek deed een boel stof opwaaien, want wat bleek: ‘Tien procent van alle tweets gericht aan vrouwen op kieslijsten is haatdragend of zelfs bedreigend. Volksvertegenwoordigers die naast hun vrouw-zijn ook tot een minderheidsreligie behoren of van kleur zijn krijgen extra haat over zich heen.’ Waar vrouwen in de politiek eerder liever zwegen over seksisme, omdat erover praten zonodig schadelijker was, betekende deze bewijslast een voorzichtig startschot het onderwerp dan toch aan te snijden. Een louterende ervaring. Voor politici, voor de media, en voor het publiek. ‘Iets is altijd groter in je eigen beleving. Maar uit dit onderzoek blijkt: ik ben niet gek,’ zei Kaag erover. En hoewel er op sociale media onverminderd kwalijke berichten worden uitgeserveerd, zwijgen de ontvangers er niet meer over en wordt het seksistische beestje bij z’n naam genoemd.

De keerzijde van generatieve AI

AI for good, het kan dus wel degelijk. Maar: het hangt er wel vanaf welke tool je gebruikt. En waarvoor. De computermodellen uit de voorbeelden hierboven zijn door eigen mensen getraind. Dat is (heel) wat anders dan generatieve AI-tools als ChatGPT en Midjourney, waarachter een kwestieus systeem schuilt waar de uitbuiting en vervuiling vanaf druipen, waarvan bronnen en datasets niet traceerbaar zijn, en dat twijfelachtige en stereotyperende algoritmen voortbrengt. Een uitstekende cocktail voor misinformatie, die je voortaan met een paar drukken op de knop het internet op zwengelt. 

Abeba Birhane, cognitief wetenschapper aan Trinity College Dublin, legt zich toe op verantwoorde en ethische kunstmatige intelligentie, en toetst wat er daadwerkelijk allemaal in de gigantische datasets zit waarmee AI getraind wordt. Niet veel soeps, zo blijkt. ‘Het internet is een zeer problematische plek, en helaas de enige plek waar je een dataset kunt krijgen met miljarden bestanden,’ vertelt Birhane in Tegenlicht-aflevering De prijs van AI. ‘Daarbij neemt de kwaliteit van datasets ook nog eens af. Vroeger werd veel tijd gestoken in het verzamelen van data. Er werd veel geïnvesteerd om de data te labelen en men deed van alles om de data op te schonen en verbeteren. Maar dat wordt sinds twee jaar niet meer gedaan. Datasets worden niet meer door mensen gecureerd, in plaats daarvan worden geautomatiseerde systemen gebruikt om datasets te verzamelen.’ En dat is problematisch, waarschuwt Birhane, want die datasets staan bol van kwalijke stereotypen. 

Mediawetenschapper en kritisch cartograaf Vladan Joler plaatst ook kanttekeningen: ‘We hebben bijzonder veel vertrouwen in iets wat we nauwelijks kennen.’ Joler tekende de onmogelijk gedetailleerde kaart Anatomy of an AI System, waarop hij het hele proces achter kunstmatige intelligentie ontleedt. Dat proces is niet chic. Om de algoritmes van zo’n tool bijvoorbeeld snel te kunnen laten rekenen, zijn computerchips nodig. Heel veel computerchips. Om die te kunnen maken, is silicium nodig: zand in hele fijne vorm. Voor het winnen van silicium heb je mijnen nodig. 70% van alle silicium komt uit China, en volgens internationaal onderzoek worden voor het winnen ervan Oeigoerse dwangarbeiders gebruikt.  Is het silicium eenmaal uit de grond, dan komen de smeltovens. Voorts de raffinaderijen. En dan moeten de chips nog gemaakt, gedistribueerd, en geïnstalleerd. En dan hebben we het enkel nog over de chips. Wie de algoritmen traint, is een heel ander – minstens zo akelig – verhaal. 

Minder somber blijkt ChatGPT een bijzonder handige tool voor journalisten. Om spelfouten uit een artikel mee te halen, om koppen mee te snellen, om opzetjes voor artikelen mee te beramen, om vragen mee te bedenken voor een interview, om boven een artikel een passend intro mee te schrijven, of metadata mee in te voeren die knap voldoet aan alle SEO-eisen. Gewetensvraag: kun je als klimaatjournalist of mensenrechtenactivist je metadata voor zoekmachines nog wel laten invullen door deze generatieve AI, de dwangarbeiders, kwalijke algoritmen en stroomslurpende datacenters in het achterhoofd? 

AI for good

Niet alleen doom en gloom, hadden we beloofd. Een goed moment om Laurens Vreekamp het podium op te schuiven, schrijver van The Art of AI, een praktische introductie in machine learning voor mediamakers, en sinds de ontploffing van generatieve AI-tools een veelgevraagd spreker (niet toevallig voert Vreekamp ook het woord tijdens een van onze Tegenlicht Talks op Lowlands dit jaar). Over computermodellen was-ie al enthousiast, maar inmiddels heeft Vreekamp ook alle voors en tegens van generatieve kunstmatige intelligentie grondig bepeinsd. Onderaan de streep is-en-blijft hij positief. ‘Er gaan absoluut dingen mis met generatieve AI. Maar er zijn ook tal van initiatieven die AI inzetten voor de goede zaak. Waar AI-beeldgenerator Midjourney bijvoorbeeld worstelt met een stereotyperende dataset, was daar in no time MissJourney, dat inclusieve beelden van vrouwelijke experts genereert. Waar ChatGPT zijn datasets niet prijsgeeft, biedt LAION hun modellen, datasets en code juist aan ter inzage en hergebruik, zodat je computers niet steeds from scratch hoeft te trainen. En wie zich zorgen maakt over akelige algoritmes, kan z’n hart ophalen bij Algorithmic Justice League.’ 

Vreekamp is hoopvol, vertelt vlot en heeft een bijzonder aanstekelijk enthousiasme. Zijn lijst met hoopgevende AI-initiatieven lijkt oneindig. Een geruststelling om naar te luisteren: ‘Ook te gek: FruítPunch AI. Ken je dat? Van Buster Franken, een Nederlander. Zij lossen met hun wereldwijde AI for Good-gemeenschap de grootste uitdagingen van deze tijd op.’ En inderdaad, wat Franken en zijn internationale netwerk voor elkaar boksen is een podium en applaus waard. Met behulp van AI hebben ze bijvoorbeeld de kleinere, moeilijk zichtbare olielozingen op zee weten te detecteren waardoor tijdig kan worden ingegrepen en vogels en zeezoogdieren worden gespaard. In Tanzania en Kenia helpt de AI-gemeenschap bij het behoud van bossen door vergroeningsprojecten te tracken. Binnenkort start een project waarbij AI wordt ingezet om de verkeersveiligheid in India te verbeteren. Kijk, dat geeft de mens goede moed.

Wat betreft wet- en regelgeving is Vreekamp ook optimistisch: ‘We zijn er echt goed op tijd bij. De Europese Unie is met hun Artificial Intelligence Act wereldwijd de eerste die regels maakt om een meer veilige en transparante kunstmatige intelligentie in Europa af te dwingen,’ vertelt Vreekamp. ‘Ikzelf zit in een expertgroep van de Raad van Europa, daar bespreken we richtlijnen voor verantwoordelijk AI-gebruik binnen de journalistiek. Dus: welke factoren zouden van invloed moeten zijn op de beslissing om AI-tools te gebruiken. Welke tools zijn geschikt, welke niet. Welke redactionele processen zijn geschikt voor automatisering, welke niet. Hoe te zorgen voor goed toezicht op en controle over het gebruik van AI in de journalistiek.’

‘Ook te gek: FruítPunch AI. Ken je dat? Van Buster Franken, een Nederlander. Zij lossen met hun wereldwijde AI for Good-gemeenschap de grootste uitdagingen van deze tijd op.’

Gluren bij de buren

Men’s Journal en Cnet kregen eerder dit jaar de poppen aan het dansen toen bleek dat het wemelde van de onwaarheden in verschillende artikelen die ze met behulp van AI hadden geschreven. Los van de vraag of je het als medium überhaupt zou moeten ambiëren om AI je stukken te laten tikken: vaak meldt een titel het keurig wanneer een artikel (mede) is geschreven door een AI-tool. Dan is het maar duidelijk. ‘Maar,’ schrijft The Observer, ‘wanneer een journalist tijdens zijn onderzoek generatieve AI heeft gebruikt om bijvoorbeeld een rapport samen te vatten, of vragen voor een geïnterviewde te bedenken, en kleine stukjes van die door AI gegenereerde tekst in een artikel terechtkomen, moet dit dan ook gemeld worden?’ En, gooit de Britse zondagskrant vervolgens op: hoe belangrijk is het eigenlijk dat het nieuws dat je leest door mensen is geschreven? ‘Heel belangrijk,’ stellen ze. En daarom hebben ze besloten AI-vrij te blijven. Voorlopig.

Technologietijdschrift Wired gooit het over een andere boeg en formuleerde een aantal spelregels: ‘We publiceren geen verhalen met door AI gegenereerde tekst. Behalve wanneer het hele punt van het verhaal is dat het door AI is gegenereerd. (In die gevallen melden we het gebruik ervan en markeren we de fouten.)’ In afwachting van heldere regels van bovenaf, formuleren veel media ze zelf. Wired voorop. Fijn van hun beleid is dat ze er meteen hun overwegingen bij uitleggen. Waarom het tijdschrift geen verhalen door AI laat genereren, laat zich raden. Maar Wired publiceert ook geen teksten die door AI zijn bewerkt. Hoewel het een bijzonder verleidelijk idee is AI een bestaand verhaal van 1200 woorden terug te laten brengen tot 900 woorden, ziet Wired valkuilen: ‘Afgezien van het risico dat de AI-tool feitelijke onjuistheden of betekenisveranderingen introduceert, is het bewerken van een tekst ook een kwestie van goed kunnen beoordelen wat het meest relevant, origineel of vermakelijk is. Dit oordeel hangt af van het begrijpen van zowel het onderwerp als het lezerspubliek, wat AI niet kan.’ Wanneer Wired het gebruik van een AI-tool wel oké vindt? Om koppen te laten voorstellen, of korte posts op sociale media. Om ideeën voor nieuwe verhalen mee te genereren. Of om mee te experimenteren als onderzoeks- of analysetool.

Als redactie van VPRO Tegenlicht hebben we ook een code voor de omgang met AI geformuleerd:

1. De VPRO kan teksten, afbeeldingen, audio of video’s publiceren die (deels) door AI gegeneerd zijn wanneer de maker vindt dat dit de esthetische of verhalende kracht van een vertelling ten goede komt. We zullen dit altijd expliciet benoemen.

2. De VPRO doet dit alleen wanneer deze door AI gegenereerde publicaties op zijn minst volledig geredigeerd of nagekeken zijn door een mens. Er is dus altijd een echt mens bij betrokken.

3. De VPRO kan door AI gegenereerde tekst, afbeeldingen, audio en video ongewijzigd publiceren alleen wanneer het feit dat AI is gebruikt het punt van het verhaal is. Dit wordt dan ook expliciet benoemd in de publicatie.

4. De VPRO zal in journalistieke producties nooit bewust misleiden met gegenereerd beeld, of suggereren dat AI gegenereerde beelden daadwerkelijk door ons gefilmd zijn.

5. De VPRO kan AI intern gebruiken als tool: om suggesties te doen voor onderwerpen, koppen, invalshoeken, of om visuele ideeën voor verhalen, scènes, of afbeeldingen te genereren. Dit zien we als het visuele equivalent van brainstormen.

6. De toepassingen van AI ontwikkelen zich razendsnel. Deze code is daarom niet in lood gegoten. Zodra de omstandigheden veranderen zal deze aangepast kunnen worden.

Feedback is welkom. Stuur ons een bericht via sociale media.