Analyseer grote hoeveelheden tekst en maak er een netwerkkaart van

Rond de uitzending 'Big data: de Shell search' heeft Tegenlicht de Powermap ontwikkeld. Een tool waarmee journalisten teksten kunnen analyseren en netwerken in kaart kunnen brengen.

In één oogopslag zien welke namen, organisaties, tijdstippen en locaties voorkomen in een grote bak ongestructureerde tekst. En vervolgens met die informatie aan de slag gaan om personen en organisaties in kaart te brengen en met elkaar te verbinden. Dat is wat de Powermap-tool mensen in staat stelt om te doen. Tijdens het werken aan de aflevering 'Big data: de Shell search' is simultaan aan deze tool gewerkt. Een alphaversie is nu klaar om getest te worden.

Twee onderdelen

De Powermap bestaat uit twee verschillende delen: een visuele bladertool voor tekstuele databases en een netwerktool. Het eerste deel is gebaseerd op een openbron-programma van Stanford. Deze Stanford Named Entity Recognizer (NER) kan in een tekst namen van personen, organisaties, tijdstippen en locaties herkennen. Die worden vervolgens weergegeven in een schema waardoor je in een oogopslag kan zien welke namen, organisaties of locaties vaak voorkomen in een groot tekstbesand.

Het tweede deel is de netwerktool. Dit werkt met een zogenaamde graphdatabase. Zo'n database legt relaties tussen onderdelen in de database. Die worden gepresenteerd als een visueel netwerk, waar je doorheen kunt klikken en zo ontstaan er verbanden en relaties. Dat stelt de gebruiker in staat om de connecties in een netwerk van personen en organisaties inzichtelijk te maken.

In de praktijk

Dus hoe zou zoiets in de praktijk kunnen werken? Stel dat een journalist een hele stapel emails krijgt toegespeeld die mogelijk nieuwswaarde hebben. En het zijn er niet tientallen, maar duizenden. Met de Powermap van Tegenlicht kan dan in korte tijd een overzicht worden gepresenteerd van de namen, organisaties en tijdstippen die het meest voorkomen in die emails.

Daarmee krijgt de journalist snel een beeld van waar de informatie over gaat. Zijn het allemaal namen van politici? Of misschien van medische wetenschappers? In combinatie met veel genoemde organisaties en een idee van over welke periode de mails gaan, is een beeld te krijgen van de duizenden emails zonder er ook maar een te hoeven lezen.

Vervolgens kan de journalist in die rij namen op zoek gaan naar de personen die interessant zijn. Deze personen zijn aan een powermap toe te voegen. Door het CV van een persoon handmatig in te vullen, komt er informatie over bedrijven en opleidingen in de database. Hebben twee personen bij eenzelfde bedrijf gewerkt of dezelfde opleiding gedaan, dan verschijnt er een lijn tussen die twee personen. Zo ontstaat het netwerk dat de journalist maakt en uiteindelijk kan publiceren.

Verdere ontwikkelingen

Tijdens het maken van de aflevering 'Big data: de Shell search' hebben researchers van Tegenlicht informatie uit de Wikileaks-cables in de Powermap geladen. Daarvoor is eerst een selectie gemaakt van welke cables werden geanalyseerd. Dat ging alleen om cables waar zowel Shell als Iran in voorkomen. Op basis van redactioneel onderzoek werd besloten welke personen aan de Powermap werden toegevoegd. Omdat de tool simultaan werd ontwikkeld, was het nog niet mogelijk al ontdekkingen te doen met de Powermap.

Daarom komt er nu een vervolg in de vorm van een pilotproject. Een groot aantal jaarverslagen van Nederlandse bedrijven, politieke partijen en andere organisaties wordt toegevoegd aan de Powermap. Met als doel om te onderzoeken of we op basis van die informatie in kaart kunnen brengen wie de machtigste personen in Nederland zijn. Ongeveer 50 journalisten worden uitgenodigd om deel te nemen aan deze kortlopende pilot

Presentatie Powermap

Heeft u interesse in de Powermap? Kom dan op dinsdag 22 oktober naar de Tegenlicht Meet Up in Pakhuis de Zwijger. Hier wordt de Powermap gepresenteerd en lichten we het pilotproject verder toe.