Daarom stellen we de data en de code achter het onderzoek naar het kameraanbod op Kamernet openbaar beschikbaar. Dat doen we hier op argosonderzoekt.nl maar ook op Github, de plek waar de meeste programmeurs hun code delen en waar je makkelijk kan samenwerken.
Hier kan je de verantwoording van ons dataonderzoek lezen. Lees die eerst om de motivatie en keuzes van het onderzoek te begrijpen.
Wij vinden transparantie van ons onderzoek belangrijk. Of, zoals het in de coding community heet: we hechten aan open source standaarden. Zodat jij ons kan controleren en verbeteren maar ook verder kan gaan waar wij gebleven zijn.
Je eigen onderzoek
Er zit veel meer potentie in de code en de data dan wij hebben gebruikt voor de verhalen tot nu toe. Wij hebben bijvoorbeeld ‘slechts’ 5 weken Kamernet binnengehaald. Maar ben je geïnteresseerd in het kameraanbod in jouw eigen regio? Dan zul je soms langer moeten scrapen om voldoende massa binnen te halen om wat te kunnen zeggen over het aanbod in kleinere steden. Met deze code kun je zelf advertenties binnentrekken en analyseren of kamers te duur worden aangeboden.
Daarnaast keken wij in ons onderzoek specifiek naar kamers. Kamernet biedt echter advertenties van veel meer woonvormen zoals: appartementen, studio’s, anti-kraak woningen. Ook die worden door de scraper verzamelt en kunnen dus ook geanalyseerd worden. Bijvoorbeeld op wooneigenschappen zoals de grootte van de woningen, hun prijsverschillen en de soort verhuurder die ze aanbiedt. Je zal dan wel nieuwe code moeten schrijven voor de data-analyse.
Onthoud tenslotte dat kleine woningen niet alleen voor studenten bedoeld zijn. Ook jongeren die de jeugdzorg verlaten hebben bijvoorbeeld dringend behoefte aan goedkope woonruimte, net als asielzoekers met een verblijfsstatus, ex-gedetineerden of jongvolwassenen die dak- of thuisloos zijn geweest. Het gebrek aan goedkope woonruimte werkt dus ook door in de zorg aan kwetsbare groepen. Ook daarover hebben we veel gegevens beschikbaar. Wist je bijvoorbeeld dat we afgelopen jaar alle beschikbare informatie hebben opgevraagd over dakloosheid per gemeente? Die gegevens vind je hier.
De Github repository
De code zelf is te vinden in de ‘Github repository’ van onze datajournalist Reinier Tromp. Github maakt gebruik van Git: een software voor versiebeheer. Hier vind je niet alleen de code en de data maar ook achtergronddocumenten die hebben geholpen bij het onderzoek.
Net als het onderzoek zelf, bestaat de code uit grofweg tweede onderdelen. Ten eerste de scraper, een computerscript dat zelf advertenties verzamelt en in een database opslaat. Daarvoor is gebruik gemaakt van ‘Scrapy’. Scrapy is een open source framework voor het verzamelen en opslaan van data van websites. Scrapy heeft een vrij steile leercurve, maar als je het eenmaal onder de knie hebt is het een zeer degelijke methode voor grote projecten zoals KAMER TE DUUR.
Het tweede deel van de code is waar de data wordt samengevoegd, schoongemaakt en geanalyseerd. De code hiervoor vind je in het bestand ‘puntenstelsel.py’.
Voel jezelf vrij om de code hier te downloaden, forken of zelfs bij te dragen. Als je op een nieuwe ontdekking stuit, stuur dan even een mailtje naar r.tromp@vpro.nl. Ben je journalist en maak je een nieuw verhaal op basis van de dit project, vermeld dan Argos. Bij vragen kan je natuurlijk ook mailen.
Happy coding!