• Klikdinges
  • Posts
  • Klikdinges #23: De text-mining edition

Klikdinges #23: De text-mining edition

Dankzij Ionica Smeets, Nick Kivits en Jules van der Leeuw hebben veel nieuwe mensen deze nieuwsbrief ontdekt, dus . Ik ben nu ruim over de drempel van 250 abonnees, en de 300 is nu zelfs in zicht. Heel, héél gaaf.

Een lange Klikdinges deze keer. Laat vooral weten wat je van deze nieuwsbrief vindt door onderin de duimpjes omhoog/omlaag te gebruiken, of door te replyen op deze mail.

Mijn Afgelopen Twee Weken

Mijn werk is raar. De ene maand duik ik diep in de Nederlandse wapenhandel, daarvoor onderzoek ik hoe de politie op sociale media de identiteit van verdachten en slachtoffers prijsgeeft... en nu maak ik het typische taalgebruik van Nederlandse rappers meetbaar.

In deze editie van Klikdinges wil ik graag in grote lijnen uitleggen hoe ik zo'n onderzoek aanpak. In dit geval begon het met deze piekfijne analyse van The Pudding.

Words central to hip hop and artists’ vocabularies.

Hierin wordt het taalgebruik van Amerikaanse rappers onderzocht. En zoals met zoveel onderwerpen, kun je vervolgens bedenken: 'Hoe kan ik dit ver-Nederlandsen?'

Wat dat betreft is de Nederlandse rap-scene nog veel interessanter dankzij alle invloeden uit Marokko, Suriname en Turkije. Mijn vermoeden is dan ook dat hiphop een van de grote innovators is de Nederlandse muziek.

Het eerste wat ik doe, is bekijken waar ik deze data eventueel kan verzamelen. Genius.com is de grootste database van lyrics, en elke artiest heeft zijn eigen unieke code. Met die code kun je de gegevens via een API oproepen. Een mooie beginpunt.

Vervolgens heb ik twee lijsten samengesteld: eentje met Nederlandstalige rappers, een ander met de Marco Borsato's, Bløf's en Willeke Alberti's van deze wereld. Ik heb al hun Genius-artiestencodes verzameld, zodat ik 100% zeker weet dat ik straks de gegevens van de juiste artiest verzamel.

(Dit is overigens het saaiste deel van het werk. Naam artiest opzoeken, code opzoeken, code in Excel plakken, repeat.)

Wellicht dat ik op een later moment al mijn code kan delen, maar voor nu mag je weten dat ik alles in het gratis programma R verzamel, verwerk én visualiseer. In R doe ik (via de lijst met artiestencodes) de volgende bewerkingen:

  • Zoek alle nummers van deze artiest op (via de artiestencodes).

  • Zoek alle lyrics van die nummers op.

  • Verzamel deze lyrics (hij slaat ze per regel op), en verzamel daarbij ook algemene gegevens over dat nummer (artiest, titel nummer, etc.). Geef ook aan of dit uit mijn lijst van rappers of overige artiesten komt.

  • Verwijder alle interpunctie uit deze teksten.

  • Deel de tekst op in individuele woorden.

  • Verwijder stopwoorden zoals 'de', 'het' en 'een'.

  • Tel de woorden bij elkaar op, dus het woord 'man' is door deze artiest x keer genoemd.

  • Tel het totaal aantal woorden per artiest op. Daarmee kan ik filteren op artiesten waar ik maar een beperkt aantal woorden van heb.

  • En vervolgens doe ik (na veel filteren, gegevens opschonen, etc.) een zogeheten TF-IDF-analyse. Kort gezegd: wat zijn de woorden die typisch zijn voor bepaalde artiesten of genres muziek. Hier een kort stappenplan hoe zo'n analyse in R werkt.

  • Filter, visualiseer, en bekijk of het resultaat logisch is. Zo niet, dan ergens halverwege deze lijst instappen en wijzigingen toepassen.

Naast dit onderzoek heb ik ook nog tijd om andere dingen af te ronden. Voor het radioprogramma Spraakmakers zocht ik uit of de aanwezigheid van lokale partijen invloed heeft op de opkomstpercentages in die gemeente. Spoiler: nee.

En ik heb in de afgelopen weken 2 cursussen Datajournalistiek voor Beginners gegeven (tip: de volgende staat gepland op 13 november). Hopelijk heb ik daarmee weer een stuk of 20 nieuwe datajournalisten mee afgeleverd.

Toffe Klikdingesen

Als je regelmatig met data werkt, dan kom je vaak zogeheten outliers tegen: een meetpunt dat ver boven of onder je andere gegevens uitsteekt. Soms is dat juist waar je nieuws te vinden is, maar hoe visualiseer je zoiets? Op FlowingData een paar uitstekende tips hoe je dat kunt aanpakken.

De tweede link naar een productie van The Pudding (verdiend, want ze maken geniale visuele essays). In dit artikel (zet je geluid aan!) analyseren ze de laatste show van standup-comedian Ali Wong met data.

Els Engel maakte (geïnspireerd op Jan Willem Tulps visualisatie) een mooie visualisatie over het stemgedrag tijdens de gemeenteraadsverkiezingen in 2014. Erg mooi (maar kom op FD, fix even die metadata zodat websites netjes in op social media staan).

NOS publiceerde afgelopen week een interessant artikel waarin het gaat over jouw gemeente. Vul in waar je woont om te zien hoe de huizenmarkt in jouw gemeente ervoor staat. 🏘 🏗 👷‍♀️

Iedereen weet hoe een lijngrafiek werkt, maar weet je ook hoe zoiets klinkt? Rare vraag, maar bekijk deze interactieve visualisatie eens met geluid aan.

Geen echte Klikdinges, maar wel ontzettend nuttig. Als je onderzoek doet met open source-informatie, dan is archivering van het hoogste belang (want dit materiaal kan ook op elk moment weer verdwijnen). Bellingcat geeft tips hoe je je bronmateriaal kunt opslaan en doorzoeken.

Vind Ik Leuk

Over 2 weken een nieuwe Klikdinges. Heb je goede tips die per se in deze nieuwsbrief moeten komen? Laat het me weten via Twitter!