- Klikdinges
- Posts
- Klikdinges #97: Met deze 5 tools kan iedereen scrapen
Klikdinges #97: Met deze 5 tools kan iedereen scrapen
In deze Klikdinges bespreek ik vijf tools om te leren scrapen. Zowel beginners als gevorderden kunnen er vast iets uitpikken waar ze mee aan de slag kunnen.
En verder:
Het woord 'klikdinges' stond als in De Volkskrant
Binnenkort uitzendingen over de digitale verkiezingen
Maak je eigen Netflix-aanbevelingstool in R en Shiny
Mijn Afgelopen Twee Weken
Weet jij al op wie je gaat stemmen? Ik absoluut niet. Ik ben ook nog iets te druk geweest met werk om me echt in de partijen te verdiepen. Ironisch genoeg omdat ik nu bezig ben met twee tv-uitzendingen over de verkiezingen.
Samen met NOS en De Groene Amsterdammer ben ik al een paar maanden bezig met onderzoek. We willen weten welke gevolgen deze digitale verkiezingen hebben op de campagnes. Hoe gaan techbedrijven om met de boodschap van partijen? Op 7 en 14 maart om 21.00 uur (NPO2) kun je onze uitzendingen hierover bekijken. Allemaal opgenomen op onze geweldige locatie in Culemborg (De Gelderlandfabriek).
Maar ik kijk ook al even over de verkiezingsperiode heen. Helaas kan ik er nog niet al teveel over zeggen, maar ik ben bezig met een onderzoek waarbij ik veel moet scrapen. En dat roept vaak vragen op bij Klikdinges-lezers. Hoe begin je daarmee?
TL;DR Ik maak meestal mijn eigen scrapers, maar het kan ook ontzettend handig zijn om andere diensten te gebruiken. Om je een beetje op weg te helpen, som ik hier een aantal van mijn favoriete mogelijkheden op.
Outwit Hub. Dit is mijn favoriete tool om te scrapen. Eenvoudig in gebruik, en talloze functies om websites te scrapen. Een licentie kost ongeveer β¬100, maar die gaat in principe onbeperkt mee.
Parsehub.io. Als je geen enkele ervaring met scrapen hebt en het principe nog niet helemaal snapt, probeer dan eens Parsehub. Hiermee kun je gewoon klikken op de data die je wil. Ja, het is zeer beperkt qua functionaliteit. En ja, je kunt er niet superveel data mee verzamelen. En ja, om meer te kunnen moet je betalen. Maar het is een begin.
Crawly.diffbot. Een heel interessant idee: voer een link in op deze site, en je krijgt een hele bak aan data netjes geordend in je mail. Je kunt telkens maar 1 website invoeren, maar voor zulke klusjes is het echt perfect.
Twint. Niet alle scrapers zijn open-ended tools. Soms is het juist handig om hele specifieke scrapers te hebben, zoals Twint. Hiermee kun je buiten de Twitter-API om tweets binnenhalen. Als je comfortabel bent met Command Line Interface, dan is Twint echt easy peasy.
Rvest. Ik noemde Outwit Hub mijn favoriete tool, en Rvest is mijn favoriete package. Je moet met Rvest namelijk zelf je code schrijven in R, maar wow, wat een heerlijk flexibele manier om te scrapen.
Ik moet hier ook even een s o geven aan Maarten Lambrechts. Dankzij zijn tutorial (waarschijnlijk nu wel een beetje outdated) heb ik leren scrapen in R. Dat maakte voor mij zoveel mogelijkheden zichtbaar in R: daar pluk ik nu nog steeds de vruchten van.
En dat allemaal dankzij een tutorial waar je met een kleine middag doorheen bent. Hoe gaaf is dat?
When the president of the parliament states that there are some MPs βdoing nothing,β you know what to do as a data journalist: you turn to the numbers. This is how I did that and how I got a scatter plot in a printed paper and an interactive one online.
En werelddominantie wordt langzaam maar zeker een feit. In deze column van Ionica Smeets komt het woord Klikdinges voor. π₯³ En nee, dat is geen toeval
Toffe Klikdingessen
Voor gevorderde R-gebruikers is dit zo'n superleuk en leerzaam project: maak je eigen Netflix aanbevelingstool. Je leert gaandeweg een Shiny-app te maken, en hoe je goede aanbevelingen kunt doen op basis van een aantal variabelen. Denk ook vooral na over de toepassingen die verder mogelijk zijn.
Iceberger β joshdata.me
Gewoon voor de leuk: teken een ijsberg en bekijk hoe hij in een 2D-vlak zou drijven.
Kijk, ik vind The Hitchhiker's Guide een klein beetje overschat. Het eerste boek was tof, daarna wordt het echt heel snel vrij suf en te random. Maar dit soort games zijn geweldig. En het helpt als je de boeken een klein beetje kent.
Alvast een opmaat naar onze tv-uitzendingen (en tip van @Liesbeth_Smit, die deze cursus heeft ontworpen): hoe word jij gemanipuleerd op social media? Goed om een keer door te nemen, zodat je je bewust wordt op hoeveel manieren jouw gedrag wordt gestuurd.
Nog zo'n handige pagina vol tips en info. De Goede Zaak zet zich al een tijdlang in voor een veilig online klimaat waarin we gesprekken en debatten kunnen voeren. Helaas wordt dat momenteel te vaak verziekt door haataccounts, trollen en doelgerichte intimidatie. Deze toolkit helpt je om met zulk gedrag om te gaan.
Dit is geen website van Pointer. Was het maar zo. Klik ergens op je scherm, en deze site wijst aan waar je pointer staat.
Ik werd door @dld_nieuws getipt over deze interactive van Tagesspiegel. Het idee is best eenvoudig, maar zo doeltreffend. Een tijdlijn van een jaar corona, begeleid door een besmettingsgrafiek.
Vind Ik Leuk
De podcast Reply All gaat ten onder aan een van zijn eigen afleveringen over schandalen op het werk
Reminder: Facebook is trash
Jeugdsentiment: hoe is het nummer Thong Song van Sisqo gemaakt?
Goede tip van @NickKivits: in zoekmachine Bing kun je met de linkfromdomain zoeken op uitgaande urls (zoals dit voorbeeld)
Hoe Daft Punk een sample maakte voor One More Time
Best een goede vergelijking hoe slecht kranten hun product verkopen (via de uitstekende nieuwsbrief De Nieuwe Lezer)
My Heritage heeft sinds kort een hele creepy 3D-functie π±
Dit Tiktok-account debunkt fake psychologie-claims
Tot over twee weken. En blijf gezond!
Erg fijn om te leren scrapen, maar wat moet je met al die gegevens? Hopelijk vind je een mooie aanleiding voor een baanbrekend onderzoek, en het Handboek Internetresearch & Datajournalistiek kan je vervolgens helpen om dat tot een goed einde te brengen.