iFarm.nl

Main menu:

filler
facebook

Quizzen
  Films
  Acteurs
  Actrices
  Albums
  Asterix
  Kuifje
  Nederlanders
  Belgen

Stripverhalen
  Asterix
  Guust Flater
  Kleine Robbe
  Lucky Luke
  Paling en Ko
  Smurfentaal
  en meer...

Overige
  Grappige nummerplaten
  Molbeurs
  Tour-de-France-spel
  Wie is de Mol?

Recent gelezen

het geheugenpaleis

basisboek social media

the third screen

Op de boekenplank

Gelezen in 2011

Gelezen in 2010

Gelezen in 2009

Gelezen in 2007

Gelezen in 2005/2006

Doorzoek blog

Feeds

Categorieën

Archieven

augustus 2014
Z M D W D V Z
« jan    
 12
3456789
10111213141516
17181920212223
24252627282930
31  

Archief voor 'wetenschap'

Op het nieuws

20140121 Vandaag was er in de media aandacht voor mijn Twitteronderzoek. Het begon met een artikel in de Volkskrant over sentimentsanalyse van Nederlandstalige tweets. Naar aanleiding van het artikel heb ik daarna drie korte radio-interviews gegeven (Radio1, RTV Noord-Holland en RTV Emmen). Tenslotte werd het onderzoek ook besproken in het programma RTL Late Night (van Humberto Tan) in het item van Luuk Ikink.

Zie de projectblog voor links naar de diverse nieuwsitems.

Fraude bij filmwedstrijd Bessensap

Het grootste deel van de stemmen op de winnaar van de NWO filmwedstrijd Bessensap is afkomstig van 1 bron, zo blijkt uit een analyse van de stemmen die werden uitgebracht tijdens de wedstrijd.

Bessensap
Figuur: stemaantallen van de beste zes Bessensapfilmpjes in de periode 7 tot 25 maart 2013 met een duidelijk ander stemverloop voor het winnende filmpje van het Erasmus MC (EMC)

Deze maand heb ik meegedaan aan de filmwedstrijd Bessensap van NWO. In deze competitie konden onderzoekers een filmpje van 1 minuut insturen. NWO zou de filmpjes aan journalisten en andere belangstellenden laten zien. Zij zouden dan de beste vijf filmpjes kiezen en die vijf konden een prijs winnen. Ik achtte mijn kansen op een prijs niet zo groot maar deze competitie leek mij wel een mooie gelegenheid om mijn onderzoek onder een groter publiek bekend te maken.

Ik was verbaasd toen na het verstrijken van de deadline bleek dat de populariteit van de 41 inzendingen zou worden gemeten via YouTubelikes. Zo ging de wedstrijd niet meer over wie het meest relevante onderzoek had gedaan maar over wie de meeste vriendjes had die wilden stemmen. Kennelijk was de organisatie ook niet bekend met het bestaan van websites als BuyYoutubeLikes.com, waar je voor een paar dollar zoveel likes kon kopen als je wilde.

Een groot gemis bij de competitie was een overzicht van de tussenstand. Het leek er niet op dat NWO deze zou aanbieden en ook via YouTube was er niet snel een overzicht te krijgen. Ik heb daarom zelf een programma geschreven dat de stemaantallen ophaalde van YouTube en deze overzichtelijk op 1 webpagina plaatste: ifarm.nl/bessensap2013. De overzichten werden eens per vier uur gemaakt. Met het oog op mogelijke fraude heb ik alle tussenstanden bewaard op de website.

De eerste week van de competitie gebeurde er niet veel bijzonders. Maar in week twee was het mis. Het filmpje van het Erasmus MC (EMC) steeg op 14/15 maart in 24 uur van 46 naar 906 likes, een aantal dat bijna drie keer zo hoog was als het filmpje dat tot dat moment aan de leiding stond. Had dit filmpje misschien de landelijke media gehaald?

Tussenstand Bessensap 15 maart 2013 16:00
Figuur: Tussenstand filmwedstrijd Bessensap op vrijdag 15 maart 2013 16:00. Het filmpje “DNA Code” van het Erasmus MC heeft 50% meer likes dan views.

Het vreemde aan de stijging van het EMC-filmpje was dat het aantal views, het aantal keren dat het filmpje was bekeken, niet evenredig meesteeg. Aan het begin van de stijging op 14 maart 16:00, stond het filmpje op 46 likes en 431 views. 24 uur later stond het op 906 likes en 608 views. Het filmpje was in de tussentijd 177 keer bekeken en had 860 nieuwe likes gekregen. Raar.

Deze statistieken kunnen volgens mij op twee manieren worden verklaard. Ten eerste zouden de likes kunnen zijn gegeven door computersoftware waardoor het filmpje niet geladen en dus niet bekeken werd. Ten tweede zouden de likes kunnen zijn gegeven door mensen die op de like-knop hebben gedrukt binnen enkele seconden na het starten van het filmpje en daarna onmiddellijk de pagina hebben verlaten. Dan wordt waarschijnlijk het bekijken van het filmpje niet geteld.

Beide manieren van uitleg wijzen op stemmen die van 1 persoon afkomstig zijn. Dat iemand meerdere keren op hetzelfde filmpje stemt, is bij dit type competitie moeilijk te voorkomen. Maar als het zoals in dit geval gaat om vele honderden stemmen van 1 persoon dan is dat wel een ernstige vervalsing van de competitieuitslag.

Wie verantwoordelijk is voor de extra stemmen, is moeilijk na te gaan. Iedereen kan op websites als de eerder genoemde BuyYoutubeLikes.com likes kopen voor een willekeurig filmpje, ook als je deze niet zelf op YouTube hebt geplaatst. Het is mogelijk dat de extra likes zijn besteld buiten medeweten van de onderzoeker die verantwoordelijk is voor het filmpje. Maar het maakt niet uit wie het gedaan heeft. Het zou netjes zijn als iemand die dit overkomt zijn inzending zou terugtrekken om ervoor te zorgen dat de competitie eerlijk blijft.

De stijging van het aantal likes van het EMC-filmpje is na klachten bij YouTube gestopt. Maar de verworven likes zijn grotendeels blijven staan. De andere filmpjes konden het gat met dit filmpje niet overbruggen en het filmpje is op de eerste plaats blijven staan. NWO heeft het filmpje inmiddels een prijs toegekend. Zij hebben ook geconstateerd dat er vreemde dingen zijn gebeurd bij het filmpje maar zij konden vals spel niet bewijzen. Ik vind dit vooral jammer voor het filmpje dat nu zesde werd en dat hierdoor een welverdiende prijs misloopt.

Wat hebben we nu geleerd van deze episode? Dat YouTubelikes geen ideale manier zijn om de populariteit van filmpjes te meten? Maar dat wist ik al. Gelukkig zijn ze er bij NWO inmiddels ook achter. Dat vals spel loont? Maar dat is iets wat ik niet wil leren.

Onderzoek doen met Twitter

Vandaag is op YouTube een filmpje verschenen van de website die ik in het afgelopen half jaar bij het Netherlands eScience Center heb gemaakt voor het doen van onderzoek met behulp van Nederlandstalige tweets. In het filmpje laat ik zien hoe je groepen tweets kan samenvatten en visualiseren. Het was een erg leuk project om te doen en de website wordt inmiddels door een paar wetenschappers gebruikt.

Het filmpje van 1 minuut doet mee in de Bessensapcompetitie van de Nederlandse Organisatie voor Wetenschappelijk Onderzoek. Aan de meest populaire filmpjes wordt een prijs toegekend: een verfilming van het gepresenteerde onderzoek door een professionele filmmaker. Er zijn vijf van deze prijzen voor de vijf filmpjes die op YouTube de meeste likes verzamelen.

Hier is mijn filmpje:

Als je het filmpje leuk vindt dan kan je dat aangeven door bij het filmpje op het plaatje met de duim omhoog te klikken. Hiervoor moet je het filmpje op YouTube bekijken en moet je zijn ingelogd op Gmail, Google+, Picasa of YouTube.

Je kan ook een kijkje nemen op de Twitterzoekwebsite: http://twiqs.nl/ Daar kan je opzoeken wanneer en waar bepaalde woorden werden gebruikt op Twitter, met welke woorden ze samen voorkwamen en wie ze gebruikten.

Oratie Antal van den Bosch

20121109 Gisteren was ik bij de oratie van Antal van den Bosch in Nijmegen. Het gebeurt niet vaak dat ik bij zo’n lezing ben waarbij een hoogleraar zijn ambt aanvaardt en dit was zeker de eerste keer dat het iemand betrof die dat voor de tweede keer deed. Van den Bosch had namelijk al in 2008 een oratie gegeven in Tilburg: Het volgende woord. De nieuwe lezing getiteld Taal in uitvoering had dezelfde strekking: een pleidooi voor impliciete taalkunde, taalkunde die gebaseerd is op modellen die door computers zijn afgeleid uit tekst. Het nieuwe verhaal heb ik nog niet online gevonden maar het was interessant. Er was veel publiek op de oratie afgekomen en het was leuk om de oudcollega’s uit Tilburg en Antwerpen weer eens te spreken.

Trouwartikel met interview

Leeftijden op Twitter

Al een tijd vraag ik mij af of het mogelijk is om te zien hoe oud de verschillende deelnemers van de socialnetwerksite Twitter zijn. Uit hun profielen is die informatie niet te halen want als je je registreert op Twitter hoef je geen leeftijd of geboortejaar op te geven. Maar hoe kan je er dan anders achter komen welke leeftijden vaak voorkomen op Twitter?

Twee weken geleden bedacht ik een oplossing: sommige gebruikers plaatsen hun geboortejaar in hun Twitternaam, bijvoorbeeld @alex67 of @alex1967. Dat doet zeker niet iedereen maar in mijn Twittercorpus vond ik toch al 17 duizend namen die eindigen op 19XX of 200X. Met deze namen kan je een bevolkingspiramide maken die kan worden vergeleken met de leeftijdsopbouw van Nederland (volgens het CBS):

20120501

Links staat de leeftijdsopbouw in Nederland en rechts die van de Twittergebruikers met berichten in het Nederlands. Opvallend is dat op Twitter gemiddeld veel meer jonge mensen zitten: bijna 83% is jonger dan 40 jaar terwijl 51% van Nederland ouder is dan 40 jaar. Het is geen verrassend resultaat maar het is mooi om dit eens bevestigd te zien met cijfers.

Het plaatje komt uit een presentatie die ik vorige week gaf op een socialmediaworkshop in Avignon (pdf). De cijfers zijn gebaseerd op tweets van februari 2011.

Grodil proefschrift 100

20120416 Vandaag kreeg ik hem dan: het honderdste Grodilproefschift: Neural Correlates of Prosody and Information Structure, op donderdag 10 mei 2012 te verdedigen door Diana Dimitrova. 100 proefschriften in de Grodilreeks in 21 jaar, wat begon met de eerste van Henriette de Swart in 1991. Dit is een mijlpaal!

Paper: Verkiezingen voorspellen met Twitter

twitter In 2011 heb ik samen met mijn collega Johan Bos een methode ontwikkeld om de resultaten van de Provinciale Statenverkiezingen van maart te voorspellen. We hebben deze methode gebaseerd op een onderzoek uit 2010 waarbij het tellen van tweets voldoende was om de resultaten van Duitse verkiezingen te voorspellen. Zo gemakkelijk ging het niet bij ons. We hebben nog van alles extra moeten doen (sentimentanalyse en demografienormalisatie) om een beetje in de buurt te komen van de verkiezingsuitslagen. En zelfs daarmee waren onze voorspellingen nog iets slechter dan die van Maurice de Hond.

Nu hebben we alles netjes opgeschreven en ons paper is geaccepteerd voor de EACL-workshop Semantic Analysis in Social Networks (april 2012, Avignon, Frankrijk). Bij het literatuuronderzoek voor het paper vonden we nog een ander paper waarin het eerste Duitse onderzoek was overgedaan. Daarin zat stevige kritiek op het eerste onderzoek. Zo bleken de onderzochte partijen zo te zijn geselecteerd dat de voorspellingen goed uitkwamen. En toen ze bij de tweets de missende week van vlak voor de verkiezingen toevoegden werden de voorspellingen ook een stuk slechter dan vermeld in het eerste onderzoek. Daarom lukte het dus bij hen een stuk beter dan bij onze experimenten!

De huidige literatuur is pessimistisch over de mogelijkheid om met Twitter verkiezingen te kunnen voorspellen, wat blijkt uit papertitels als How (Not) To Predict Elections. Met deze kennis en met de wetenschap dat we ons systeem flink hadden afgestemd op oude verkiezingsvoorspellingen, hebben we een extra experiment uitgevoerd. We hebben de tweets verwijderd, ons systeem opnieuw getraind op de verkiezingsvoorspellingen en vervolgens zonder invoer(!) de verkiezingen opnieuw voorspeld. De foutmarge van het systeem nam af met meer dan de helft! Zonder tweets deed het systeem het plotseling wel een stuk beter dan de Politieke Barometer en Maurice de Hond. Wat moeten we hiervan denken? Hebben tweets dan juist een negatieve invloed op verkiezingsvoorspellingen? Of hebben we bij dit extra experiment gewoon geluk gehad? We weten niet goed hoe we dit resultaat moeten interpreteren. De discussiesectie van het paper eindigt dan ook met heel veel vraagtekens.

Bij deze een link naar een pdf van het paper en de bijbehorende datasets voor de geïnteresseerden:

Predicting the 2011 Dutch Senate Election Results with Twitter, by Erik Tjong Kim Sang and Johan Bos. In: Proceedings of SASN 2012, the EACL 2012 Workshop on Semantic Analysis in Social Networks, Avignon, France, 2012 (data.zip)

In de krant

20111119 Vanmorgen kreeg ik van verschillende collega’s te horen dat ik in de krant stond. Het ging om berichten op de nieuwssite Nu.nl, een column in de Volkskrant (vrijdag 18 november 2011, blz. V28 onderaan) en een stukje bij de lokale Groningse OogTV. Alle berichten gaan over de Twittercijfers die ik eerder deze week doorstuurde aan de blog Twittermania.nl. Die wijde er op donderdag een blogpost (Twitterreacties) en schreef op vrijdag over de landkaart die ik met Twitterdata heb gemaakt (Twitterreacties). Leuk dat hier zoveel interesse voor is.

Twitterplaatjes

Gisteren hebben we op het werk ademloos zitten kijken naar de Twitterplaatjes van Eric Fischer. Hij heeft van tweets verzonden via smartphones de locatie en de taal opgezocht en daarna heeft hij de tweets met puntjes op een vlak gezet. Een kaart van de wereld werd daardoor zichtbaar met Europa en daarin Nederland prominent in beeld. De verschillende taalgebieden zijn herkenbaar aan de kleuren. Als je inzoomt dan zie je tweets verstuurd vanaf de boot Harlingen-Terschelling en vanuit de chunnel, en zie je Nederlanders aan de kust van Portugal.

Maar wij verzamelen ook al een tijdje tweets. Wat zou er gebeuren als we onze tweets in een plat vlak zouden plotten? Het zijn weliswaar allemaal tweets in het Nederlands maar toch leuk om uit te proberen. Hier is een eerste resultaat:

20111029

De grijze puntjes zijn 2,5 miljoen Nederlandstalige tweets met locatie-informatie verstuurd in juli-oktober 2011. Dankzij de taalrestrictie scharen zij zich automatisch in de vorm van Nederland met daaronder, minder dicht gevuld, Vlaanderen. De rode puntjes zijn de 18.000 tweets uit dezelfde periode die het woord trein bevatten. Het spoornet van Nederland wordt zo zichtbaar.

We kunnen dit soort kaartjes tekenen dankzij de Twitteraars die hun berichten versturen van smartphones en daarbij de huidige locatie van het apparaat doorgeven. Dit is privacygevoelige informatie en maar 1% van de tweets die we binnenkrijgen bevat dan ook locatie-informatie. Maar we zijn er blij mee.

Verkiezingen voorspellen met Twitter

20110303 Bij Informatiekunde aan de RUG hebben we deze week geprobeerd de uitslagen van de Provinciale Statenverkiezingen te voorspellen via Twitter. Het is erg eenvoudig: je verzamelt alle Nederlandstalige Twitterberichten met een partijnaam erin, gooit de dubbele en de negatieve weg, telt wat overblijft en zet de resultaten om in aantallen zetels in de Eerste Kamer. Vervolgens hebben we daar een webdemo omheen gebouwd en die op een groot scherm in de kantine van Letteren geplaatst. We hebben hier veel enthousiaste reacties op gekregen.

De verkiezingen zijn nu voorbij en iedereen wil natuurlijk weten hoe goed onze voorspellingen waren. Er zijn nog geen officiële uitslagen maar volgens de prognoses hebben we van 2 partijen het correcte aantal zetels voorspeld (CU en SGP) en zaten we er in totaal 18 zetels naast. De twee grote peilingen Politieke Barometer en Maurice de Hond hadden voor respectievelijk 1 en 2 partijen het aantal zetels goed en zaten er in totaal 14 zetels naast.

Voor de korte tijd die we hier in hebben gestoken (2 weken) is dit een aardig resultaat. We willen nu de webdemo gaan aanpassen aan aantallen zetels in de Tweede Kamer. Als dat werkt, dan hebben we gratis en voor niets een dagelijkse voorspelling van de zetelverdeling in het parlement, handig voor de volgende verkiezing.