Archief voor 'wetenschap'
Leeftijden op Twitter
Al een tijd vraag ik mij af of het mogelijk is om te zien hoe oud de verschillende deelnemers van de socialnetwerksite Twitter zijn. Uit hun profielen is die informatie niet te halen want als je je registreert op Twitter hoef je geen leeftijd of geboortejaar op te geven. Maar hoe kan je er dan anders achter komen welke leeftijden vaak voorkomen op Twitter?
Twee weken geleden bedacht ik een oplossing: sommige gebruikers plaatsen hun geboortejaar in hun Twitternaam, bijvoorbeeld @alex67 of @alex1967. Dat doet zeker niet iedereen maar in mijn Twittercorpus vond ik toch al 17 duizend namen die eindigen op 19XX of 200X. Met deze namen kan je een bevolkingspiramide maken die kan worden vergeleken met de leeftijdsopbouw van Nederland (volgens het CBS):

Links staat de leeftijdsopbouw in Nederland en rechts die van de Twittergebruikers met berichten in het Nederlands. Opvallend is dat op Twitter gemiddeld veel meer jonge mensen zitten: bijna 83% is jonger dan 40 jaar terwijl 51% van Nederland ouder is dan 40 jaar. Het is geen verrassend resultaat maar het is mooi om dit eens bevestigd te zien met cijfers.
Het plaatje komt uit een presentatie die ik vorige week gaf op een socialmediaworkshop in Avignon (pdf). De cijfers zijn gebaseerd op tweets van februari 2011.
Gepost op dinsdag 1 mei 2012
om 16:23
Categorie: wetenschap.
Reacties: geen
Grodil proefschrift 100
Vandaag kreeg ik hem dan: het honderdste Grodilproefschift: Neural Correlates of Prosody and Information Structure, op donderdag 10 mei 2012 te verdedigen door Diana Dimitrova. 100 proefschriften in de Grodilreeks in 21 jaar, wat begon met de eerste van Henriette de Swart in 1991. Dit is een mijlpaal!
Gepost op maandag 16 april 2012
om 23:40
Categorieën: erikt, wetenschap.
Reacties: geen
Paper: Verkiezingen voorspellen met Twitter
In 2011 heb ik samen met mijn collega Johan Bos een methode ontwikkeld om de resultaten van de Provinciale Statenverkiezingen van maart te voorspellen. We hebben deze methode gebaseerd op een onderzoek uit 2010 waarbij het tellen van tweets voldoende was om de resultaten van Duitse verkiezingen te voorspellen. Zo gemakkelijk ging het niet bij ons. We hebben nog van alles extra moeten doen (sentimentanalyse en demografienormalisatie) om een beetje in de buurt te komen van de verkiezingsuitslagen. En zelfs daarmee waren onze voorspellingen nog iets slechter dan die van Maurice de Hond.
Nu hebben we alles netjes opgeschreven en ons paper is geaccepteerd voor de EACL-workshop Semantic Analysis in Social Networks (april 2012, Avignon, Frankrijk). Bij het literatuuronderzoek voor het paper vonden we nog een ander paper waarin het eerste Duitse onderzoek was overgedaan. Daarin zat stevige kritiek op het eerste onderzoek. Zo bleken de onderzochte partijen zo te zijn geselecteerd dat de voorspellingen goed uitkwamen. En toen ze bij de tweets de missende week van vlak voor de verkiezingen toevoegden werden de voorspellingen ook een stuk slechter dan vermeld in het eerste onderzoek. Daarom lukte het dus bij hen een stuk beter dan bij onze experimenten!
De huidige literatuur is pessimistisch over de mogelijkheid om met Twitter voorspellingen te kunnen voorspellen, wat blijkt uit papertitels als How (Not) To Predict Elections. Met deze kennis en met de wetenschap dat we ons systeem flink hadden afgestemd op oude verkiezingsvoorspellingen, hebben we een extra experiment uitgevoerd. We hebben de tweets verwijderd, ons systeem opnieuw getraind op de verkiezingsvoorspellingen en vervolgens zonder invoer(!) de verkiezingen opnieuw voorspeld. De foutmarge van het systeem nam af met meer dan de helft! Zonder tweets deed het systeem het plotseling wel een stuk beter dan de Politieke Barometer en Maurice de Hond. Wat moeten we hiervan denken? Hebben tweets dan juist een negatieve invloed op verkiezingsvoorspellingen? Of hebben we bij dit extra experiment gewoon geluk gehad? We weten niet goed hoe we dit resultaat moeten interpreteren. De discussiesectie van het paper eindigt dan ook met heel veel vraagtekens.
Bij deze een link naar een pdf van het paper en de bijbehorende datasets voor de geïnteresseerden:
Predicting the 2011 Dutch Senate Election Results with Twitter, by Erik Tjong Kim Sang and Johan Bos. In: Proceedings of SASN 2012, the EACL 2012 Workshop on Semantic Analysis in Social Networks, Avignon, France, 2012 (data.zip)
Gepost op dinsdag 13 maart 2012
om 14:09
Categorieën: erikt, verkiezingen, wetenschap.
Reacties: geen
In de krant
Vanmorgen kreeg ik van verschillende collega’s te horen dat ik in de krant stond. Het ging om berichten op de nieuwssite Nu.nl, een column in de Volkskrant (vrijdag 18 november 2011, blz. V28 onderaan) en een stukje bij de lokale Groningse OogTV. Alle berichten gaan over de Twittercijfers die ik eerder deze week doorstuurde aan de blog Twittermania.nl. Die wijde er op donderdag een blogpost (Twitterreacties) en schreef op vrijdag over de landkaart die ik met Twitterdata heb gemaakt (Twitterreacties). Leuk dat hier zoveel interesse voor is.
Gepost op zaterdag 19 november 2011
om 00:16
Categorieën: erikt, wetenschap.
Reacties: geen
Twitterplaatjes
Gisteren hebben we op het werk ademloos zitten kijken naar de Twitterplaatjes van Eric Fischer. Hij heeft van tweets verzonden via smartphones de locatie en de taal opgezocht en daarna heeft hij de tweets met puntjes op een vlak gezet. Een kaart van de wereld werd daardoor zichtbaar met Europa en daarin Nederland prominent in beeld. De verschillende taalgebieden zijn herkenbaar aan de kleuren. Als je inzoomt dan zie je tweets verstuurd vanaf de boot Harlingen-Terschelling en vanuit de chunnel, en zie je Nederlanders aan de kust van Portugal.
Maar wij verzamelen ook al een tijdje tweets. Wat zou er gebeuren als we onze tweets in een plat vlak zouden plotten? Het zijn weliswaar allemaal tweets in het Nederlands maar toch leuk om uit te proberen. Hier is een eerste resultaat:

De grijze puntjes zijn 2,5 miljoen Nederlandstalige tweets met locatie-informatie verstuurd in juli-oktober 2011. Dankzij de taalrestrictie scharen zij zich automatisch in de vorm van Nederland met daaronder, minder dicht gevuld, Vlaanderen. De rode puntjes zijn de 18.000 tweets uit dezelfde periode die het woord trein bevatten. Het spoornet van Nederland wordt zo zichtbaar.
We kunnen dit soort kaartjes tekenen dankzij de Twitteraars die hun berichten versturen van smartphones en daarbij de huidige locatie van het apparaat doorgeven. Dit is privacygevoelige informatie en maar 1% van de tweets die we binnenkrijgen bevat dan ook locatie-informatie. Maar we zijn er blij mee.
Gepost op zaterdag 29 oktober 2011
om 23:59
Categorieën: erikt, internet, wetenschap.
Reacties: 1
Verkiezingen voorspellen met Twitter
Bij Informatiekunde aan de RUG hebben we deze week geprobeerd de uitslagen van de Provinciale Statenverkiezingen te voorspellen via Twitter. Het is erg eenvoudig: je verzamelt alle Nederlandstalige Twitterberichten met een partijnaam erin, gooit de dubbele en de negatieve weg, telt wat overblijft en zet de resultaten om in aantallen zetels in de Eerste Kamer. Vervolgens hebben we daar een webdemo omheen gebouwd en die op een groot scherm in de kantine van Letteren geplaatst. We hebben hier veel enthousiaste reacties op gekregen.
De verkiezingen zijn nu voorbij en iedereen wil natuurlijk weten hoe goed onze voorspellingen waren. Er zijn nog geen officiële uitslagen maar volgens de prognoses hebben we van 2 partijen het correcte aantal zetels voorspeld (CU en SGP) en zaten we er in totaal 18 zetels naast. De twee grote peilingen Politieke Barometer en Maurice de Hond hadden voor respectievelijk 1 en 2 partijen het aantal zetels goed en zaten er in totaal 14 zetels naast.
Voor de korte tijd die we hier in hebben gestoken (2 weken) is dit een aardig resultaat. We willen nu de webdemo gaan aanpassen aan aantallen zetels in de Tweede Kamer. Als dat werkt, dan hebben we gratis en voor niets een dagelijkse voorspelling van de zetelverdeling in het parlement, handig voor de volgende verkiezing.
Gepost op donderdag 3 maart 2011
om 14:50
Categorieën: erikt, verkiezingen, wetenschap.
Reacties: geen
TV Noord
Ik ben vanmiddag geïnterviewd door TV Noord in verband met de quizcomputer Watson die meedoet aan de Amerikaanse tvshow Jeopardy: item van TV Noord.
Gepost op dinsdag 15 februari 2011
om 18:52
Categorieën: erikt, wetenschap.
Reacties: geen
Vragen en antwoorden
Vandaag kregen wij op de universiteit een groep scholieren op bezoek. Ik wilde ze ons vraag-antwoord-systeem Joost demonstreren maar dat bleek stuk te zijn. Ik heb ze daarom laten spelen tegen een programma dat ik een jaar of vijf geleden in Amsterdam heb geschreven: Felix. Dit programma beantwoordt vragen gesteld in het Nederlands op basis van de eerste zinnen van de artikelen in de Nederlandse Wikipedia. De scholieren (drie groepen), de aanwezige docenten en het systeem moesten de volgende tien vragen beantwoorden:
- Hoeveel is 322-233?
- Wat is de hoofdstad van Griekenland? (antwoord)
- Wat voor soort dieren zijn meerkatten? (antwoord)
- Hoe heet een skateboard met twee wielen?
- In welk jaar is koningin Beatrix geboren? (antwoord)
- Voor welke voetbalclub speelt Wesley Sneijder?
- Past een volwassen walvis in een lucifersdoosje?
- Welke actrice speelde de Mol in Wie is de Mol 2010?
- Op welke dag van de week viel Hemelvaartsdag in 2009?
- Welke Canadese zanger had in 2010 een hit met het nummer “Baby”?
De drie groepen scholieren ontliepen elkaar niet veel, met respectievelijk 7, 7 en 6 goede antwoorden. De docenten haalden 6. Zij misten onder andere antwoorden 4 en 10. Felix eindigde onderaan met 5 goede antwoorden. Het systeem is vooral goed in vragen naar definities maar met andere vormen van vragen heeft het moeite.
Gepost op vrijdag 4 juni 2010
om 00:14
Categorieën: erikt, wetenschap.
Reacties: geen
Dongle
De aanstaande CLIN-conferentie voor Nederlandse en Vlaamse computertaalkundigen is aangekondigd als een wifi-vrije conferentie. Supersuf natuurlijk want zo kan ik niet iedereen mijn mooie webdemo laten zien. Als oplossing voor dit probleem heb ik een dongle aangeschaft. Dit is een apparaatje dat je in de usb-aansluiting van je computer kan stoppen waarna je contact kunt maken met Internet via het mobiele telefoonnetwerk.
Ik heb gekozen voor het goedkoopste abonnement Mobiel Internet bij XS4ALL voor twee tientjes per maand. Ik heb toch al een account daar en de verbinding wordt gemaakt via het KPN-netwerk, wat me betrouwbaar lijkt. Zondag besteld en een week later op dinsdag bezorgd. Het was bijna plug-and-play: ik had alleen nog het stappenplan van de website nodig. En het werkt! Deze blogpost is via de dongle verstuurd.
Dit is al de tweede keer dat een CLIN-conferentie leidt tot een aanschaf van een nieuw gadget. Toen de conferentie vier jaar geleden in Amsterdam werd gehouden, kocht ik speciaal daarvoor mijn eerste digitale camera om conferentiefoto’s mee te maken. Kennelijk ben ik een grote fan van dit evenement.
Gepost op woensdag 3 februari 2010
om 00:38
Categorieën: erikt, hardware, wetenschap.
Reacties: geen
Twee promoties
Deze week zijn twee van mijn oudcollega’s tot doctor gepromoveerd. De eerste was donderdag in Groningen Sake Jager op een proefschrift over computer-ondersteund taalonderwijs. Dezelfde verwarde professor van drie weken geleden trad weer op als promotor. Maar deze keer bedacht hij zich tijdens uitspreken van de felicitaties en bevorderde de kandidaat alsnog officieel tot doctor.
Vrijdag was ik in Amsterdam bij de promotie van Loredana Afanasiev over het testen van XML-talen. Interessant onderwerp, ook met de kanttekeningen uit de praktijk van professor Kersten van MonetDB. Het publiek was massaal komen opdagen maar de corona was met 6 man opvallend leeg. Dat laatste zal ongetwijfeld met het weer te maken hebben gehad. Het treinverkeer liep nog niet helemaal soepel die dag.
Gepost op zaterdag 19 december 2009
om 01:05
Categorieën: erikt, wetenschap.
Reacties: geen


