Statistiek


Merkwaardig toch, dat er elk jaar iets vreemd is met de berichtgeving omtrent de nieuwe ranglijst van corrupte landen van Transparency International, zie eerder en eerder. Dit jaar wil het ANP ons doen laten geloven dat het toch maar bar en boos is gesteld, met die corruptie in de wereld. Meeste landen scoren slecht op corruptielijst, luidt de kop. Hoezo?

Bijna driekwart van de 178 landen op de jaarlijkse corruptielijst van Transparency International scoort dit jaar slechter dan gemiddeld.

Tja. Als dat inderdaad betekent wat het lijkt te betekenen, dan staat hier eigenlijk alleen maar dat de verdeling van corruptie nogal scheef is, zodat de mediaan hoger is dan het gemiddelde. Over de toestand van de corruptie in de wereld zegt dat vrij weinig.

In een opmerkelijk stukje technische analyse heeft (nota bene) het CBS berekend dat aandelen in Nederland beter renderen in de eerste helft van het jaar. Het bewijs: van de zes decennia met data is in vijf gevallen “het koersrendement in het eerste halfjaar substantieel hoger dan in het tweede halfjaar”.

Dat kan haast geen toeval zijn. Of misschien toch? Als het meest renderende halfjaar willekeurig wordt bepaald met kans 1/2 dan is de waarschijnlijkheid van deze gebeurtenis, even rekenen, 9,4%. Niet echt significant weinig, en dat is eigenlijk wel opmerkelijk omdat de Amerikaanse aandelenmarkten tijdens de periode van analyse een heus Januari-effect kenden. Zoals dat gaat is ook die regelmatigheid inmiddels bezweken aan zijn bekendheid [pdf].

Bergwandelen is gevaarlijker dan skiën, zo meldt de Volkskrant op last van het Oostenrijks persbureau. Verrassend! Hoe zit dat!? Welnu,

Vorig jaar kwamen in de alpenrepubliek 92 mensen om het leven tijdens een wandeltocht in de bergen. Het afgelopen winterseizoen stierven 44 skiërs.

Tja. Zo lust ik er ook nog wel een paar. Op een keukentrapje staan is gevaarlijker dan zwemmen tussen piranhas, want vorig jaar kwamen meer mensen om bij een val van een keukentrapje dan door een aanval van piranhas. Naar je werk fietsen is gevaarlijker dan met een elektrische heggenschaar je keel doorzagen, want vorig jaar kwamen er meer mensen om toen ze naar hun werk fietsten dan toen ze… afijn, u voelt um al. 

Het meest trieste is misschien nog wel dat een journalist zo’n bericht zomaar klakkeloos overschrijft.

Thijs had bijna gelijk. Nederland won van Uruguay, en als gevolg daarvan zijn de kansen dat ons land wereldkampioen wordt gestegen naar 39% volgens Betfair, een marktplaats voor weddenschappen. Dat is net iets minder dan de 41% die Thijs berekende op basis van Bayesian updating voor de wedstrijd. Blijkbaar zijn de handelaren op basis van het getoonde spel gisteravond toch net iets minder positief over de kansen van Nederland dan ze zouden zijn geweest puur op basis van alleen de informatie dat Nederland heeft gewonnen.

Met wat aanvullende Bayesiaanse analyse kunnen we meteen uitrekenen voor wie we vanavond moeten zijn, bij die tweede halve finale. Betfair geeft voor Duitsland een kans van 47.6% dat ze vanavond winnen, en een kans van 29.4% dat ze wereldkampioen worden. Dat impliceert dat een finale Duitsland-Nederland met kans 61.8% wordt gewonnen door Duitsland.

De kans dat Spanje vanavond wint staat op 52.9%, de kans dat ze wereldkampioen worden op 32.3%. Dat betekent dat een finale Spanje-Nederland met kans 61.1% wordt gewonnen door Spanje.

Oranje maakt dus een betere kans tegen Spanje dan tegen Duitsland.

De kampioensvlag mag dan wel klaarliggen voor het Nederlands elftal, er doen nog drie andere landen mee met hoge verwachtingen van het toernooi. Wie wint aanstaande zondag de cup? Daarvoor kunnen we, aldus sporteconoom Ruud Koning, het beste kijken naar de odds bij de verschillende bookmakers. De informatie in die (zeg maar) prijzen weerspiegelt de inzichten van kenners wereldwijd, die bereid zijn geld in te zetten op hun voorspelling.

Corrigeren we voor de winstmarge van de bookmaker, dan is de kans dat Nederland wereldkampioen wordt bij Betfair en Oddschecker op dit moment beiden 30%. Spanje doet 32%, Duitsland tussen de 30% en 32%. De kans dat Nederland in de finale speelt is wel groot: zo’n 74%, volgens Oddschecker.

Met de kans op het kampioenschap en de kans dat we de finale spelen kunnen we ook uitrekenen wat de kans is dat we de cup winnen, gegeven dat Oranje dinsdag Uruguay verslaat (dit is een toepassing van het theorema van Bayes). Als we langs Uruguay komen, neemt de kans dat we wereldkampioen worden toe tot 41%.

Blijft u dus vooral nog even rustig.

In economenblad ESB staat vandaag een bijzonder intrigerend artikel van Loek Groot en Michel van de Velden over het voorspellen van voetbaluitslagen en, meer concreet, het invullen van de WK-po0l. De auteurs beginnen met wat eenvoudige tips (voorbeeld: als je punten krijgt voor elk goed voorspelde aantal doelpunten dat een team maakt vul dan altijd een 0 in, wat dat is nu eenmaal de meest voorkomende score). Vervolgens geven de auteurs op basis van Poisson parameters en Elo- en Voros-ratings een schatting van winkansen en meest waarschijnlijke uitslagen.

Toch heb ik mijn twijfels of het verstandig is om op basis hiervan je WK-pool in te vullen. De impliciete suggestie (zeker in het artikel op Z24) lijkt dat je de po0l zodanig moet invullen dat je je verwachte score maximaliseert door steeds de meest waarschijnlijke antwoorden te geven (zie bijvoorbeeld ook hier). En volgens mij is dat niet verstandig.

Natuurlijk, wie betaald wordt op basis van de score die hij haalt, moet de meest waarschijnlijke uitkomsten invullen. Maar de meeste pools werken zo niet. Alleen degene met de hoogste score krijgt een prijs. En daarom kan het verstandig zijn om te speculeren door juist niet de meest waarschijnlijke scores in te vullen. Wie op safe speelt zal nooit een uitschieter zijn. En wie geen uitschieter is, zal nooit de pool winnen. Het maximaliseren van de kans op winst is heel iets anders dan het maximaliseren van je verwachte score.

Een eenvoudig voorbeeld. Stel Brazilie heeft 80% om van Ivoorkust te winnen, andersom is de kans 20%. U doet mee aan een pool met 10 deelnemers, waarvan de andere 9 allemaal Brazilie tippen. Dat land heeft immers de grootste kans om te winnen. Wat doet u? Als u ook Brazilie tipt, heeft iedereen dezelfde voorspelling, zal de winnaar willekeurig worden getrokken, en heeft u dus 10% kans de pool te winnen. Maar als u Ivoorkust tipt, dan is er slechts een kans van 20% dat u gelijk heeft, maar als u gelijk heeft, wint u ook zeker de pool. Ergo: de kans dat u de pool wint is dan 20%, en dat is meer dan wanneer u het favoriete Brazilie tipt.

Misschien dat ik toch maar ga inzetten op een finale Japan – Honduras.

Het politieke debat over beperking van de hypotheekrenteaftrek heeft de woningmarkt geen goed gedaan.

zo meldt de Volkskrant. En waar zou dat dan uit blijken?

Het aantal afgesloten hypotheken is de eerste twee maanden van dit jaar gedaald met 11 procent ten opzichte van een jaar geleden.

Een hypotheek afsluiten is een langdurige geschiedenis: tussen het moment dat je een huis besluit te kopen en daadwerkelijk bij de notaris zit om de hypotheek af te sluiten zit al snel een maand of 1 tot 2. Wie in de eerste twee maanden van dit jaar een hypotheek afsluit heeft dus pakweg in de laatste twee maanden van 2009 die beslissing al genomen. En dat terwijl Google Trends laat zien dat het debat eigenlijk pas in de loop van maart dit jaar losbarstte:

Hwoord 

De conclusie van de Volkskrant is dus op z’n zachtst gezegd nogal voorbarig.

Krijg me daar ineens toch een enorm deja vu en ja hoor, een soortgelijk bericht is er een paar jaar geleden ook al eens uitgegaan. Maar het heeft weinig geholpen, nog maar eens proberen dus.

De Telegraaf meldt op last van Transparency International dat Nederland minder corrupt is geworden. Werkelijk? Vorig jaar was de corruptiescore 8.9, terwijl die dit jaar, eh, tja, ook 8.9 is. Hoezo is het dan minder geworden? Nou, vorig jaar stonden we daarmee wereldwijd op plaats 7, nu op op plaats 6.

Het feit dat een ander land corrupter is geworden betekent natuurlijk nog niet dat Nederland minder corrupt is geworden.

Dit bericht gaat meer over kansberekening dan economie, maar veel economen zijn gemankeerde wiskundigen en dus is er vast iemand die mij hiermee kan helpen. Het volgende is het geval:

De Bulgaarse regering heeft een onderzoek gelast naar mogelijke fraude bij de de lotto. Bij twee opeenvolgende trekkingen, op 6 en 10 september, kwamen precies dezelfde zes getallen uit de bus: 4, 15, 23, 24, 35 en 42. De kans daarop is volgens de wiskundige Michail Konstantinov één op 4,2 miljoen.

Nou heb ik geen idee hoeveel balletjes er meedraaien in de Bulgaarse lotto, maar het zijn er in ieder geval 42. Er worden zes balletjes getrokken (zonder teruglegging) en dus zou de kans op een willekeurige rij volgens mij moeten zijn

kans

Maar dat is één op de 5,2 miljoen. En als er meer balletjes meedraaien wordt die kans alleen maar kleiner. Waar zit de fout?

Inmiddels lijkt duidelijk dat er met de Iraanse verkiezingsuitslagen geknoeid is. De vraag is of dat ook statistisch valt aan te tonen.

Als mensen getallen uit hun duim gaan zuigen, dan zorgen ze er bewust dan wel onbewust voor dat alle cijfers ongeveer even vaak voorkomen, dus de 1 net zo vaak als de 2 net zo vaak als de 3 etcetera.

De werkelijkheid is echter niet zo willekeurig. Als je kijkt naar getallen uit de echte wereld, aandelenkoersen, nationale inkomens, bevolkingsaantallen, stemmen in een verkiezing, dat soort dingen, dan blijken die getallen in ruwweg 30% van de gevallen te beginnen met een 1, in 17% van de gevallen met een 2 en in slechts zo’n 5% van de gevallen met een 9. Die reeks kansen staat bekend als Benford’s Law en heeft te maken met het feit dat veel fenomenen in de echte wereld logaritmisch groeien. Verzin maar eens een willekeurig getal, schrijf dat op een papiertje, tel er zeg 5% bij op, doe dat pakweg duizend keer en zo’n 30% van de resulterende getallen zal beginnen met een 1.

Benford’s Law is ideaal om fraude op te sporen. Het schijnt gebruikt te worden door belastinginspecteurs. En inderdaad, even Googelen levert op dat ook de Iraanse verkiezingsuitslag aan deze analyse [pdf] is onderworpen. Uitkomst: de kans dat de verkiezingsuitslag niet uit de duim is gezogen is minder dan 0.7%. Dit bericht geeft een mooie samenvatting van de analyse, maar plaatst ook wat kanttekeningen.

« Vorige paginaVolgende pagina »