Rijke outliers

Het CBS heeft het gemiddelde inkomen per gemeente berekend en publiceert over de extreme waarden. Dat de gemeenten aan de rand niet noodzakelijk “arm” of “rijk” zijn, zoals de kop beweert, bespraken we al eerder. Toch is het leuk om de gegevens even te bekijken. Ze worden geleverd in percentage boven of onder gemiddeld, dat is aan de onderkant begrensd dus plot ik de verdeling van log(1+0.01P):

Tot mijn verrassing is het een vrij normale verdeling, behalve aan de rechterkant. Als je de steekproef beperkt tot logp<0.25 kun je de hypothese van een normale verdeling niet meer verwerpen. Met die normale verdeling in het achterhoofd is het dus niet zo opmerkelijk dat er plaatsen als Pekela en Stadskanaal bestaan, maar is het wel vreemd dat er een Bloemendaal en een Wassenaar zijn.

Nu nog een theorie. Het is mogelijk dat veelverdieners verhuizen om bij elkaar te gaan wonen (en weinigverdieners niet) of het kan dat de mogelijkheden om veel te verdienen in sommige gemeenten groter zijn dan in anderen. Uiteraard speelt er een endogeen effect: misschien levert het bij elkaar wonen (theorie 1) nog weer extra inkomen op door netwerkmogelijkheden (theorie 2). Daar zit een mooi proefschrift in.

Corrupt

Merkwaardig toch, dat er elk jaar iets vreemd is met de berichtgeving omtrent de nieuwe ranglijst van corrupte landen van Transparency International, zie eerder en eerder. Dit jaar wil het ANP ons doen laten geloven dat het toch maar bar en boos is gesteld, met die corruptie in de wereld. Meeste landen scoren slecht op corruptielijst, luidt de kop. Hoezo?

Bijna driekwart van de 178 landen op de jaarlijkse corruptielijst van Transparency International scoort dit jaar slechter dan gemiddeld.

Tja. Als dat inderdaad betekent wat het lijkt te betekenen, dan staat hier eigenlijk alleen maar dat de verdeling van corruptie nogal scheef is, zodat de mediaan hoger is dan het gemiddelde. Over de toestand van de corruptie in de wereld zegt dat vrij weinig.

Een goed halfjaar

In een opmerkelijk stukje technische analyse heeft (nota bene) het CBS berekend dat aandelen in Nederland beter renderen in de eerste helft van het jaar. Het bewijs: van de zes decennia met data is in vijf gevallen “het koersrendement in het eerste halfjaar substantieel hoger dan in het tweede halfjaar”.

Dat kan haast geen toeval zijn. Of misschien toch? Als het meest renderende halfjaar willekeurig wordt bepaald met kans 1/2 dan is de waarschijnlijkheid van deze gebeurtenis, even rekenen, 9,4%. Niet echt significant weinig, en dat is eigenlijk wel opmerkelijk omdat de Amerikaanse aandelenmarkten tijdens de periode van analyse een heus Januari-effect kenden. Zoals dat gaat is ook die regelmatigheid inmiddels bezweken aan zijn bekendheid [pdf].

Gevaar

Bergwandelen is gevaarlijker dan skiën, zo meldt de Volkskrant op last van het Oostenrijks persbureau. Verrassend! Hoe zit dat!? Welnu,

Vorig jaar kwamen in de alpenrepubliek 92 mensen om het leven tijdens een wandeltocht in de bergen. Het afgelopen winterseizoen stierven 44 skiërs.

Tja. Zo lust ik er ook nog wel een paar. Op een keukentrapje staan is gevaarlijker dan zwemmen tussen piranhas, want vorig jaar kwamen meer mensen om bij een val van een keukentrapje dan door een aanval van piranhas. Naar je werk fietsen is gevaarlijker dan met een elektrische heggenschaar je keel doorzagen, want vorig jaar kwamen er meer mensen om toen ze naar hun werk fietsten dan toen ze?¦ afijn, u voelt um al. 

Het meest trieste is misschien nog wel dat een journalist zo’n bericht zomaar klakkeloos overschrijft.

Hup Spanje!

Thijs had bijna gelijk. Nederland won van Uruguay, en als gevolg daarvan zijn de kansen dat ons land wereldkampioen wordt gestegen naar 39% volgens Betfair, een marktplaats voor weddenschappen. Dat is net iets minder dan de 41% die Thijs berekende op basis van Bayesian updating voor de wedstrijd. Blijkbaar zijn de handelaren op basis van het getoonde spel gisteravond toch net iets minder positief over de kansen van Nederland dan ze zouden zijn geweest puur op basis van alleen de informatie dat Nederland heeft gewonnen.

Met wat aanvullende Bayesiaanse analyse kunnen we meteen uitrekenen voor wie we vanavond moeten zijn, bij die tweede halve finale. Betfair geeft voor Duitsland een kans van 47.6% dat ze vanavond winnen, en een kans van 29.4% dat ze wereldkampioen worden. Dat impliceert dat een finale Duitsland-Nederland met kans 61.8% wordt gewonnen door Duitsland.

De kans dat Spanje vanavond wint staat op 52.9%, de kans dat ze wereldkampioen worden op 32.3%. Dat betekent dat een finale Spanje-Nederland met kans 61.1% wordt gewonnen door Spanje.

Oranje maakt dus een betere kans tegen Spanje dan tegen Duitsland.

30%

De kampioensvlag mag dan wel klaarliggen voor het Nederlands elftal, er doen nog drie andere landen mee met hoge verwachtingen van het toernooi. Wie wint aanstaande zondag de cup? Daarvoor kunnen we, aldus sporteconoom Ruud Koning, het beste kijken naar de odds bij de verschillende bookmakers. De informatie in die (zeg maar) prijzen weerspiegelt de inzichten van kenners wereldwijd, die bereid zijn geld in te zetten op hun voorspelling.

Corrigeren we voor de winstmarge van de bookmaker, dan is de kans dat Nederland wereldkampioen wordt bij Betfair en Oddschecker op dit moment beiden 30%. Spanje doet 32%, Duitsland tussen de 30% en 32%. De kans dat Nederland in de finale speelt is wel groot: zo’n 74%, volgens Oddschecker.

Met de kans op het kampioenschap en de kans dat we de finale spelen kunnen we ook uitrekenen wat de kans is dat we de cup winnen, gegeven dat Oranje dinsdag Uruguay verslaat (dit is een toepassing van het theorema van Bayes). Als we langs Uruguay komen, neemt de kans dat we wereldkampioen worden toe tot 41%.

Blijft u dus vooral nog even rustig.

Hoe win ik de voetbalpool?

In economenblad ESB staat vandaag een bijzonder intrigerend artikel van Loek Groot en Michel van de Velden over het voorspellen van voetbaluitslagen en, meer concreet, het invullen van de WK-po0l. De auteurs beginnen met wat eenvoudige tips (voorbeeld: als je punten krijgt voor elk goed voorspelde aantal doelpunten dat een team maakt vul dan altijd een 0 in, wat dat is nu eenmaal de meest voorkomende score). Vervolgens geven de auteurs op basis van Poisson parameters en Elo– en Voros-ratings een schatting van winkansen en meest waarschijnlijke uitslagen.

Toch heb ik mijn twijfels of het verstandig is om op basis hiervan je WK-pool in te vullen. De impliciete suggestie (zeker in het artikel op Z24) lijkt dat je de po0l zodanig moet invullen dat je je verwachte score maximaliseert door steeds de meest waarschijnlijke antwoorden te geven (zie bijvoorbeeld ook hier). En volgens mij is dat niet verstandig.

Natuurlijk, wie betaald wordt op basis van de score die hij haalt, moet de meest waarschijnlijke uitkomsten invullen. Maar de meeste pools werken zo niet. Alleen degene met de hoogste score krijgt een prijs. En daarom kan het verstandig zijn om te speculeren door juist niet de meest waarschijnlijke scores in te vullen. Wie op safe speelt zal nooit een uitschieter zijn. En wie geen uitschieter is, zal nooit de pool winnen. Het maximaliseren van de kans op winst is heel iets anders dan het maximaliseren van je verwachte score.

Een eenvoudig voorbeeld. Stel Brazilie heeft 80% om van Ivoorkust te winnen, andersom is de kans 20%. U doet mee aan een pool met 10 deelnemers, waarvan de andere 9 allemaal Brazilie tippen. Dat land heeft immers de grootste kans om te winnen. Wat doet u? Als u ook Brazilie tipt, heeft iedereen dezelfde voorspelling, zal de winnaar willekeurig worden getrokken, en heeft u dus 10% kans de pool te winnen. Maar als u Ivoorkust tipt, dan is er slechts een kans van 20% dat u gelijk heeft, maar als u gelijk heeft, wint u ook zeker de pool. Ergo: de kans dat u de pool wint is dan 20%, en dat is meer dan wanneer u het favoriete Brazilie tipt.

Misschien dat ik toch maar ga inzetten op een finale Japan — Honduras.

H-woord-effect?

Het politieke debat over beperking van de hypotheekrenteaftrek heeft de woningmarkt geen goed gedaan.

zo meldt de Volkskrant. En waar zou dat dan uit blijken?

Het aantal afgesloten hypotheken is de eerste twee maanden van dit jaar gedaald met 11 procent ten opzichte van een jaar geleden.

Een hypotheek afsluiten is een langdurige geschiedenis: tussen het moment dat je een huis besluit te kopen en daadwerkelijk bij de notaris zit om de hypotheek af te sluiten zit al snel een maand of 1 tot 2. Wie in de eerste twee maanden van dit jaar een hypotheek afsluit heeft dus pakweg in de laatste twee maanden van 2009 die beslissing al genomen. En dat terwijl Google Trends laat zien dat het debat eigenlijk pas in de loop van maart dit jaar losbarstte:

Hwoord 

De conclusie van de Volkskrant is dus op z’n zachtst gezegd nogal voorbarig.

Corrupt zootje

Krijg me daar ineens toch een enorm deja vu en ja hoor, een soortgelijk bericht is er een paar jaar geleden ook al eens uitgegaan. Maar het heeft weinig geholpen, nog maar eens proberen dus.

De Telegraaf meldt op last van Transparency International dat Nederland minder corrupt is geworden. Werkelijk? Vorig jaar was de corruptiescore 8.9, terwijl die dit jaar, eh, tja, ook 8.9 is. Hoezo is het dan minder geworden? Nou, vorig jaar stonden we daarmee wereldwijd op plaats 7, nu op op plaats 6.

Het feit dat een ander land corrupter is geworden betekent natuurlijk nog niet dat Nederland minder corrupt is geworden.

De Bulgaarse lotto

Dit bericht gaat meer over kansberekening dan economie, maar veel economen zijn gemankeerde wiskundigen en dus is er vast iemand die mij hiermee kan helpen. Het volgende is het geval:

De Bulgaarse regering heeft een onderzoek gelast naar mogelijke fraude bij de de lotto. Bij twee opeenvolgende trekkingen, op 6 en 10 september, kwamen precies dezelfde zes getallen uit de bus: 4, 15, 23, 24, 35 en 42. De kans daarop is volgens de wiskundige Michail Konstantinov één op 4,2 miljoen.

Nou heb ik geen idee hoeveel balletjes er meedraaien in de Bulgaarse lotto, maar het zijn er in ieder geval 42. Er worden zes balletjes getrokken (zonder teruglegging) en dus zou de kans op een willekeurige rij volgens mij moeten zijn

kans

Maar dat is één op de 5,2 miljoen. En als er meer balletjes meedraaien wordt die kans alleen maar kleiner. Waar zit de fout?