Pijlen op Trump

De afgelopen weken voorspelden de meeste peilingen (of, als het aan Maurice de Hond ligt: pijlingen) in de VS een duidelijke voorsprong voor Clinton. Behalve dan de UCS Dornsife/LA Times Poll waar Trump meestal voor ligt. Dat zou te maken kunnen hebben met een 19-jarige zwarte jongeman uit Illinois, al wordt dat verhaal ook weer ontkend.

Gisteravond bij Met Het Oog op Morgen een boeiend gesprek met de man achter die peiling: Arie Kapteyn (tweede item in de uitzending, na ongeveer 20 minuten). Meer over de methodologie hier.

Bayesiaans updaten in Hong Kong

De bus zet zich in beweging en rijdt naar de grote straat. Nu wordt het spannend. Is het druk? Laat het verkeer ons makkelijk invoegen? Met ingehouden adem volg ik de verrichtingen van de chauffeur, want elke minuut vertraging kost mij uren per jaar. Gisteren, toen ik mijn eerste wagen boodschappen hier afrekende, was het al net zo spannend. En dan moet de eerste salarisstrook nog komen.

U begrijpt, ik ben bezig met een grote operatie op het gebied van Bayesiaans updaten. Onlangs ben ik met gezin en al verhuisd naar Hongkong, om een aantal jaar in het Aziatisch kantoor van mijn bedrijf te werken. Natuurlijk hadden we onze priors over het leven hier, maar die waren, laten we zeggen, wat diffuus. Hoe lang de rit naar de zaak in de praktijk zou duren, hoe toereikend het salaris in Hongkong dollar zou blijken: we hadden een vaag idee en hoopten er verder het beste van. En dus bevatten de eerste kassabon, en de eerste rit naar kantoor, extreem veel informatie. De kassajuffrouw en de buschauffeur weten het niet, maar voor elke dollar en elke minuut die zij in rekening brengen, verschuift de kansverdeling in mijn hoofd met vrijwel hetzelfde bedrag; dat, maal het aantal dagen dat we hier zullen zijn, verklaart de onnatuurlijke spanning bij deze dagelijkse beslommeringen.

Hier houdt het natuurlijk niet op. We maakten ons zorgen over de hoge temperaturen in de zomer; in de praktijk blijkt het erg mee te vallen. Maar zojuist vertelde een collega mij dat deze zomer ongekend mild was. De verdeling zwaait heen en weer.

De onzekerheid over deze belangrijke elementen in mijn leven is enerverend, en niet noodzakelijk slecht, om dezelfde reden dat onzekerheid in bijvoorbeeld beleggingen aantrekkelijk kan zijn. Als de wereld zich een beetje normaal gedraagt, is er voor elk risico een risicopremie – we zouden dus uiteindelijk beter af moeten zijn dan onze vrienden die in hun vertrouwde omgeving zijn gebleven. En bovendien, zonder onzekerheid is er nooit een onverwachte meevaller. Alleen – hoe hoog is de risicopremie, en hoeveel wordt er in ons geval uitbetaald?

De huisarts loopt naar zijn printer om de rekening voor ons eerste bezoek op te halen. Nog even en ik ben weer een stukje dichter bij de realisatie.

(kruispost vanaf ESB)

De optimale giscorrectie

Het maken en beoordelen van tentamens valt niet mee. Neem nu de meerkeuzevraag. Een manier om te corrigeren voor de gokkans is dan wat in de Angelsaksische literatuur negative marking wordt genoemd, of in goed Vlaams de giscorrectie. In het geval van 4 antwoordopties wordt dan aan een goed antwoord 1 punt toegekend, maar voor een fout antwoord 1/3 punt afgetrokken. Stel dat iemand geen flauw benul heeft en maar wat invult. Dan levert dat in dit systeem precies 1/4 x 1 + 3/4 x (-1/3) = 0 punten op – precies wat je als docent zou willen.

Maar de Universiteit van Leuven gaat vanaf nu nog een stap verder. Die giscorrectie is nadelig voor studenten die risicoavers zijn, zo wordt betoogd. Een recent NBER paper suggereert overigens dat het effect daarvan op de uiteindelijke score verwaarloosbaar is, maar dit terzijde. De KU Leuven komt daarom met een uiterst ingenieuze variant. Bij elke antwoordmogelijkheid mag een student aangeven of die optie “kan” of “niet kan”. Lees en huiver:

“De optimale giscorrectie” verder lezen

Peilingen moe

Vlaams datajournalist Maarten Lambrechts maakte een adembenemend mooie website waarop hij door middel van een fraai gevisualiseerde Monte Carlo simulatie laat zien hoe onbetrouwbaar politieke peilingen eigenlijk zijn.

De website neemt de Vlaamse situatie als uitgangspunt, maar is voor Nederland precies net zo relevant. Verplichte kost voor iedereen die zich wel eens druk maakt over peilingen. Op het toepasselijke adres peilingen.moe 

(via @wilte)

Complexe econometrie

De beste inzichten komen op latere leeftijd, en dus is het verstandig om even naar deze presentatie van Paul Krugman [pdf] te kijken. De econoom en columnist, die binnenkort 63 wordt, doet een opmerkelijk levensinzicht aan de hand: complexe econometrie overtuigt niemand. En complexe econometrie begint voor Krugman bij lineaire regressie met meerdere variabelen, een methode die op de middelbare school onderwezen wordt.

Dat is slecht nieuws, niet in het minst voor mensen die jaren van hun leven hebben besteed aan het onder de knie krijgen van complexe econometrie (ahem). Maar klopt het ook?

In ieder geval is het doel van econometrie niet altijd overtuigen. Soms werkt een complex model gewoon, zoals een handelsalgoritme of een model dat beslissingen neemt voor een verzekeraar. Dat de meeste mensen niet begrijpen hóe het werkt, laat staan overtuigd zijn, dat maakt niet uit – het model draait, net zoals de motor in mijn auto, zonder dat ik helemaal begrijp waarom.

Krugman probeert wél te overtuigen, vooral op het specifieke terrein van de macro-economie. Daar is de scepsis wellicht groter dan elders, omdat de data niet altijd heel goed is, en er veel afhangt van de keuzes die de econometrist maakt. Toch is het nogal onbevredigend dat zelfs zijn slimme collega’s een model niet overtuigend vinden als dat ingewikkelder is dan een simpel lineair verband.

Maar het raakt wel een snaar. Ook in Nederland zien we dat de tijd van “het model zegt nu eenmaal” voorbij is, en het CPB op de knieën moet uitleggen waar bepaalde inzichten vandaan komen. Het respect voor de onderzoeker, die het wel zal weten, is verdwenen. Dat is jammer, voor de onderzoeker, maar niet helemaal onterecht.

Wat is eraan te doen? Krugman zoekt de oplossing in “natuurlijke experimenten”, wat in zijn slides een verzameling puntenwolken, tijdreeksen en verdelingen is, en in “verrassende voorspellingen die uitkomen”. Dat laatste is een echo van Milton Friedman, die theorieën ook al beoordeelde op het vermogen om voorspellingen te genereren. Dat biedt enige hoop, want ook een complex model kan simpele voorspellingen doen. Alleen lijkt het nogal inefficiënt, omdat er altijd tijd zal zitten tussen de voorspelling en het resultaat. Krugman hoopt nu eindelijk zijn gelijk te halen over een analyse van 7 jaar geleden.

Ik heb zelf mijn hoop gevestigd op een betere oplossing. Aangenomen dat complexe econometrie soms nuttige inzichten oplevert, is er een voordeel te behalen voor degene die de moeite neemt om de resultaten te begrijpen. Nu het makkelijk is om datasets en computercode te delen, kan dat ook.  Het feit dat “niemand” overtuigd wordt door een complexe analyse biedt een voordeel aan degene die wél kan doorgronden of de econometrist een punt heeft. Een goede reden om een eigen econometrist in huis te halen.

Unanimiteit misleidt

Stel iemand wordt verdacht van moord en u moet bepalen of hij daarvoor gestraft gaat worden. Gelukkig heeft u de beschikking over een panel van onafhankelijke en uitstekende rechters. Om precies te zijn, elke rechter doet met een kans van 70% de juiste uitspraak. Toegegeven, ze zitten er nog wel eens naast, maar u heeft de beschikking over een flink aantal en in het kader van de wisdom of the crowd moet u dus eenvoudig tot een uitstekende beslissing kunnen komen.

Stel dat 3 rechters unaniem tot de conclusie komen dat verdachte schuldig is. Dat lijkt al voldoende voor een veroordeling. En bij 5 unanieme rechters weet u het helemaal zeker.

Maar bij 10 unanieme rechters begint u zich toch een beetje ongemakkelijk te voelen. Zelfs als verdachte schuldig, dan is de kans dat alle 10 rechters unaniem en onafhankelijk van elkaar tot die conclusie komen slechts 0.7 tot de macht 10, dus 2.8%. En bij 20 unanieme rechters weet u het zeker. Hier is iets niet in de haak. De kans daarop, zelfs bij schuld, is immers minder dan 0.1%.

Gunn et al.  (via) introduceren de mogelijkheid van een systeemfout. In dit geval betekent een systeemfout dat iemand die onschuldig is zonder meer door iedereen schuldig wordt verklaard. Dat kan veel oorzaken hebben. Misschien is er met het bewijsmateriaal geknoeid. Of zijn de rechters een corrupt zootje. Of is er iets anders mis gegaan. Veronderstel voor het gemak eens dat de kans op een systeemfout 1% is.

Ineens ziet de wereld er heel anders uit. Bij 10 unanieme rechters weten we dat de kans dat dat toevallig gebeurt 2.8% is. Maar we kennen ook de kans op een systeemfout: 1%. Middels Bayesian updating vinden we dan een kans van ongeveer  1/(1+2.8)=26% dat de verdachte onschuldig is. En bij 20 unanieme rechters is die kans zelfs 93%. Paradoxaal genoeg geldt dat hoe meer unanieme rechters er zijn, des te groter de kans is dat verdachte onschuldig is. Immers: hoe meer unanieme rechters, hoe kleiner de kans dat dat op toeval berust, en hoe groter de kans dat er iets echt niet in de haak is. Maar als er een rechter is die verdachte onschuldig  vindt, maakt dat de kans dat hij schuldig is juist veel groter. Er kan nu immers geen sprake meer zijn van een systeemfout.

Wanneer in Israel een panel van 23 rechters unaniem vond dat de doodstraf gerechtvaardigd was, moest de verdachte volgens de Talmud worden vrijgesproken. Waarschijnlijk was die regel helemaal niet zo gek. Volgens sommige beleggers geldt dat wanneer alle beuranalisten roepen dat de beurs nog veel verder gaat stijgen, het tijd wordt om uit te stappen. En andersom. Bij unanimiteit wordt het tijd je zorgen te gaan maken.

Overigens houdt het artikel geen rekening met de mogelijkheid van strategisch gedrag.

Best lastig, kansrekening

Onverkwikkelijke kwestie hier aan de RuG: twee taalwetenschappers claimden in een proefschrift dat eerstejaarsstudenten aan universiteit en hogeschool respectievelijk 40 en 80 taalfouten per A4’tje zouden maken. Geinteresseerde vakgenoten wilden dat graag inzien, maar helaas, de onderzoekers weigerden het gewraakte materiaal te tonen, universiteit boos, afijn, zie hier.

Wat echter nog het meeste verbijstering wekt is dat de onderzoekers zich verdedigen met het volgende staaltje onnavolgbare statistiek:

De kans dat de universiteit na een promotie reageert met een veroordeling (van het gedrag van de gepromoveerde na de promotie) als ‘wetenschappelijk niet integer’ is vrijwel zeker kleiner dan een op duizend. De kans dat de promovendus openlijk travestiet is, is vrijwel zeker ook kleiner dan een op duizend. De kans dat beide zaken tegelijkertijd optreden is dan een op het miljoen. Die kans is te klein om nog geloofwaardig te zijn. Het lijkt dus wetenschappelijk gezien, volstrekt zeker dat mijn openlijke travestie een rol moet hebben gespeeld bij de reactie van de RUG.

Lijkt me op zich al genoeg reden die bul weer in te moeten leveren. (via)

18,6%

Is het al weer vier jaar geleden dat we, vlak voor de halve finales van het WK voetbal, een uitspraak deden over de kans dat Nederland het toernooi zou winnen? Ja, dat is het.

We zitten twintig minuten voor de eerste halve finale van het huidige toernooi en ik ga een schaamteloze herhaling van dat bericht plaatsen, maar dan met nieuwe getallen. Ik bereken kansen aan de hand van de odds zoals ze zojuist gegeven werden door oddschecker.

De kans dat Nederland zondag de cup in handen heeft is 18,6%. Da’s een stuk minder dan vier jaar geleden, toen we ingeschat werden op 30%, en het laagste van de vier overgebleven landen. Ook de kans dat we in de finale staan is lager dan vier jaar geleden: op het moment van schrijven zo’n 41%. Met het theorema van Bayes rekenen we alvast uit wat de kans op een Nederlandse WK-zege is, gegeven dat we morgen Argentinië verslaan: die kans wordt op dit moment ingeschat op 46%.

Allemaal niet erg, natuurlijk. Sinds de wedstrijd tegen Mexico weten we dat de mooiste overwinning, de onverwachte overwinning is.

Sloddereconomie

Voor het onwaarschijnlijke geval dat u het gemist heeft; gisteren ontplofte het economeninternet bijkans door deze kwestie. In een nogal invloedrijke paper in de American Economic Review van 2010 laten Reinhart en Rogoff zien dat landen met een schuld boven de 90% minder hard groeien. Dat resultaat geldt als belangrijke onderbouwing voor de stevige bezuinigingen die her en der worden doorgevoerd. Wat blijkt? Er zijn wat foutjes gemaakt bij de data-analyse. Of, nou ja, Reinhart en Rogoff bedienden zich van praktijken waar we tot nu toe vooral sociaal-psychologen van beschuldigden:

Three main issues stand out. First, Reinhart and Rogoff selectively exclude years of high debt and average growth. Second, they use a debatable method to weight the countries. Third, there also appears to be a coding error that excludes high-debt and average-growth countries. All three bias in favor of their result, and without them you don’t get their controversial result.

Dat laatste is met name koddig: er bleek een foutje te zitten in de Excel-spreadsheet waarmee de regressie gedaan werd, waardoor een paar landen niet meegenomen werden. Tja. Wat eigenlijk vooral schokkend is, is dat de analyse blijkbaar zo weinig robuust is dat zulke keuzes en foutjes uberhaupt het oorspronkelijk gepubliceerde resultaat volledig onderuit halen.

Pijlsnel kwamen Reinhart en Rogoff met een reactie, die vooral als onthutsend zwak wordt beschouwd.

Meer hier en hier.