Statistiek in tijden van computers

Even een korte econometrische excursie op deze economie-site. De praktische wetenschap van de statistiek, in de 19e eeuw begonnen door onder meer de Belg Quetelet (smulpapen kennen zijn index), werd tot de jaren ’50 steeds meer een tak van de zware wiskunde. Met de opkomst van de computer en steeds grotere datasets draaide de focus weer naar de praktijk. Zo ongeveer als in deze figuur:

Ik haal deze wijsheid (en de figuur) uit Computer Age Statistical Inference, een dikke pil die als geroepen komt voor gevallen econometristen zoals ikzelf, die hopen eindelijk eens uit de hoek linksonder te ontsnappen. Het is moeilijk om auteurs te vinden die een beter boek over dit onderwerp kunnen schrijven dan Efron en Hastie. Had ik al gezegd dat het gratis te downloaden is?

Tja, dat is publiceren in tijden van computers. Het blijft een wonderbaarlijk fenomeen. [via Diebold]

Complexe econometrie

De beste inzichten komen op latere leeftijd, en dus is het verstandig om even naar deze presentatie van Paul Krugman [pdf] te kijken. De econoom en columnist, die binnenkort 63 wordt, doet een opmerkelijk levensinzicht aan de hand: complexe econometrie overtuigt niemand. En complexe econometrie begint voor Krugman bij lineaire regressie met meerdere variabelen, een methode die op de middelbare school onderwezen wordt.

Dat is slecht nieuws, niet in het minst voor mensen die jaren van hun leven hebben besteed aan het onder de knie krijgen van complexe econometrie (ahem). Maar klopt het ook?

In ieder geval is het doel van econometrie niet altijd overtuigen. Soms werkt een complex model gewoon, zoals een handelsalgoritme of een model dat beslissingen neemt voor een verzekeraar. Dat de meeste mensen niet begrijpen hóe het werkt, laat staan overtuigd zijn, dat maakt niet uit – het model draait, net zoals de motor in mijn auto, zonder dat ik helemaal begrijp waarom.

Krugman probeert wél te overtuigen, vooral op het specifieke terrein van de macro-economie. Daar is de scepsis wellicht groter dan elders, omdat de data niet altijd heel goed is, en er veel afhangt van de keuzes die de econometrist maakt. Toch is het nogal onbevredigend dat zelfs zijn slimme collega’s een model niet overtuigend vinden als dat ingewikkelder is dan een simpel lineair verband.

Maar het raakt wel een snaar. Ook in Nederland zien we dat de tijd van “het model zegt nu eenmaal” voorbij is, en het CPB op de knieën moet uitleggen waar bepaalde inzichten vandaan komen. Het respect voor de onderzoeker, die het wel zal weten, is verdwenen. Dat is jammer, voor de onderzoeker, maar niet helemaal onterecht.

Wat is eraan te doen? Krugman zoekt de oplossing in “natuurlijke experimenten”, wat in zijn slides een verzameling puntenwolken, tijdreeksen en verdelingen is, en in “verrassende voorspellingen die uitkomen”. Dat laatste is een echo van Milton Friedman, die theorieën ook al beoordeelde op het vermogen om voorspellingen te genereren. Dat biedt enige hoop, want ook een complex model kan simpele voorspellingen doen. Alleen lijkt het nogal inefficiënt, omdat er altijd tijd zal zitten tussen de voorspelling en het resultaat. Krugman hoopt nu eindelijk zijn gelijk te halen over een analyse van 7 jaar geleden.

Ik heb zelf mijn hoop gevestigd op een betere oplossing. Aangenomen dat complexe econometrie soms nuttige inzichten oplevert, is er een voordeel te behalen voor degene die de moeite neemt om de resultaten te begrijpen. Nu het makkelijk is om datasets en computercode te delen, kan dat ook.  Het feit dat “niemand” overtuigd wordt door een complexe analyse biedt een voordeel aan degene die wél kan doorgronden of de econometrist een punt heeft. Een goede reden om een eigen econometrist in huis te halen.