Dag Ionica,
In de file zag ik vlak achter elkaar drie tegenliggers met een kapotte linkerkoplamp. Ik vroeg me af of linkerkoplampen misschien vaker kapot gaan dan rechter. Tijdens mijn autorit van Antwerpen naar Friesland telde ik vervolgens twaalf kapotte linker- en twee kapotte rechterkoplampen. Mijn vermoeden leek te kloppen!
Maar sindsdien ben ik blijven tellen, twee weken lang, bij elke rit. Daarbij viel me in de eerste plaats op dat er heel veel koplampen kapot zijn en in de tweede plaats dat mijn eerste telling erg afweek van de vervolgtellingen. Gemiddeld genomen lijken er toch ongeveer evenveel linker- als rechterlampen kapot. Daarom nu mijn vraag: als je iets onderzoekt, hoe kun je van tevoren weten hoelang je moet doorgaan met gegevens verzamelen?
Wim Mendelts
Beste Wim,
Het is dé basisvraag van statistiek: hoe weet je of er een verschil zit tussen twee groepen? Als linker- en rechterkoplampen precies dezelfde kans hebben om kapot te gaan, kan het toch gebeuren dat u op een dag stomtoevallig twaalf kapotte linker- en twee kapotte rechterkoplampen ziet.
De klassieke statistische aanpak om te onderzoeken of er een verschil zit tussen die twee soorten lampen is om te berekenen hoe groot de kans is dat u uw resultaten (of nog extremere, met nog meer kapotte linkerkoplampen) had gevonden als er géén verschil is tussen hoe snel die twee soorten lampen kapotgaan. En als die kans, we noemen die de p-waarde, klein genoeg is, dan concluderen we dat het aannemelijk lijkt dat linkerkoplampen eerder stuk gaan. Voor het uitrekenen van die p-waarde kunt u bijvoorbeeld Fishers exacte toets gebruiken.
Maar hoe weet je wanneer je genoeg gegevens hebt verzameld voor die berekening? En hoe voorkom je dat je stopt met tellen op een moment dat de data net gunstig uitvallen? (Wat u zeer lovenswaardig niet heeft gedaan.)
In de wetenschap gebruiken we hiervoor pre-registraties: daarin leg je openbaar je onderzoeksmethode vast, inclusief hoe je gegevens gaat analyseren – vóórdat je begint met het verzamelen van die gegevens. Je berekent ook vooraf hoeveel gegevens je moet verzamelen om een betrouwbare conclusie te kunnen trekken. Hierbij moet je allerlei aannamen doen over je gegevens en keuzen maken over hoe zeker je wilt zijn van je conclusie. Gelukkig zijn hier websites voor, en onder mijn aannamen en keuzen zou u 466 auto’s moeten bekijken voordat u een conclusie kunt trekken. Als u andere aannamen doet dan ik, dan komt hier een ander aantal uit. Statistiek is een prachtig vak.
Voor de zekerheid vraag ik statisticus Rianne de Heide of ik dit goed heb samengevat. Zij begint te lachen en merkt op dat statisticus Fischer zijn statistische testen rond 1920 bedacht en dat het in zijn tijd bijvoorbeeld ging om het vergelijken van twee velden waarop graan groeide. Inmiddels zijn we ruim honderd jaar verder, hebben we totaal andere data en zijn er ook betere methoden.
De Heide werkt zelf aan de e-waarde, een moderne opvolger van de p-waarde. Daarmee kunt u langs de weg gaan zitten en kapotte koplampen tellen en na elke getelde koplamp berekenen of uw e-waarde voorbij een bepaalde grens is gekomen. Zodra dat zo is, kunt u stoppen met tellen en weet u het antwoord op uw vraag. Alleen zijn hier helaas nog géén handige websites voor.
Deze column verscheen op 29 november 2024 in de Volkskrant.
Nieuwe adviesvragen zijn van harte welkom. Liefst persoonlijke vragen die op het eerste gezicht he-le-maal niets met wiskunde te maken hebben. U kunt ze insturen via ionica@volkskrant.nl.
Lees hier ook de andere columns van de reeks.