Vorige week stelde ik de feilbaarheid van wetenschap aan de orde – en als op bestelling kwam er een bericht over grote fouten bij het onderzoek naar een Covid-vaccin. De aanvankelijk zeer bemoedigende resultaten van het ‘Oxford-vaccin’, een product van farmaceut AstraZeneca en de universiteit van Oxford, bleken grotendeels een zaak van opgepoetste gegevens en een meer gelukkige dan wijze samenloop van omstandigheden.
Allereerst de gelukkige vergissing.
Het Oxford-vaccin schept immuniteit door een dubbele inenting. Waar proefpersonen twee maal de volledige dosis hadden gekregen, bleken ze (in vergelijking met een controlegroep) voor 70 procent beschermd te zijn. Er waren echter ook proefpersonen die per ongeluk de eerste keer maar een kleine hoeveelheid hadden gekregen, omdat een onderaannemer te weinig vaccin in de flesjes had gestopt. Wonderwel bleken deze proefpersonen voor liefst 90 procent beschermd!
Afgezien van het tegenintuitieve resultaat, waarvoor natuurlijk eerst nog een verklaring moet worden gevonden, lijkt dit een mooie uitkomst. Negentig procent is een prima uitgangspunt om verdere onderzoeken in te gaan en om straks bij een brede inenting de groepsimmuniteit van zo’n zeventig procent te realiseren. Want wanneer miljoenen mensen worden ingeent daalt de bescherming toch al, omdat kwetsbare mensen bij de eerste proeven worden uitgesloten. Die testgroep is dus maar gedeeltelijk representatief voor de gehele bevolking.
Wanneer die kwetsbare miljoenen straks alsnog het vaccin krijgen, daalt de werkzaamheid dus hoe dan ook beneden de negentig procent. En dat is ook niet erg, als hij maar boven de zeventig blijft. En van negentig naar procent is een heel eind, dus het kan dan wat lijden.
Maar klopt die negentig procent wel?
Dat is maar de vraag, op dit moment. Er kwamen namelijk ook verhalen dat de data van AstraZeneca nog minder representatief waren dan al was gedacht. Die subgroep van mazzelaars met negentig procent bescherming – die bleek namelijk alleen uit mensen onder de 55 te bestaan. En dat zou kunnen betekenen dat het vaccin helemaal niet zo goed werkt bij ouderen – juist de mensen met een minder sterk immuunsysteem, die je met een vaccin wilt beschermen!
En het wordt nog erger: AstraZeneca lijkt, zo lazen critici in de onderzoeksplannen, zijn mooie resultaten bijeen te hebben geplukt uit allerlei deelonderzoeken met verschillende variabelen. De ene keer kregen mensen verschillende doseringen, de andere keer varieerden de placebo-middelen. Er waren ook onderzoeken onder verschillende leeftijdsgroepen. En het is niet duidelijk hoe al die verschillende resultaten samen zijn gevoegd. Het lijkt erop dat AstraZeneca en Oxford de mooie deelresultaten bij elkaar hebben opgeteld en de minder mooie hebben weggelaten.
Wetenschappelijk gezien is dergelijk gedrag een doodzonde. Om deugdelijk onderzoek te krijgen moet je EERST zeggen hoe je bepaalde zaken gaat testen en dan afwachten hoe de resultaten uitpakken. Daarna kun je eventueel zaken bijstellen (bijvoorbeeld doseringen aanpassen) en je nieuwe aanpak weer aan een test onderwerpen. Wat niet kan is je test bijstellen terwijl je onderzoek doet, zodat de uitkomsten beter worden. Je weet dan namelijk niet meer wat je meet: de effectiviteit van je vaccin of de effectiviteit van je selectie (van dosering, placebo of doelgroep).
De criteria voor testen aanpassen nadat je al resultaten binnen hebt (dus bijvoorbeeld alleen effecten bij jongeren meten, omdat die beter beschermd zijn) is een systematische fout (fallacy) die in wetenschappelijke kringen HARKing wordt genoemd: Hypothesizing After Results Known. In gewone mensentaal: je pikt de krenten uit de pap.
Is dit nu een zaak van bedrog? Misschien, maar in elk geval is het een zaak van zelfbedrog. En dat is de gevaarlijkste soort, waartegen het moeilijkste te wapenen valt.
Zelfbeperking
Ik heb het al vaak in deze pagina’s beschreven: mensen zijn er heel goed in zichzelf te bedriegen en de zaken mooier voor te stellen dan ze zijn. Op een bepaalde manier is wetenschap niet meer dan het streven om ons zelfbedrog te beperken.
Hoe doen we dat?
Om dit het beste te begrijpen, kun je jezelf het beste voorstellen dat een mens uit meerdere ‘personen’ bestaat, die soms tegengestelde belangen hebben. Zo is er korte termijn-Toine die het koud heeft en de kachel aan wil doen – en lange termijn-Toine die straks de rekening moet betalen en zo min mogelijk gas wil verbruiken.
Een wetenschapper bestaat, onder andere, uit een persoon die nieuwsgierig is hoe de wereld echt in elkaar zit, die naar waarheid zoekt, en een persoon die baat heeft bij bepaalde verklaringen, die liever de ene bepaalde waarheid ontdekt dan de andere.
Als jij een vaccin ontwikkelt waar je miljarden mee kunt verdienen (of in elk geval een Nobelprijs), dan wil je graag aantonen dat het werkt. Een bewijs dat het niet werkt is ook een waardevol resultaat – maar meer voor de wetenschap en de wereld als geheel, niet zozeer voor jou persoonlijk.
Wat is de beste manier om de objectieve, nieuwsgierige wetenschapper te beschermen tegen zijn subjectieve, begerige alter ego?
Om dat te zien moeten we naar onderhandelingen tussen verschillende partijen kijken.
Neem bijvoorbeeld een onderhandeling tussen een autokoper en een -verkoper. Hoe kan de koper voorkomen dat hij teveel betaalt, dat de autoverkoper hem overbluft? Bijvoorbeeld door zijn vrijheid te beperken. Hij kan een maximaal budget vaststellen (ik heb maar EUR 20.000), de beslissing aan een ander te laten (van mijn vrouw mag ik maar EUR 20.000 besteden) of andere, tegengestelde verplichtingen aangaan (voor iedere euro boven de 20.000 moet ik 2 euro rente of boete betalen).
De koper kan ook de communicatie beperken. Hij kan zich na zijn eerste bod doof houden voor een ongunstig tegenbod door weg te lopen of niet meer op telefoon of mail te reageren (dit is een equivalent van je vingers in de oren te doen en lalalala te roepen). Hij sluit zich af voor informatie die hem aan het wankelen zou kunnen brengen.
Soortgelijke zelfbeperkingen worden in stelling gebracht wanneer de twee zielen in de wetenschappelijke borst samen moeten werken.
Optelsom van die zelfbeperkingen is het dubbelblinde, gerandomiseerde onderzoek met controlegroepen.
Bij een vaccin-onderzoek zou dat bijvoorbeeld als volgt kunnen gaan: er worden drie groepen samengesteld op volstrekt toevallige manier: de wetenschapper ziet af van de vrijheid om de proefpersonen te selecteren. Vervolgens krijgt 1 groep het nieuwe vaccin, 1 groep een placebo en 1 groep een concurrerend, oud vaccin (als dat er is). Noch de onderzoekende wetenschapper noch de proefpersoon weet wie wat krijgt, zodat er geen informatie van wetenschapper naar proefpersoon en/of van proefpersoon naar wetenschapper kan gaan.
In deze, vrijwillig beperkte, omstandigheden bestaat er de minste kans dat de wensen en verwachtingen van de wetenschapper invloed zullen hebben op de uitkomst van de test.
Deze vorm van testen, de Randomized Controled Trial, wordt binnen de wetenschap als de gouden standaard beschouwd. Helaas is hij niet altijd haalbaar. Het is niet altijd mogelijk om groepen proefpersonen volledig at random vast te stellen, of iedereen hetzelfde placebomiddel te geven. Soms zijn de groepen niet goed met elkaar te vergelijken, of niet representatief voor de maatschappij als geheel (dat gebeurt bijvoorbeeld heel vaak met psychologisch onderzoek op universiteiten, waarvoor studenten vaak de proefpersonen zijn).
Maar RCT is in elk geval de maatstaf, ook als daar niet geheel aan voldaan wordt.
Is een (voorbeeldige) RCT dan zaligmakend? Nee, dat ook niet. Want de uitkomsten van die RCT’s moeten ook nog eens geaccepteerd worden door andere wetenschappers, door onderzoeksinstituten, door overheidsorganen, door het publiek. En dan is het zaak alle informatie boven tafel te krijgen – niet in 1, maar in zoveel mogelijk RCT’s.
Een jaar of tien geleden kwam er een overzichtsartikel uit over gepubliceerde RCT’s die de werking van anti-depressiva bestudeerden. Conclusie van het artikel: 48 RCT’s beschreven een positieve werking, 3 niet. Een behoorlijk overtuigende uitkomst – totdat andere onderzoekers zich bogen over wel voltooide, maar niet gepubliceerde RCT”s. Dat waren er liefst 23, waarvan er 22 negatief waren over de werking van voornoemde anti-depressiva. En vervolgens bleek ook nog eens dat bij de 48 positieve proeven in 11 gevallen een minder gunstig (en minder gekleurd) resultaat was doorgegeven aan de gezondheidsautoriteiten.
Onder de streep scoorden de anti-depressiva dus niet 48-3, maar 37-36. Dat is al minder eenduidig.
Voor ons non-wetenschappers, die in onze eigen werkkringen minstens zo met feiten manipuleren, moet een dergelijke uitkomst niet verrassend zijn. Wij houden allemaal van feiten, tot ze ons in de weg zitten. En dan kneden we ze en buigen we ze een beetje, tot ze iets meer in de richting wijzen die wij wenselijk achten.
De strijd tegen dat zelfbedrog kan nooit stoppen en nooit gewonnen worden. Dat is de ‘blijde’ boodschap die we deze kerst moeten verkondigen.
Er is hoop, want we hebben in de laatste eeuwen heel veel geleerd over wetenschap en over onszelf, en hoe de wetenschap ons beter kan maken, en wij de wetenschap.
Maar de aarde zal geen wetenschappelijk koninkrijk worden.