Deel 4 van 6

De heranalyses

Methodologische her-analyses leggen bloot dat de twee studies die het Dutch Protocol moesten onderbouwen, leden aan uitval, een ontbrekende controlegroep en overschatte uitkomsten.

De wereldwijde reputatie van het Dutch Protocol leunde op twee uitkomststudies: de prospectieve follow-up uit 2011 en de uitkomststudie bij jongvolwassenen uit 2014. Methodologische her-analyses door onder anderen Michael Biggs en het trio Levine, Abbruzzese en Mason hebben laten zien dat het bewijs in deze studies veel zwakker is dan de wereldwijde toepassing suggereerde.

De ontbrekende controlegroep

Het meest fundamentele bezwaar is het ontbreken van een controlegroep. De Dutch-studies volgden behandelde jongeren over de tijd, maar vergeleken hen niet met een vergelijkbare groep die geen medische behandeling kreeg. Zonder controlegroep is niet vast te stellen of waargenomen verbeteringen het gevolg waren van de behandeling, van het ouder worden, van de intensieve psychologische begeleiding of van het simpele feit dat een geselecteerde groep met steunende ouders sowieso beter af is. De claim dat de medische interventie de oorzaak van de verbetering was, kan op grond van dit design niet hard gemaakt worden.

Uitval en selectie

Een tweede probleem betreft uitval en selectie. In de uitkomststudie viel een deel van de oorspronkelijk geselecteerde deelnemers weg voordat de eindmeting plaatsvond, onder wie ten minste één jongere die tijdens de behandeling overleed aan complicaties. Wie uitvalt telt niet mee in de eindresultaten, waardoor de gerapporteerde uitkomsten gunstiger ogen dan de werkelijkheid van de hele groep. Bovendien was de groep al vooraf streng geselecteerd op gunstige kenmerken, wat de generaliseerbaarheid verder beperkt.

Overschatte uitkomstmaten

Een derde bezwaar betreft de uitkomstmaten zelf. Biggs wijst erop dat bij sommige meetinstrumenten de scores deels verbeterden doordat de meting na transitie anders werd ingevuld dan ervoor — niet doordat het onderliggende welzijn was toegenomen. De gepresenteerde verbetering in genderdysforie en psychologisch functioneren berustte daarmee deels op een artefact van de meetmethode.

The Myth of Reliable Research

Abbruzzese, Levine en Mason vatten hun kritiek samen onder de noemer dat de Dutch-studies ten onrechte zijn gepresenteerd als betrouwbaar bewijs. Het combineren van een ontbrekende controlegroep, selectieve uitval en kwetsbare uitkomstmaten maakt dat het oorspronkelijke onderzoek de last van een wereldwijde behandelpraktijk niet kan dragen.

Gevolgen voor de bewijsketen

De optelsom van deze bezwaren raakt de kern. Als het bewijs voor de oorspronkelijke, streng geselecteerde groep al methodologisch zwak is, dan is de extrapolatie naar de veel bredere internationale populatie — adolescent-onset, hoge comorbiditeit, omgekeerde sekseratio — niet te verdedigen. Systematische literatuuronderzoeken die latere overheden lieten uitvoeren, kwamen tot de conclusie dat de bewijskracht voor puberteitsremmers en hormonen bij minderjarigen laag tot zeer laag is. De heranalyses verklaren waarom.

Opvallend is dat ook binnen het oorspronkelijke kamp de twijfel groeit — het onderwerp van het volgende deel.

Bronnen bij dit deel

→ Volgende: Auteurs nemen afstand.