Socialstyrelsen avait erronnément été traduit par Sécurité sociale. Le nom original est finalement laissé dans le texte avec une note de bas de page. Merci à Lisa Sae, sur Twitter, pour la remarque.
Contexte
Dans son rapport final sur la prise en charge des mineur·e·s trans, le Dr Hillary Cass s’est appuyé sur une série de revues systématiques de la littérature publiées dans Archives of Disease in Childhood. Le Cass Report se présente comme un rapport indépendant répondant aux plus hauts standards méthodologiques. L’objectif de cet article, ainsi que des autres papiers de cette série, est de montrer que les bases scientifiques sur lesquelles il s’appuie pour émettre ses recommandations sont fragiles. Vu l’instrumentalisation de ce rapport pour réduire l’accès au soin des mineur·e·s trans, ces textes visent à constituer un argumentaire accessible et rigoureux à destination de toutes les personnes qui ont réellement à cœur leur bien-être.
Dans cet article, je me pencherai sur l’une de ces revues de la littérature, qui visait à évaluer les guidelines existantes sur la prise en charge des mineur·e·s trans[1]. La première partie visera à décrire ce qui a été fait tandis que la deuxième détaillera les manquements méthodologiques du rapport.
Résumé de l’article
L’article représente la première partie d’une revue en deux parties. Il vise à décrire la méthodologie de la revue de littérature ainsi qu’à examiner la qualité et le développement des guidelines. La deuxième partie de cette revue[2] ne sera pas étudiée dans le détail, puisqu’il s’agit d’une simple synthèse des recommandations des différentes guidelines et que tous les éléments méthodologiques discutables sont développés dans le premier papier.
Cette revue incluait tout document en anglais ou dans une langue “qui pouvait être traduite de manière fiable”[1] (p.2 ; traduction personnelle) contenant au moins une recommandation pour l’évaluation ou le traitement des mineur·e·s trans. Les guidelines étaient ensuite évaluées via l’outil AGREE-II[3] par trois reviewers en vue de juger de leur qualité.
Sur les 23 guidelines identifiées, 19 ont été analysées, 4 ne présentant pas d’information suffisante sur leur conception. Si la plupart ont été jugées comme claires et avec un champ et des objectifs convenables, leur applicabilité, leur indépendance éditoriale et leur rigueur méthodologique ont été critiquées. Ainsi, seules 6 guidelines ont obtenu un score > 30% et seules les guidelines suédoises ont dépassé les 70%. Par conséquent, seules les guidelines suédoises et finlandaises ont été recommandées par les auteurs, notamment en raison d’un score > 50% pour leur rigueur méthodologique.
Cette revue de littérature s’appuie sur un protocole prépublié sur PROSPERO[4].
La stratégie de recherche est la même que pour toutes les autres revues de la série et s’appuie sur une équation de recherche solide reprenant tous les termes et synonymes pour “enfants” et “adolescents” ainsi que tous les termes en lien avec la “dysphorie de genre”, “l’incongruence de genre” ou le fait d’être transgenre. Les bases de données consultées sont Medline, Embase, PsycINFO et CINAHL. Les bases de données ont été cherchées en mai 2021 avec une mise à jour en avril 2022. Les références bibliographiques des guidelines incluses ainsi que des revues systématiques identifiées ont été passées au crible afin d’identifier d’autres documents. Des experts internationaux et des sites internet d’organisation clé ont également été consultés en décembre 2022.
Pour être retenus, les documents devaient :
- Contenir au moins une recommandation pour l’évaluation ou le traitement des mineur·e·s présentant une dysphorie/incongruence de genre
- Être développés par ou pour des professionnels·le·s, une organisation gouvernementale ou de santé ou une étude.
- Être rédigés en anglais ou dans une langue “qui pouvait être traduite de manière fiable”
La qualité des guidelines a été évaluée par trois reviewers à l’aide de l’outil AGREE-II[3], un outil validé composé de 23 critères dans six domaines de qualité (champ et objectifs, participation des groupes concernés, rigueur d’élaboration, clarté et présentation, applicabilité et indépendance éditoriale).
23 guidelines ont été identifiées. Seulement 19 ont été évaluées parce que 4 d’entre elles ne fournissaient pas d’information sur leur développement. La plupart des guidelines ont reçu une évaluation positive pour le champ et l’objectif ainsi que pour la clarté et la présentation. Dans le même temps, la plupart ont reçu un mauvais score pour l’applicabilité, l’indépendance éditoriale et la rigueur du développement. Seules 6 guidelines ont reçu un score > 30% et seules les guidelines suédoises ont reçu un score > 70%. Les seules guidelines recommandées par les auteurs sont les guidelines suédoises et finlandaises, seules à avoir reçu un score > 50% pour leur rigueur méthodologique.
Les reviewers ont également étudié les influences réciproques entre les différentes guidelines et ont constaté que les guidelines s’appuyaient fortement les unes sur les autres. Notamment, de nombreuses guidelines ont été influencées par la 7e version des standards de soin de la WPATH tandis que la 8e version des standards s’appuie à son tour sur ces guidelines influencées par une version antérieure.
Les auteurs concluent donc que la plupart des guidelines manquent d’une approche basée sur les preuves, notamment celles de la WPATH et de l’Endocrine Society, qui ont pourtant dominé le paysage. Ils recommandent donc aux professionnels de la santé de prendre en compte leur manque de qualité et que de meilleures guidelines soient développées.
Les problèmes de cet article
À première vue, l’article semble adéquat, a fortiori lorsque l’on n’est pas habitué aux revues systématiques ou que l’on ne connaît pas bien le sujet de la santé des mineur·e·s trans. Toutefois, en y regardant de plus près, plusieurs éléments viennent remettre sérieusement en doute sa crédibilité.
Un protocole inexistant
Les auteurs mentionnent comme force de leur étude le fait qu’elle s’appuie sur un protocole prépublié[1]. Toutefois, il s’agit d’une distorsion de la réalité. Si les auteurs s’appuient effectivement sur un protocole[4], celui-ci n’a jamais mentionné cette étude. En effet, aucune des cinq questions du protocole ne faisait référence à une analyse des guidelines. Autrement dit, le protocole ne prévoyait pas de faire cette étude et il est pour le moins curieux de le mentionner comme force.
Lorsque l’on publie une revue systématique de la littérature, il est indispensable de s’appuyer sur un protocole prépublié publiquement. Cela permet de vérifier que les auteurs ont bien fait ce qu’ils avaient prévu de faire. Toute modification par rapport au protocole initial doit être justifiée. Ne pas le faire constitue un manque de transparence qui peut laisser planer le doute sur une volonté de modifier la méthodologie au fur et à mesure de l’étude en vue d’arriver à un résultat prédéterminé.
Dans ce cas de figure, il est impossible de savoir si les auteurs s’en sont tenus au plan initial ou s’ils l’ont modifié en cours de route, puisque cette étude est elle-même une déviation du plan de base.
Un curieux changement de langue
Le premier point qui m’a intrigué dans cette étude était le choix de la langue. Alors que le protocole prévoit de se limiter à l’anglais[4] et que toutes les autres revues de littérature conduites par cette équipe pour le Cass Report se sont limitées à l’anglais, les auteurs ont ici décidé d’élargir à toute langue “qui pouvait être traduite de manière fiable”, résultant ainsi à l’inclusion des guidelines suédoises et finlandaises.
Se limiter à des études publiées en anglais est une pratique découragée pour les revues systématiques, parce que cela accroît le risque de biais[5]. Dans l’absolu, c’est donc une bonne chose que les auteurs aient choisi de ne pas répéter cette erreur ici. Toutefois, on est en droit de se demander pourquoi, sur 7 revues de la littérature conduites simultanément, c’est la seule à procéder de la sorte.
Par ailleurs le critère de sélection est ambigu. Il est impossible, à la lecture de l’article, de savoir quelles sont les langues qui ont finalement été incluses. Quelles sont les langues qui ont été considérées comme pouvant être traduites de manière fiable ? Comment les articles individuels ont-ils été traduits ? Une traduction de ces articles est-elle disponible quelque part ? L’article n’apportera aucune question.
Comme tout article scientifique, une revue systématique de la littérature doit être reproductible. Cela signifie que si une équipe indépendante utilisait les mêmes critères, elle devrait aboutir à la même sélection d’études et aux mêmes résultats. Or, sans savoir quelles langues étaient finalement éligibles, il est impossible de reproduire cet article.
Par ailleurs, et en lien avec le point précédent, vu qu’il n’y avait pas de protocole spécifique à cette étude et que le protocole général, ainsi que les 6 autres revues, se sont limité à l’anglais, il est impossible de savoir si les auteurs avaient en tête de ne pas mettre de restriction linguistique stricte depuis le début ou bien s’ils ont finalement fait ça parce qu’ils sont tombés sur des guidelines qui les arrangeaient bien. Ce qui nous amène précisément au point suivant.
Agree to disagree
Comme expliqué dans la Section 2, seules les guidelines suédoises et finlandaises ont été recommandées par les auteurs, notamment en raison de leur rigueur méthodologique > 50%. Un rapide coup d’œil à leur grille de cotation[1] montre en effet que ces deux études se démarquent clairement du lot. J’ai représenté les scores des différentes guidelines sous la forme de boîtes à moustache dans la Figure 1. Des explications sur l’interprétation de ce type de graphique se trouvent dans le Tip 1, si nécessaire.
Ce graphique représente une série de boîtes à moustache. Derrière ce nom un peu rigolo se cache une méthode intéressante pour visualiser la dispersion des valeurs :
- La ligne horizontale au milieu de le boîte représente la médiane, c’est-à-dire la valeur qui sépare les valeurs en deux moitiés. 50% des valeurs sont situées sous la médiane ; 50%, au-dessus
- La base et le sommet de la boîte représentent respectivement le premier et le troisième quartile (Q1 et Q3), c’est-à-dire le top 25% et le top 75% des valeurs.
- La boîte représente donc en elle-même l’écart interquartile (IQR). Il s’agit de l’intervalle au sein duquel la moitié centrale des données se situent (entre le top 25% et le top 75%)
- Les moustaches représentent le minimum et le maximum théoriques ; toute valeur en dehors est considérée comme aberrante.
Cette imagée, tirée de Wikipédia, permet d’illustrer cela :
On constate rapidement que les guidelines suédoises et finlandaises obtiennent le plus haut score parmi toutes les guidelines pour leur champ d’investigation. Les guidelines suédoises obtiennent en outre le score maximal pour leur clarté, leur rigueur ainsi que pour la participation des personnes concernées. Les finlandaises sont, de leur côté, à ce point bien notées pour leur applicabilité qu’elles en deviennent des valeurs aberrantes (ou outliers, en anglais). Par ailleurs, elles se détachent nettement des autres, quand on les compare à la position de la médiane. Par exemple, avec une rigueur de 71%, les guidelines suédoises obtiennent un score plus de trois fois supérieur au score médian de 23% !
On est donc en droit de s’attendre à des guidelines particulièrement extraordinaires.
Or, les références de l’article pour les guidelines suédoises pointent vers un document PDF non traduit. En passant ce document dans DeepL Pro, ce que les auteurs avaient évoqué comme manière potentielle de traduire certains articles, une surprise de taille nous attend : il n’y a aucune information sur la méthodologie ! Juste la mention d’un fichier annexe reprenant la méthodologie. En cherchant sur le site de la Socialstyrelsen 1, et après quelques erreurs 404, il est possible de retrouver l’annexe en question qui donne davantage d’informations. Toutefois, il est curieux que ces guidelines, qui ont pourtant eu un score aussi élevé, n’aient fourni aucune information sur leur méthodologie dans le texte principal, ce qui a été suffisant pour exclure 4 guidelines sur les 23 identifiées. L’étude de cette annexe permet aussi de voir, page 64 de la version traduite par DeepL Pro, que les guidelines suédoises ont été envoyées à des associations trans pour avoir leur feedback. Sans surprise, les associations se sont inquiétées du caractère restrictif de ces guidelines. Ces inquiétudes n’ont évidemment pas été prises en compte, mais cela n’a pas empêché les auteurs de cette revue de leur accorder un score de 87% pour la participation des personnes concernées !
La référence pour les guidelines finlandaises renvoie quant à elle sur une page internet où il est possible de les télécharger. On tombe cette fois-ci sur un document de 10 pages (!) ne contenant, une fois de plus, aucune mention de la méthodologie. En enquêtant un peu, il est possible de retrouver une annexe contenant davantage d’informations. Notamment le fait qu’une revue de la littérature a été conduite pour réaliser ces recommandations, laquelle… figure dans une autre annexe ! De la même manière que pour les guidelines suédoises, les voix des personnes concernées ont été sollicitées et ignorées, malgré un score de 69% pour cet item.
Arrêtons la blague et résumons un peu : les deux guidelines les plus rigoureuses méthodologiquement sont donc celles qui ne contiennent pas de méthodologie et pour lesquelles il faut faire un jeu de piste à travers des sites institutionnels finlandais et suédois pour découvrir, annexe après annexe, comment le projet a été mené ! La vraie raison pour laquelle ces guidelines sont considérées comme rigoureuses est donnée en pages 6-7 de l’article[1] : “En raison de cela, l’équipe de revue n’a recommandé que deux guidelines pour la pratique clinique : les guidelines finlandaises publiées en 2020 et les guidelines suédoises publiées en 2022 […]. Ce sont les seules guidelines à publier des détails sur la manière dont ses concepteurs ont analysé et utilisé la base de connaissances ainsi sur leur raisonnement derrière leurs recommandations. Par exemple, ils lient explicitement le manque de preuves solides sur les traitements médicaux pour les adolescents, comme établi à partir de leurs propres revues systématiques, à la recommandation d’une approche plus prudente du traitement et à la nécessité que les services de genre fournissant ces traitements collectent des données sur les résultats, la Suède recommandant que les traitements médicaux n’aient lieu que dans le cadre de la recherche.”
Autrement dit, ce sont les guidelines les plus rigoureuses parce que ce sont les seules qui pensent qu’on devrait restreindre les traitements d’affirmation de genre des mineurs.
Bien que les auteurs aient utilisé un bon outil d’évaluation des guidelines (AGREE-II), leur manière de les coter soulève des questions. En effet, les guidelines suédoises et finlandaises ne sont pas juste bien cotées, elles obtiennent des scores exceptionnels, voire aberrants, par rapport aux autres. Or, aucune des deux ne comporte de méthodologie dans le texte principal, ce qui aurait dû les disqualifier, et les guidelines finlandaises font à peine 10 pages ! L’évaluation de la qualité des guidelines semble donc avoir plus à faire avec ce qu’elles recommandent plutôt qu’à la manière dont elles ont été élaborées.
Les auteurs semblent partir du postulat qu’avec un niveau de preuve faible, la seule pratique clinique rationnelle est de ne pas pratiquer et encensent donc les deux seules guidelines restrictives pour ce fait.
Avec ce raisonnement, aucune guideline qui aurait proposé une vision transaffirmative n’aurait pu être considérée comme rigoureuse. Or, l’évaluation d’une guideline doit se baser sur comment elle a été élaborée. “Je trouve qu’ils n’ont pas été rigoureux parce qu’avec les mêmes données, j’aurais donné une autre recommandation” n’équivaut pas à évaluer la rigueur. C’est un détournement de ce processus d’évaluation qui pénalise les études avec lesquelles on est en désaccord.
Pour conclure
Résumons :
- Cet article n’avait pas été prévu par le protocole initial alors que les auteurs valorisent ledit protocole comme force de l’étude. Il est donc impossible d’évaluer s’ils ont fait le travail honnêtement ou s’ils ont modifié leurs critères en cours de route pour aboutir à un résultat prédéterminé.
- À la différence des 6 autres études publiées pour le Cass Report celle-ci inclut d’autres langues que l’anglais, sans qu’il soit possible de déterminer quelles langues exactement ont été jugées comme éligibles. Cela a permis d’inclure les guidelines suédoises et finlandaises, les deux seules à proposer une approche restrictive, telle que finalement préconisée par le Cass Report.
- Ces guidelines ont été évaluées largement au-dessus de la moyenne et sont les deux seules à être recommandées, alors qu’elles ne contiennent aucune méthodologie dans leur texte principal, et que les guidelines finlandaises pourraient tenir sur un postit. En outre, malgré d’excellents scores pour la participation des personnes concernées, leurs valeurs n’ont pas été entendues ni retenues pour l’élaboration de ces guidelines.
Au vu de tout cela, un tableau se dégage clairement, celui d’une étude qui a été mise au point pour montrer ce qu’elle voulait montrer, et non parce qu’il s’agissait de la conclusion la plus probante à la lecture des données. Cela n’est sans doute pas étonnant quand on se rappelle que Riittakerttu Kaltiala, médecin militant contre les traitements d’affirmation de genre chez les jeunes, faisait partie du comité consultatif du Cass Report… ainsi que de celui des fameuses guidelines finlandaises.
Cette étude représente, à mon sens, un exemple frappant de cherry-picking, c’est-à-dire la sélection trompeuse de données qui appuient une opinion et la mise sous silence de tout ce qui pourrait la contredire.
Soit l’exact contraire de ce que devrait être une revue systématique de la littérature.
Les références
Notes de bas de page
Direction nationale de la santé et des affaires sociales↩︎