La statistique (tout comme la théorie des probabilités) est un domaine fascinant regorgeant de paradoxes. Ces anomalies sont le plus souvent anodines et sans conséquence. Elles deviennent cependant dangereuses quand la recherche médicale ou les praticiens, trébuchant sur la logique statistique, sont conduits à prendre des décisions risquées sur la base d'intuitions trompeuses...

Des psychologues ont posé plusieurs variantes de la question suivante à des médecins : « Une maladie irrémédiablement mortelle touche une personne sur 100. Il est possible de soigner les patients au moyen d'une intervention risquée : le traitement sauve 80 % des malades, mais si on l'utilise sur des personnes saines, 20 % en mourront. Il existe heureusement un test de dépistage fiable à 95 % : le test est positif pour 95 % des personnes malades et négatif pour 95 % des personnes saines. On choisit une personne au hasard à qui on fait passer
le test, qui s'avère positif. À votre avis, faut-il recommander le traitement à cette personne ?
 »

 

Fiabilité d'un test et taux de base

La plupart des médecins interrogés ont recommandé le traitement. L'argument habituel est que le test étant fiable, il y a de fortes chances que la personne testée soit effectivement malade et donc condamnée si on ne la soigne pas. 

Là où le bât blesse, c'est qu'un grand nombre des médecins estiment souvent que la probabilité que la personne soit effectivement infectée est de l'ordre de 95 %, puisque le test est fiable à 95 %.

Pourtant, cette fiabilité est bien différente de la probabilité qu'une personne ayant donné un test positif soit effectivement infectée. Celle-ci varie évidemment avec la fiabilité du test, mais elle dépend également de manière cruciale du taux de base, c'est-à-dire la proportion de personnes touchées dans la population générale, ici 1 %. Nous avons tous, y compris les médecins, tendance à négliger cette valeur pourtant essentielle.

Pour bien comprendre ce qui se passe, imaginez une population totale de 10 000 individus. Parmi elle, 100 personnes (1 %) sont malades et 95 seraient dépistées à raison grâce au test. Il y a aussi 9 900 personnes saines dont 5 % seraient détectées à tort. Cela représente 495 personnes ! 

Si on faisait passer le test à toute la population, nous classerions donc comme infectées 590 personnes (= 495 + 95), dont 95 (soit environ 16 %) sont réellement en danger. 

 

  Malades Personnes saines Total
Test positif 95 495 590
Test négatif 5 9405 9410
Total 100 9900 1000

Nombre de personnes saines ou infectées, dont le test est positif (conduisant à conclure que la personne est malade) ou négatif. 

 

  Ainsi, la probabilité que la personne testée positivement soit vraiment malade n'est que de 16 %, bien loin des 95 % que nous souffle l'intuition.

• Sur les 95 personnes testées positivement, 76 (80 %) seraient sauvées par le traitement. 

• Parmi les 495 personnes faussement considérées comme atteintes 20 %, soit 99, en mourraient. 

En conseillant à toute personne qui donne un test positif de suivre le traitement, nous aurons donc probablement condamné 23 (= 99 – 76) personnes de plus que nous n'en aurons sauvées. 

La décision rationnelle est donc de ne pas conseiller le traitement.

Les médecins ont longtemps préconisé le dépistage systématique des cancers de la prostate chez les hommes. Pourtant, une analyse récente des données épidémiologiques montre exactement le type de situation présentée ci-dessus : il est en réalité préférable de ne pas systématiser ce dépistage car le traitement est en fin de compte globalement négatif…

 

Le paradoxe de Simpson

Le paradoxe suivant est peut-être plus étonnant encore et il débouche lui aussi potentiellement sur des décisions périlleuses. Il n'a rien à voir avec Bart Simpson, le héros simplet et attachant de Matt Groening, mais tout à voir avec le statisticien britannique Edward Simpson.

Pour le dire en un mot, le paradoxe de Simpson montre que quelque chose peut être vrai « en général », mais faux partout. 

Un exemple s'est présenté dans les années 1980 lors d'une étude concernant le traitement des calculs rénaux.

Ceux-ci peuvent être traités de différentes manières. 

• On peut ouvrir le ventre du patient pour retirer le calcul lors d'une opération ouverte. 

• Un traitement a priori plus doux porte le nom alléchant de néphrolithotomie percutanée. Il consiste à aller chercher le calcul rénal à travers un trou d'environ 1 cm percé dans l'abdomen. 

Savoir laquelle des deux procédures, chirurgie ouverte (traitement A) ou néphrolithotomie percutanée (traitement B) est la plus efficace est évidemment essentiel, surtout quand on sait que le décès fait partie des effets secondaires connus de ces opérations.

Les chercheurs ont donc rigoureusement mis à l'épreuve les deux méthodes en compulsant les statistiques correspondant aux taux de réussite. Résultat : alors que le traitement A présente un taux de réussite de 78 %, le traitement B exhibe fièrement 83 % de réussite. 

Nul doute alors, pensez-vous, qu'il faille préférer la néphrolithotomie percutanée, dont les scores sont plus impressionnants ? 

Pas si sûr… car si au lieu de considérer l'ensemble des calculs rénaux traités, on se concentre sur les calculs rénaux les plus petits (moins de 2 cm de diamètre), on s'aperçoit que c'est plutôt le traitement A qui a l'avantage, avec 93 % de réussite, contre 87 % pour l'autre traitement. 

Et lorsqu'on se concentre sur les plus gros calculs rénaux (tous les autres, donc à partir de 2 cm de diamètre), on arrive à la même conclusion : le traitement A réussit plus souvent (73 % de réussite contre 69 %). 

Ainsi donc, le traitement A est plus efficace pour les petits calculs, il est également meilleur pour les gros calculs… mais globalement moins efficace !

Aussi étrange que cela paraisse, il n'y a pas d'erreur (voir la table ci-dessous).

  Chirurgie ouverte Néphrolithotomie
Petits calculs 93% (81/87) 87% (234/270)
Gros calculs 73% (192/263) 69%(55/80)
Total 78% (272/350) 83% (289/350)

Nombre de personnes saines ou infectées, dont le test est positif (conduisant à conclure que la personne est malade) ou négatif. 

 

Ce paradoxe (de Simpson) est rendu possible par le fait suivant : bien que le traitement A (chirurgie ouverte) soit en réalité plus efficace, on l'utilise surtout pour les gros calculs, qui sont plus durs à soigner, et donc conduisent à plus d'échecs. À l'inverse, le traitement B n'est pas aussi sûr, mais comme on l'utilise surtout dans les cas les plus aisés (petits calculs), il obtient malgré tout un bon score !

Ces deux exemples montrent les risques que ces paradoxes statistiques peuvent parfois faire courir à notre santé. Car les médecins, comme nous tous, sont tout à fait susceptibles de tomber dans ces pièges statistiques et de conseiller des traitements douteux, voire carrément dangereux, en toute bonne foi.

 

Lire la suite


références

Statistiques, méfiez-vous Nicolas Gauvrit, Éditions Ellipses.