Le paradoxe de Simpson
Comment peut-on faire dire n'importe quoi aux chiffres ?
Mark Twain disait : « Il y a trois sortes de mensonges : les mensonges, les sacrés mensonges et les statistiques ».
Aujourd'hui, nous allons parler du paradoxe de Simpson. Si on devait le résumer en une phrase, on pourrait dire qu'un phénomène observé sur plusieurs groupes peut s'inverser lorsque les groupes sont combinés.
Comme cette définition Wikipediaesque n'aide que ceux qui connaissent déjà le principe(1), prenons un exemple concret fréquemment utilisé pour parler du phénomène : les traitements pour les calculs rénaux.
Sans rentrer dans les détails, puisque ce n'est pas le but de l'article, on dispose de deux méthodes pour traiter ces petits cailloux : appelons-les méthodes A et B.
On cherche à savoir quelle méthode est la plus efficace. La méthode A fonctionne dans 78 % des cas (273/350), la méthode B fonctionne dans 83 % (289/350).
À première vue, le nombre d'expériences est suffisant pour être représentatif, et l'on serait donc tenté de conclure logiquement que la méthode B est plus efficace que la méthode A.
Pas si vite ! Regardons maintenant le taux de succès en fonction de la taille du calcul rénal : d'un côté, pour les cailloux inférieurs à deux centimètres de diamètre, et de l'autre les résultats pour les cailloux plus gros.
Traitement A | Traitement B | |
---|---|---|
Petits cailloux | 93% (81/87) | 87 % (234/270) |
Gros caillous | 73% (192/263) | 69 % (55/80) |
Total | 78 % (273/350) | 83% (289/350) |
La conclusion est paradoxale : le traitement A est plus efficace sur les petits cailloux, et aussi plus efficace sur les gros cailloux.
Alors qu'au total, théoriquement, le traitement B est plus efficace partout.
Il y a clairement un problème, non ? Effectivement. Et il vient de la façon dont les données sont réparties : en regardant plus en détail, on peut constater que les petits cailloux ont un meilleur taux de succès (93 et 87 % respectivement).
Et le traitement B a beaucoup plus d'occurrences pour les petits cailloux, ce qui pousse artificiellement sa moyenne combinée vers le haut.
En d'autres termes, un traitement moins efficace est, en première approximation, le meilleur.
Comment se prémunir de cet effet ? La meilleure solution est d'éviter de croire les chiffres que vous pouvez voir en vrac sur Internet, et de toujours vous référer à la publication originale qui a été vérifiée pour ce genre de biais.
Méfiez-vous donc des données agrégées !
- (1) ↑ Ce qui est un problème courant de Wikipédia. Si vous en doutez, allez jeter un œil à leur définition de l'addition : « on appelle addition la loi de composition interne des espaces vectoriels et de certains groupes abéliens ». Merci, non merci !