La loi de Benford (2)
Les chiffres sont-ils distribués équitablement dans un nombre choisi au hasard ?
Avant de lire cet article, assurez-vous d'avoir lu l'épisode précédent !
Dans la première partie de cet article, je vous parlais de la Loi de Benford, qui affirme que les chiffres significatifs d'une liste de données numériques ne sont pas représentés équitablement. Vous savez maintenant comment se présente le phénomène, et peut-être vous êtes-vous déjà amusé(e) à le vérifier à travers les exemples donnés.
Mais si votre curiosité n'a d'égal que votre intérêt pour les maths, il y a fort à parier que simplement observer le phénomène ne vous a pas suffi. Il vous reste encore la Grande Question : pourquoi ? Pourquoi cette anomalie ? Comment justifier une phrase aussi surprenante que « un tiers des données numériques commence par un 1 » ?
Eh bien, si cela peut vous rassurer, les mathématiciens ne sont toujours pas d'accord sur la question ! L'observation de Benford, plus particulièrement sa mise en équation, n'a toujours pas été rigoureusement démontrée, et la communauté scientifique se contente pour l'instant de vagues explications.
Cependant, plusieurs choses sont sûres à propos de cette loi :
- Bien que cela semble un peu évident, votre liste de données doit logiquement être « éparpillée » et la grandeur que vous mesurez doit être la plus variable possible : par exemple, si vous notez votre temps de sommeil de chaque nuit pendant un an, il est logique que vous n'obteniez presque que des 5, 6, 7, 8 et 9, à moins d'être un très gros ou très petit dormeur. Ce type de liste ne vérifiera donc pas la loi de Benford. À l'opposé, la longueur d'un objet ordinaire en centimètres où le prix d'un article de vos courses peut valoir un peu n'importe quoi, d'où la possibilité d'appliquer la fameuse loi.
- Propriété fondamentale, elle ne s'applique qu'à des valeurs exprimées en une unité. Si vous générez aléatoirement un millier de nombres compris entre 1 et 99 à l'aide d'un ordinateur, vos chiffres significatifs seront bien répartis équitablement, à un peu plus de 11 % chacun (ou presque, les probas ne prédisent pas l'avenir pour autant).
- Vous trouvez peut-être cela rassurant (« Ouf, finalement, les nombres ne sont pas complètement fous ! »), auquel cas je vous propose un constat encore plus étrange : reprenons l'exemple de votre ticket de caisse de tout à l'heure, en admettant qu'il ait vérifié d'assez près la loi de Benford. Les prix de vos articles sont en euros. Convertissez-les en dollars(1), et maintenant, refaites le relevé des chiffres significatifs… les pourcentages vérifient toujours la loi de Benford !
Donc, pour fonctionner, la loi de Benford doit s'appliquer à des données exprimées en une unité, mais l'unité précise n'a pas d'importance ! Si l'on reprend l'exemple des longueurs, vous pouvez les exprimer en centimètres, en yards, en pouces, ou en milles nautiques, la liste que vous obtiendrez vérifiera a priori la loi de Benford(2).
Maintenant, après ce gros pavé sur le comportement bizarre des chiffres significatifs, vous vous demandez sûrement : « Mais à quoi ça sert ? ». Tenez-vous bien, certains ont trouvé une application à la loi de Benford : il s'agit des fiscs français et américain (entre autres) ! Lorsqu'ils enquêtent sur une société qui leur fournit des données de comptabilité, ils vérifient la Loi de Benford sur celles-ci. Si les fréquences obtenues sont trop différentes de celles prédites par Benford, les autorités peuvent soupçonner des chiffres truqués.
En effet, lorsqu'un comptable truque des données pour l'entreprise, il aura souvent tendance à harmoniser les nombres pour que tout ait l'air bien normal. Le malheureux ne se rend pas compte que la loi de Benford est un motif juridique valable pour ouvrir une enquête fiscale sur une entreprise ! Bien évidemment, les maths ne suffisent pas à prouver la fraude fiscale, mais au moins à la détecter, ce qui est déjà un exploit en soi.
Voilà, vous en savez maintenant beaucoup sur ce phénomène qui tarabuste les matheux depuis un bon siècle, c'est pourquoi je vais maintenant vous laisser faire quelques relevés statistiques à la maison et inlassablement observer les mêmes fréquences un peu partout.
Amusez-vous bien !