La recette est assez simple à appliquer : en général, elle consiste à diviser un nombre, qui représente la mesure du phénomène étudié, par un autre nombre, qui représente la volatilité de ce phénomène, et à comparer le résultat à un chiffre trouvé dans la table. Si le chiffre de la table est plus petit (en valeur absolue), le résultat est significatif, sinon, il ne l’est pas. Prenons un exemple. Je veux savoir si les enfants d’enseignants ont un meilleur salaire que la moyenne des français. Pour cela, je recueille un échantillon  de fils d’enseignants, et je leur demande quel est leur salaire. En moyenne, leur salaire est de 150 euros supérieur au salaire moyen des français. Je suis donc tenté de conclure que, oui, les enfants d’enseignants gagnent, en moyenne, davantage que les français. Le problème, c’est que ce résultat ne s’appuie que sur les quelques cas qui constituent mon échantillon, et non sur observation exhaustive du salaire des enfants d’enseignants. Or, les fils d’enseignants n’ont pas tous le même revenu. Il y a du hasard en plus de l’éventuelle prime lié à leur origine familiale. Donc, rien ne me dit que ces 150 euros supplémentaires ne sont pas simplement dus au hasard de la constitution de mon échantillon. Un autre échantillon aurait peut être révélé l’existence d’une prime négative de -200 euros, ou une prime nulle, ou n’importe quel autre résultat. Cette possibilité d’avoir des résultats très différents d’un échantillon à l’autre est fortement liée à la variabilité des revenus. En prenant un cas extrême, si absolument tous les fils d’enseignants percevaient exactement le même salaire, situé à 150 euros au dessus du salaire français moyen, alors tous les échantillons me donneraient le même résultat d’une prime de 150 euros. Ce résultat serait très fiable. Si, au contraire, il existe de fortes différences internes dans le groupe des fils d’enseignants, alors les résultats seront très variables d’un échantillon à l’autre : le hasard placera un nombre anormalement élevé de riches dans un échantillon, ou de pauvres dans un autre.

Or, cette variabilité des revenus peut, elle-même, s’estimer, grâce à la variabilité observée dans l’échantillon. Sans rentrer dans les détails, si la mesure de la variabilité dans l’échantillon (l’erreur type) vaut 50, alors je peux déterminer si la prime de 150 euros est statistiquement significative : je divise la prime 150 par l’erreur-type 50, et j’obtiens « 3 ». Il me reste à définir un « seuil de risque », qui sera d’autant plus petit que je souhaiterai avoir un résultat fiable. Si je choisis « 5% », alors je dois comparer mon « 3 » avec « 1.96 » (pourvu qu’il y ait assez de monde dans l’échantillon). Si je choisis d’être plus précis, avec un seuil de risque de « 1% », je dois comparer mon « 3 » avec  « 2.576 ». Dans les deux cas, 3 est plus grand, donc ma prime « fils d’enseignants » est statistiquement significative. En fait, elle le restera jusqu’à un seuil de risque de 0.2%, ce qui constitue ce qu’on appelle la « p-value ».

Ainsi donc, pour que ma prime réussisse son test de significativité, il faut a) qu’elle soit forte, et b) qu’elle ne soit pas trop variable. En effet, en gardant la prime à 150, si l’erreur type (donc la variabilité) avait été de 100, alors mon résultat aurait été non significatif.

 

Mais qu’est-ce que tout cela signifie exactement ? Et surtout, que veulent dire ces pourcentages de risque ? D’expérience, je sais que les étudiants, y compris les bons, qui sont interrogés sur cette question, répondent soit

« C’est la probabilité de se tromper quand on dit que la prime est de 150 euros »

 Soit

« C’est la probabilité de se tromper quand on dit que la prime est différente de 0 »

Or, ces deux interprétations sont fausses. Prenons la première. La probabilité de se tromper lorsqu’on dit que la prime est de 150 euros n’est pas de 1%, ni de 5%, mais de 100%. La vraie prime, celle qui prévaut dans la population entière, est peut être de 149.2, 163.52, 127.12, mais il est improbable qu’elle soit précisément de 150 euros.

La seconde interprétation est plus intéressante. Sauf qu’elle est également fausse. Elle suppose qu’en connaissant la moyenne et la variabilité du phénomène étudié, je puisse en inférer la probabilité que ce phénomène soit nul, ou inexistant. Par quel miracle serait-ce possible ?

En fait, la nullité, ou l’inexistence du phénomène, est le point de départ du raisonnement sur lequel s’appuient les tests de significativité. Autrement dit, et c’est important, la question « quelle est la probabilité que le phénomène mesuré n’existe pas ? » « Quelle est la probabilité que la prime des fils d’enseignants soit nulle ? » n’est jamais posée. Elle n’a pas à être posée, c’est le point de départ du raisonnement. « Supposons que la prime n’existe pas ».

Le choix de ce point de départ peut être considéré comme le choix de la prudence, ce qui est déjà discutable, mais il convient de noter que c’est un choix, et non une vérité statistique tombée du ciel.

Poursuivons. Nous considérons donc que, contrairement à ce que semble indiquer notre échantillon, les enfants d’enseignants n’aient pas de salaires supérieurs à la moyenne des français. Pour autant, cela ne signifie pas qu’ils aient tous le même salaire. Donc ils ont un salaire en moyenne égal à celui des français moyens, mais avec une variance non nulle : certains gagnent plus, d’autres moins. Le résultat, c’est que, quand je constitue un échantillon de progénitures de profs, j’ai toutes les chances de trouver un salaire moyen dans l’échantillon différent du salaire moyen français. Plus précisément, William Gosset, plus connu sous le pseudo de Student, a étudié la loi de probabilité suivie par cette moyenne calculée dans l’échantillon. Sa table, issue de ses calculs, permet de formuler des phrases qui ressemblent à : « sachant que les fils de profs gagnent autant que les français en moyenne, et sachant que la variance de leur salaire est de tant, la moyenne de leur salaire calculée dans un échantillon de telle taille sera comprise entre 130 de plus et 130 de moins que la moyenne des français avec une probabilité de 95% ». Ce qui signifie que, sous notre hypothèse antibourdieusienne de départ, la moyenne dans l’échantillon ne dépassera de 130 la moyenne des français qu’avec une probabilité de 2.5%, et ne sera inférieure de plus de 130 à cette moyenne qu’avec la même probabilité (2.5%+2.5%+95%=100%).

Partant de là, si ma moyenne est de 150 (au-dessus de la moyenne des français), de deux choses l’une : soit je suis tombé par hasard sur un échantillon exceptionnel, mais la probabilité est faible, inférieure à 5%, soit j’ai tort depuis le début de considérer que les marmots des pédagogues ne gagnent pas plus d’argent que leurs compatriotes moyens.

Voilà ce que signifie la significativité statistique : c’est une notion qui n’a de sens qu’à condition de partir de l’idée, prudente en apparence, que ce que je veux montrer n’existe pas. Partant de là, je vais changer d’avis si la mesure de ce phénomène est grande par rapport à sa variabilité.

On peut prendre le problème à l’envers. Sachant que j’ai calculé, dans mon échantillon, une prime de 150 euros, je peux, grâce aux calculs de Gosset-Student, construire un intervalle de confiance autour de ces 150 euros, c'est-à-dire dire, par exemple : « la vraie prime se situe dans l’intervalle [120 ;180] avec une probabilité de 95%. » Vue comme ça, la significativité signifie que la probabilité est grande que la vraie prime se situe dans un intervalle qui ne contient pas la valeur « 0 ».

Maintenant, imaginons que je réitère mon exercice, en mesurant le revenu non des fils d’enseignants, mais des fils de stars du ciné. Et là, je découvre qu’en moyenne, ils gagnent une prime par rapport aux français moyens, de 1000 euros. Mais comme la variabilité de leur revenu est très grande (il y a des super-stars et des gens complètement fauchés dans ce milieu), mon intervalle de confiance à 95% va dire que la vraie prime des gosses de stars (dans la population complète, et non seulement dans mon échantillon), est comprise entre -200 et 2200. Contrairement au cas précédent, le « 0 » fait partie de l’intervalle de confiance. Par conséquent, un statisticien va considérer que cette prime des enfants de stars n’est pas significative au seuil 5%. A-t-il raison ?

Selon Stephen Thomas Ziliak et Deirdre N. McCloskey, il a tort. Ils ont développé cette idée dans de nombreux articles, ainsi que dans le livre « The Cult of Statistical Significance: How the Standard Error Costs Us Jobs, Justice, and Lives », (trouvé sur le forum d’éconoclaste) dont les grandes lignes sont reprises dans cet article de 15 pages. Leur message n’est pas de contester le bien fondé des calculs de Student, mais de dénoncer le caractère systématique, voire bureaucratique, de l’utilisation des tests de significativité dans un grand nombre de disciplines, dont les revues scientifiques vont jusqu’à exclure par principe la publication de résultats non significatifs à 5%.  

A défaut de pouvoir résumer leur argument, je vais l’interpréter. La lecture de leur argumentaire m’inspire deux raisons de refuser le caractère systématique des tests.

1) L’arbitrage espérance – risque est une question d’appréciation. A ce titre, on peut comparer les statistiques à la constitution d’un portefeuille en finance. Certains investisseurs sont extrêmement prudents, quitte à se contenter de rendements faibles. D’autres, pour espérer des rendements élevés, sont prêts à prendre des risques plus importants. Lesquels ont raison ? Nul ne peut le dire. Un père de famille a peut être raison de préférer la sécurité au rendement, un riche célibataire n’a peut être pas tort de prendre des risques pour tenter de gagner davantage. C’est une question de préférence personnelle et de situation. Au fond, en statistiques, c’est la même chose. Chaque chercheur préfère avoir un résultat important et précis plutôt qu’un résultat faible et imprécis. Mais que choisir entre un résultat précis mais peu important, et un résultat important mais guère précis ? Il n’existe aucune réponse universelle à cette question, et on aurait tort d’édicter une règle générale. Ziliak et McCloskey proposent l’exemple suivant. Supposez que vous ayez à conseiller à une personne qui veut perdre du poids sur le choix d’un médicament. Le premier fait perdre entre 1 et 3 kilos à 95% des personnes qui l’utilisent. Le second fait perdre entre -2 (dont prendre 2 kilos) et 14 kilos à 95% des personnes qui l’utilisent. Si vous avez compris ce que nous avons dit précédemment, le premier a un impact significatif sur le poids, pas le second. Pourquoi ? Parce que le second a une variabilité si forte que son intervalle de confiance inclut le « 0 ». So what ? (désolé, je n’ai pas pu intégrer autrement, faute de l’avoir comprise, leur analogie avec la musique de Miles Davis) On peut parfaitement penser qu’une personne en surpoids puisse préférer une espérance mathématique de perte de 8 kilos, quitte à assumer un petit risque de prise de poids, et une probabilité de 2.5% de prendre plus de 2kg (l’exemple des auteurs est un peu différent, car ils excluent le 0 de l’intervalle de confiance, ce qui à mon sens fait perdre du poids à leur argument). Pourtant, une administration de la santé tatillonne considèrera le second médicament comme non significativement efficace. Ce qui revient à imposer le choix de la précision au détriment de l’efficacité moyenne.

D’une manière générale, un chercheur devrait être autorisé à considérer qu’une découverte statistique est importante, intéressante, même si elle n’est pas très précise. Imaginez qu’un économiste démontre, statistiques à l’appui, que telle politique de financement de la recherche permet d’accroitre d’un demi point la croissance, mais avec une p-value de 22% seulement, ce qui est considéré comme élevé. Faut-il pour autant considérer qu’il n’a rien démontré en raison de l’imprécision de son résultat ? La p-value de 22% signifie qu’il y a une probabilité de 78% que le gain de croissance lié à la politique en question soit compris entre 0 et 1 point, 11% qu’il soit supérieur à 1 point, et seulement 11% qu’il soit en fait négatif. Certes, 11% c’est déjà beaucoup. Mais 89% de chance que cette politique ait un impact positif sur la croissance, à défaut de la valider définitivement, ça donne quand même un sacré intérêt économique à l’étude de cette politique. Pourtant, un éditeur pointilleux refusera certainement de valider cette découverte au motif qu’elle n’est pas statistiquement significative.

2) Faire comme choix de départ l’hypothèse que l’effet étudié n’existe pas n’est pas toujours un choix prudent. Là encore, le contexte compte. Ziliak et McCloskey relatent l’histoire d’un médicament qui a été validé par les autorités sanitaires alors que les tests (falsifiés par ailleurs, mais là n’est pas la question) révélaient qu’il avait provoqué 5 problèmes cardiaques chez les personnes qui l’utilisaient, contre un seul dans le groupe témoin. Comment a-t-on pu laisser passer ça ? Tout simplement parce que 4 problèmes en plus, ça n’est pas significatif. La p-value n’était pas de 5%, mais juste au dessus, disons de 5.5%. Ce qui permet aux auteurs de l’étude de conclure : « pas d’augmentation significative des risques cardiaques ». On se rend compte ici que ce qui est une démarche prudente à l’origine, peut être au contraire la démarche risquée. Si ce que l’on découvre est un danger, il peut être préférable de faire l’hypothèse prudente qu’il existe, plutôt que de fonder des tests sur l’hypothèse qu’il n’existe pas.

Alors, dire, comme les auteurs du livre, que les tests de significativité créent du chômage et de l’injustice et tuent des malades, c’est peut être aller un peu loin. Dire que la bureaucratisation de la statistique peut être aveuglante et nuisible à la découverte scientifique, c’est en revanche un argument qui mérite d’être entendu. Quoi qu’il en soit, je n’ai pas besoin de table de Student pour savoir que si vous êtes arrivés au bout de ce billet, vous significativement plus patients que la moyenne.