Les statistiques pour les gens pressés

Cassie Kozyrkov
8 min readAug 2, 2018

--

Traduction par Guillaume Ryder du texte original de Cassie Kozyrkov

Envie de découvrir à quoi peuvent bien servir les statistiques, et de comprendre le jargon ? Ne cherchez plus : je passerai en revue l’essentiel des statistiques en 8 minutes chrono ! Une seule minute si vous ne lisez que les gros titres.

Qu’est-ce qu’une statistique ? C’est une bonne vieille méthode pour réduire des données en bouillie. Ouaip. Définition 100 % techniquement correcte. Voyons maintenant ce qu’est la science statistique.

La statistique est la science du changement d’avis.

Prendre des décisions fondées sur des faits (paramètres) est déjà difficile, mais parfois — malheur ! — on n’a même pas les faits nécessaires. Au lieu de cela, ce que l’on connaît (notre échantillon) est différent de ce que l’on souhaiterait connaître (notre population). On appelle cela avoir de l’incertitude.

La statistique est la science du changement d’avis en présence d’incertitude. Au départ, vous avez en tête une action par défaut ou une croyance a priori ; faut-il changer d’avis ? Si vous n’avez pas d’opinion initiale, lisez ceci d’abord.

Les bayésiens changent d’avis sur des croyances.

La statistique bayésienne incorpore des données pour affiner nos croyances. Les bayésiens publient leurs résultats avec des intervalles de croyance (deux nombres interprétés comme « je pense que la réponse se trouve entre ici et ici »).

Les fréquentistes changent d’avis sur des actions.

La statistique fréquentiste change notre avis sur des actions. Pas besoin de croire quoi que ce soit pour avoir une action par défaut : il s’agit simplement de l’action à effectuer si l’on analyse aucune donnée. La statistique fréquentiste, ou classique, est plus fréquente en pratique et dans les cours de statistiques, restons donc classiques dans la suite de cet article.

Les hypothèses sont des descriptions de ce que le monde est peut-être.

L’hypothèse nulle décrit tous les mondes où effectuer l’action par défaut est le bon choix ; l’hypothèse alternative correspond à tous les autres mondes. Si j’arrive à vous convaincre — avec des données ! — que l’on ne vit pas dans le monde de l’hypothèse nulle, alors vous avez intérêt à changer d’avis en optant pour l’action alternative.

Par exemple : « Nous pouvons aller en cours ensemble (action par défaut) si tu mets en général moins de 15 minutes à te préparer (hypothèse nulle), mais si nos preuves (données) suggèrent que tu as souvent besoin de plus de temps (hypothèse alternative), alors vas-y tout seul car je suis déjà dehors (action alternative). »

Test statistique : « Est-ce que nos preuves rendent l’hypothèse nulle ridicule ? »

Un test statistique consiste à répondre à la question : nos preuves rendent-elles l’hypothèse nulle ridicule ? Rejeter l’hypothèse nulle signifie que l’on a appris quelque chose et que l’on devrait changer d’avis. Ne pas rejeter l’hypothèse nulle signifie que l’on n’a rien appris d’intéressant, de même que si l’on ne croise personne lors d’une balade en forêt, cela ne prouve pas que la planète est complètement inhabitée. Cela signifie juste que l’on n’a rien appris de concluant sur la présence d’êtres humains sur Terre. Ce n’est pas grave, car on a une solution toute trouvée dans ce cas : effectuer l’action par défaut.

Et comment savoir si l’on a appris quelque chose d’intéressant, de nouveau par rapport au monde dans lequel il faudrait effectuer l’action par défaut ? Pour cela, on peut considérer une p-valeur ou bien un intervalle de confiance.

La p-valeur est sur le tableau périodique : c’est l’élément de surprise.

La p-valeur (valeur-p, p-value en anglais) indique : « Si je vis dans un monde où je devrais effectuer l’action par défaut, à quel point mes preuves sont-elles surprenantes ? » Plus la p-valeur est faible, plus elle nous crie à la figure : « Ces données ne collent pas avec l’hypothèse nulle, tu devrais changer d’avis ! »

Pour effectuer le test, comparez cette p-valeur avec une valeur appelée seuil de significativité (significance level). Ce réglage contrôle votre tolérance au risque : c’est la probabilité maximum d’abandonner l’action par défaut par erreur. Définir le seuil de significativité à zéro signifie que l’on refuse catégoriquement la possibilité de se tromper lorsque l’on choisit l’action alternative. Dans ce cas, pas la peine de s’embêter à analyser des données : il suffit d’effectuer l’action par défaut systématiquement. (Par contre on peut toujours se tromper en restant accroché à l’action par défaut alors qu’il faudrait opter pour l’action alternative.)

Comment utiliser les p-valeurs pour déterminer le résultat d’un test statistique. (Qui a dit faux xkcd ?)

Un intervalle de confiance est simplement un moyen de présenter le résultat d’un test statistique. Pour l’utiliser, regardez si l’intervalle contient l’hypothèse nulle. Si oui, vous n’avez rien appris de nouveau. Si non, changez d’avis.

Changez d’avis seulement si l’intervalle de confiance ne contient pas l’hypothèse nulle.

Malgré sa définition technique un peu bizarre (j’en dirai plus dans un article futur, c’est plus compliqué que les intervalles de croyance dont nous avons parlé plus haut), les analystes trouvent deux propriétés utiles à l’intervalle de confiance : (1) il contient toujours la meilleure estimation du moment ; (2) il se réduit au fur et à mesure que l’on ingère des données. Attention cependant : intervalle de confiance et p-valeur n’ont pas été conçus pour être faciles à expliquer, donc n’attendez pas de définitions simples. Ce sont juste des manières de résumer les résultats d’un test. (Si vous suivez des cours de statistiques et n’arrivez pas à vous souvenir des définitions, c’est pas vous, ce sont les stats.)

Pourquoi se donner tant de mal ? Si vous effectuez votre test de cette manière, les théorèmes de statistiques garantissent que le risque de faire une erreur reste en dessous du seuil de significativité que vous avez choisi (c’est pourquoi il est important de le choisir vraiment, pas de le prendre au hasard, sinon les théorèmes ne servent à rien).

Les équations mathématiques construisent un modèle réduit du monde de l’hypothèse nulle pour calculer une p-valeur.

Les équations mathématiques statistiques servent à fabriquer des mini-univers (comment ça, mégalomane ?), puis à déterminer s’ils produisent des données qui ressemblent aux vôtres. Si votre modèle réduit de l’hypothèse nulle a peu de chances de produire des données similaires à celles du monde réel, alors votre p-valeur sera faible, et vous rejetterez l’hypothèse nulle… Changez d’avis !

Et toutes ces équations compliquées, ces probabilités et autres distributions ? Elles expriment les règles du monde de l’hypothèse nulle, pour que l’on puisse déterminer si ce monde produit le même genre de données que celles du monde réel. Si ce n’est pas le cas, on peut clamer : « À bas l’hypothèse nulle ! » Sinon, on n’a rien appris de nouveau, donc on ne fait rien. Plus de détails dans un prochain article. Pour l’instant, considérez que les équations fabriquent des mini-univers, que l’on analyse pour savoir si nos données collent avec. La p-valeur et l’intervalle de confiance synthétisent la réponse ; ils sont le résultat de tout ce travail : utilisez-les pour décider de garder ou d’abandonner l’action par défaut. Voilà, terminé !

La puissance statistique indique si l’on a joué le jeu.

Avant de conclure, est-on certain d’avoir joué le jeu en collectant suffisamment de données, pour vraiment essayer de changer d’avis ? C’est ce que mesure le concept de puissance. En effet, il est très facile de ne trouver aucune preuve décisive : il suffit de ne pas chercher. Plus on a de puissance, plus on s’est donné la possibilité de changer d’avis. La puissance est la probabilité d’abandonner l’action par défaut dans le cas où il faudrait.

Quand on n’a rien appris de nouveau et que l’on ne change pas d’avis, on peut garder confiance en le processus si l’on avait beaucoup de puissance ; au moins on a joué le jeu. Avec peu de puissance, on aurait su dès le départ que l’on ne changerait sans doute pas d’avis ; dans ce cas, pas la peine de s’embêter à analyser des données.

L’analyse de puissance vérifie que vous avez assez de données avant de commencer.

L’analyse de puissance calcule la puissance qu’offre une certaine quantité de données. Utilisez-la pour planifier vos expériences avant de commencer. (C’est assez simple en pratique ; dans un prochain article, je montrerai comment s’en sortir avec juste quelques boucles for.)

L’incertitude, ou pourquoi vous pouvez choisir la mauvaise option même avec les meilleures équations du monde.

Qu’est-ce que n’est pas la statistique ? Une méthode magique pour transformer de l’incertitude en certitude absolue. Aucun théorème ne peut complètement vous empêcher de faire des erreurs. En parlant d’erreurs, il existe deux types d’erreur en statistique fréquentiste. (Les bayésiens ne font jamais d’erreurs. Je plaisante ! Enfin, pas tout à fait. Attendez de lire mon article sur la statistique bayésienne.)

Une erreur de type I consiste à abandonner l’action par défaut par erreur. On avait une jolie action par défaut, et toutes ces équations l’ont jetée dehors pour rien ; plutôt ballot… Une erreur de type II consiste à bêtement ne pas abandonner l’action par défaut. (Les statisticiens sont tellement inventifs en terminologie. Devinez quel type d’erreur est la pire. Type I ? Gagné.)

Erreur de type I : changer d’avis quand on ne devrait pas.

Erreur de type II : ne PAS changer d’avis quand on devrait.

Une erreur de type I correspond à condamner un innocent, et de type II à acquitter un coupable. Les probabilités respectives s’équilibrent (augmenter le taux de condamnation de coupables augmente également celui d’innocents), à moins que vous ne collectiez plus de preuves (de données !), auquel cas la probabilité des deux types d’erreur diminue. C’est pourquoi les statisticiens veulent toujours plus de données !

Plus de données signifie moins de risques de tirer la mauvaise conclusion.

Qu’est-ce que l’ajustement pour comparaisons multiples ? Vous devez conduire vos tests différemment si vous comptez poser plusieurs questions aux mêmes données. En effet, si vous accusez des suspects innocents sans vous arrêter (si vous surpêchez vos données), vous finirez toujours par tomber sur un malchanceux qui aura l’air coupable. L’expression statistiquement significatif ne veut pas dire que quelque chose d’important ou d’extraordinaire s’est produit, mais seulement que l’on a changé d’avis. Peut-être même par erreur. Maudite soit l’incertitude !

Ne perdez pas votre temps à répondre scientifiquement à la mauvaise question. Utilisez les statistiques à bon escient (et seulement si nécessaire).

Qu’est-ce qu’une erreur de type III ? Une blague de statisticiens : il s’agit de correctement rejeter la mauvaise hypothèse nulle. En d’autres termes, utiliser tout plein d’équations savantes pour répondre à la mauvaise question.

Vous trouverez une solution à ce problème dans Decision Intelligence Engineering, une nouvelle discipline qui applique la science des données à la résolution de problèmes métier et à la prise de décision.

En résumé, les statistiques sont la science du changement d’avis. Deux écoles de pensée ; la plus populaire — la statistique fréquentiste — consiste à déterminer si l’on doit abandonner une action par défaut. La statistique bayésienne consiste à partir d’une opinion initiale et à la raffiner avec des données. Si vous n’avez aucun avis a priori, consultez vos données et allez-y à l’instinct.

--

--

Cassie Kozyrkov
Cassie Kozyrkov

Written by Cassie Kozyrkov

Head of Decision Intelligence, Google. Hello (multilingual) world! This account is for translated versions of my English language articles. twitter.com/quaesita

No responses yet