Science4All - 2019-06-10
Voici la première partie d'un top 10 des raisons d'en finir avec la p-value comme standard des sciences. En particulier, comme de nombreux autres statisticiens et scientifiques, je préconise de bannir l'expression "statistiquement significatif". Cette vidéo est l'épisode 10 de la série sur le bayésianisme #Bayes #science #Épistémologie : https://www.youtube.com/watch?v=1P-HyzGvde4&list=PLtzmb84AoqRQkc4f38dueiPf8YUegsg8n&index=10 Facebook : https://www.facebook.com/Science4Allorg/ Twitter : https://twitter.com/le_science4all Tipeee : https://www.tipeee.com/science4all Mes goodies : https://shop.spreadshirt.fr/science4all Mes dates à venir : https://www.dropbox.com/s/t3abghdmh5964sx/Actu.txt?dl=0 La formule du savoir (mon livre) : https://laboutique.edpsciences.fr/produit/1035/9782759822614/La%20formule%20du%20savoir A Roadmap for the Value-Loading Problem https://arxiv.org/abs/1809.01036 Probablement? en audio : http://playlists.podmytube.com/UC0NCbj8CxzeCGIF6sODJ-7A/PLtzmb84AoqRQ0ikLb4yC4lKgjeDEIpE1i.xml Moi en podcast avec Mr Phi : Version YouTube : https://www.youtube.com/channel/UCNHFiyWgsnaSOsMtSoV_Q1A Version Audio : http://feeds.feedburner.com/Axiome Sous-titres sur les autres vidéos : http://www.youtube.com/timedtext_cs_panel?tab=2&c=UC0NCbj8CxzeCGIF6sODJ-7A Comment fact-checker une étude scientifique ? Science étonnante https://www.youtube.com/watch?v=NkdczX1Sq-U La science est vendue | Le grand procès de la science | Mr. Sam - Point d'interrogation https://www.youtube.com/watch?v=fCEeNo3j6dM&fbclid=IwAR2JLizF9KXi2wWgiKcpNi2jUsbzSCtAf90tT53VBEu5ZaLssAD4tsfmGJc P-hacking | Crash Course Statistics https://www.youtube.com/watch?v=Gx0fAjNHb1M Significant | xkcd https://xkcd.com/882/ Science isn't broken - It’s just a hell of a lot harder than we give it credit for | FiveThirtyEight https://fivethirtyeight.com/features/science-isnt-broken/ Medical Nihilism | Jacob Stegenga https://www.amazon.com/Medical-Nihilism-Jacob-Stegenga/dp/0198747047 Peeking at a/b tests: Why it matters, and what to do about it | ACM SIGKDD | R Johari, P Koomen, L Pekelis, D Walsh https://dl.acm.org/citation.cfm?id=3097992 Multi-armed Bandit Models for the Optimal Design of Clinical Trials: Benefits and Challenges | Sofía S. Villar, Jack Bowden, James Wason https://arxiv.org/abs/1507.08025 Many analysts, one dataset: Making transparent how variations in analytical choices affect results https://psyarxiv.com/qkwst/
Bonjour Lê,
Encore bravo pour cette vidéo ! Juste une remarque à propos du risque (alpha) d’un test. Alpha est un majorant du risque de rejeter H0 à tort. Et quand tu rejettes H0, tu es certain que le risque d’erreur est inférieur ou égal à alpha. De plus, dans les cas des tests styles Student, Corrélation,… où H0 est une hypothèse simple, il est difficile de croire que H0 est fausse (l’égalité parfaite n’existe pas dans le monde réel). Donc risque d'erreur nul quand on rejette H0. Vois-tu ce que je veux dire ?
Super intéressant et agréable encore une fois ! Pour les jeunes scientifiques en herbe, tu nous apprends à garder un esprit critique sur la recherche et sur ce que l'on fait dans les labos !
Ça fait plaisir de voir les youtubers faire avancer l'esprit critique et le tout dans le plaisir et la bonne humeur. Merci !!
Effectivement dans ce top 5 on a une vraie redondance dans les biais induits par ... une multiplication des tests.
J’ai beaucoup apprécié la réplique à « c’est le moins mauvais système qu’on a donc il faut le garder »
(Tu as dit « moins pire » mais pardonnons ce barbarisme 😁)
Cette réflexion fonctionne également pour les systèmes politiques pour lesquels on nous ressort toujours la démocratie et la citation de Churchill comme étant le Saint Graal alors que l’honnêteté intellectuelle devrait plutôt pousser à chercher un système politique moins défaillant voire meilleur, qui sait? Tout en conservant les libertés individuelles.
petite précision quand à l'éthique sur les essais cliniques
- quand on soupçonne un médicament potentiellement dangereux par un de ses effets secondaires, générallement on fait un test en double aveugle où le promoteur de l'étude peut décider d'arrêter l'étude si il voit trop d'effets négatifs chez les sujets, mais il y a aussi une autre méthode. On peut faire un test avec un triple aveugle (le promoteur ignore qui est dans le groupe placebo ou non), et du coup on peut décider à mi chemin de voir les effets secondaires de chaque groupe lorsqu'on est à mi chemin et décider de lever l'aveugle pour le promoteur pour voir si on poursuit l'étude ou non. L'avantage avec e modèle c'est que si dans l'étude aucune maladie grave n'apparait, on peut décider également de conserver l'aveugle et de rester en triple aveugle jusque la fin de l'étude.
- Pour les maladies graves on ne compare jamais un médicament avec un placebo mais un médicament avec l'ancien médicament sur le marché. L'avantage est de ne pas entrainer de perte de chance pour le groupe placebo. Le risque étant de rejeter des médicaments efficaces parce qu'ils sont moins efficaces que le traitement standard. Toutefois comme ça ne concerne que la recherche sur les maladies graves on peut se dire que ça reste une bonne chose, la recherche étant orienté vers l'amélioration des traitements, ne perdant pas de temps avec des traitements moins efficaces.
Enfin je comprends l'intérêt du triple aveugle ! Merci !
Merci pour ce complément, très instructif.
Très intéressant ! J'ajouterais que la p-value, aussi étrange que ça puisse paraître ne fait pas office de "valeur" en soit mis à part qu'elle nous autorise ou non à rejeter l'hypothèse nulle. Aussi il est assez courant de voir des gens s'exclamer après l'obtention d'un résultat significatif et ils oublient assez facilement d'ajouter à leur statistique inférentielle des statistiques dites descriptives.
Merci beaucoup, je ne faisais pas confiance totalement au résultats incroyable de la science car je savais qu'il pouvais y avoir des travers, merci d'avoir clarifié certain points. Il est important qu'on continue d'améliorer la méthode scientifique et le système autour de façon général.
Petite question comme ça j'y ai pas trop réfléchit mais si on par du principe qu'une étude sur 100 (p-value de 1%) sera contradictoire avec le reste ou du moins aura des résultats inédits, ne serait-il pas possible de voir ces résultats dans les méta-analyse et du coup de reconnaitre que ces résultats sont "défectueux" en quelque sorte? Et donc des les ignorer en sachant qu'ils seront "faux"?
Je ne suis pas du tout un expert en statistique donc ne me tapez pas dessus x) de plus je n'ai guère réfléchis aux implications de ce que je viens de dire du coup s'il vous plait éclairez ma lanterne :p
Génial, comme d'habitude!!!
Est ce que tu peux nous commenter le bac métropole qui va sortir. Je suis sure que t'as des méthodes ultra-efficaces pour résoudre toutes les questions en moins de 30 minutes. Ca m'intéresse de savoir comment les mathématiciens arrivent à résoudre des problèmes simples, qui sont déjà très compliqués pour moi.
"Dès qu'une mesure imparfaite deviens un objectif, elle cesse d'être une bonne mesure."
C'est tellement vrai et applicable partout, et en particulier en économie avec le PIB et la croissance.
Concernant l'Impact Factor, il ne reflète pas uniquement la qualité du journal, mais principalement son influence.
Les journaux très spécialisés ayant un public beaucoup moins large, cela réduit leur Impact Factor sans forcément signifier des articles de mauvaise qualité.
Encore une excellente vidéo, merci beaucoup !
Dans la recherche biomédicale existent des recommandations régulièrement mises à jour pour les différents types d’essais afin justement de contrôler au mieux les biais cités. Consort, starc, stard, remark... etc. Avec le temps la méthodologie des essais sur pubmed s’améliore même si ce n’est pas parfait encore. Je me permets de rajouter cet élément car parfois j’ai l’impression d’une diabolisation de la « méthode scientifique ». Ceci dit grâce à tes vidéos la prochaine génération de chercheurs sera plus vigilante à ces recommandations... enfin pour peu qu’il y ait encore des chercheurs dans 30 ans... autre débat
En réalité, il semble que bcp de problèmes viennent du fait que la P-value n'est qu'un indicateur. Tomber sur un résultat statistiquement significatif ne devrait pas nous dire si une théorie doit être rejetée ou acceptée mais uniquement viser à augmenter la crédence que l'on a en cette théorie
Ce que j'en interpréte, dans le cas d'un grand nbre d'expériences, c'est qu'il faudrait plutôt passer par une "moyenne" de P-value (attention, je parle pas de la moyenne au sens statistique, c'est plus dans l'idée que j'en parle, en vrai j'y connais rien ^^) ou en gros notre crédence en la théorie devrait plutôt passer par le nombre de résultats statistiquement significatifs que l'on a obtenu plutôt que par "hop on a dépassé le seuil c'est bon on peut publier"
Dites moi ce que vous en pensez, histoire de voir si je dis pas trop de la merde;)
Je trouve cette vidéo, et cette série actuelle absolument géniale et nécessaire. Avoir une réflexion profonde sur les limites de la science, de ses méthodes, de l'analyse de données, me semble capital pour faire vraiment progresser la science et les méthodes scientifiques. Ce que tu fais devrait être enseigné aux doctorants et à tout le corps des métiers scientifiques.
super travail et vidéo, félicitation. énorme . enfin de la conscience des travers et excès et manques et inconsciences des humains dans la science vu à travers et dans une methode , la p-value , en l'occurrence.
quand j'ai entendu que les 5 plus gros reproches pour la p-valeur arriveront la prochaine fois, j'ai bien ris. Je pense que l'un est le fait qu'une p-valeur supérieure à 5% ou le seuil choisi ne nous donne aucune indication sur la confiance à attribuer à l'hypothèse qu'elle soit vraie. Sinon j'ai l'impression que les critiques peuvent viser n'importe quelle méthode et pas juste la p-valeur. Si une étude dit autre chose que plusieurs autres, c'est certain que si on retient la seule étude qui met un résultat différent pose problème indépendamment de la méthode. Le travers 2 est vraiment caricatural. En fait, je trouve que les 5 critères peuvent se résumer dans un seul: "on veut montrer un résultat spectaculaire, on va donc faire l'étude pour montrer ce résultat". c'est certain que si l'on décide du résultat avant l'étude, cela pose problème. Ce n'est donc pas spécifique à la p-valeur qui n'est qu'un outil. Un point spécifique à la p-valeur est le choix du seuil, quand il est entre 1 et 5%, c'est vraiment arbitraire de dire ce que l'on fait de l'hypothèse à tester.
Vidéo super intéressante !
Concernant les personnes qui disent "La méthode scientifique d'aujourd'hui est la moins pire des méthodes", je pense qu'il faut comprendre "La méthode scientifique d'aujourd'hui est la moins pire des méthodes par rapport aux autres "méthodes" utilisées (mis à part le bayésianisme bien sûr :) ), notamment dans les pseudosciences", et non "La méthode scientifique d'aujourd'hui est la moins pire des méthodes possibles". A mon avis, la majorité de ces personnes sont d'accord sur le fait que la méthode scientifique est loin d'être parfaite et qu'elle est largement améliorable, elles signalent juste que cela reste de manière générale bien mieux que les discours pseudoscientifiques. Et il y a quand même pas mal de critères de la méthode scientifique qui ont été fructueux au cours de l'histoire : l'inférence à la meilleure explication, la cohérence entre nos connaissances, la simplicité, l'unification...
Cool comme série de vidéos, j'espère te voir parler aussi de HARKing, Hypothesizing After The Results Are Known, l'autre fallacy avec le p-hacking!
https://www2.psych.ubc.ca/~schaller/528Readings/Kerr1998.pdf
Cette vidéo me fait penser à une publication où j'ai vraiment bêtement mis en lumière une correlation avec p<0.01.... "grâce" à un facteur de confusion fâcheusement oublié :-(
Sinon tous les autres points de critiques me semblent très pertinents. Et certain sont bien résumés par cette phrase que j'ai trouvé dans une méta-analyse:
“We all know from introspection that when we study an empirical question, we analyse the data till we are satisfied with the result. Reported results are thus the product of a stopping rule. We all want to believe that we stop when we have reached some approximation to the truth. However, what we believe to be the approximate truth is influenced by our priors.”
Doucouliagos, H., & Paldam, M. (2009). The aid effectiveness literature: The sad results of 40 years of research.
Ne serait-ce pas car nos cerveaux ne seraient pas conçus pour élaborer donnés après donnés un modèle du monde qui nous entoure mais plutôt de tester un modèle préexistant ?
En clair nous avons une vision déjà tt faite du monde mais nous mettons cette vision constamment à l'épreuve à coup de nouvelles données
Bonjour,
Je pense que "la méthode scientifique par p value" n'existe pas. Le test
d'hypothese reste un outil de la science inductive et non sa fin (entre parenthèses,
les intervalles de confiance offrant une meilleure surface de discussion sont
en général préférés aux p values) et une conclusion ne devrait et en pratique n'est
quasiment jamais soutenu par le seul franchissement d'un seuil statistique
mais lié à une discussion englobant les tailles d'effets et l'ensemble des connaissances empiriques et théoriques (incluant les autres études effectuées jusqu'alors). Une partie de la méthode scientifique réside en une articulation rationnelle de ces différents éléments.
De plus, je pense que si une méthode scientifique par p value existait, elle ressemblerait à la succession suivante de 5 étapes:
1. Formuler une ou quelques hypothèses
2. Mettre en place un protocole expérimental (ce qui inclus le nbre d'enchantillon)
3. Acquérir les données
4. Traiter les données
5. Tirer des conclusions concernant les hypothèses testées (et uniquement celle ci)
Tout le reste est de l'analyse dites exploratoire de laquelle aucun scientifique sérieux ne tirera d'elements forts d'argumentations.
Clairment le test d'hypothèse fréquentiste pose des problèmes d'ordre pratique et l'analyse Bayesienne offre de meilleures propriétés théoriques mais amalgamer la méthode scientifique à une liste de tout ce qu'il ne faut pas faire avec les p-values (et qui en pratique est rarement fait) me semble très contre-productif et aller à l'encontre de l'attitude que vous défendez (magnifiquement bien) par ailleurs.
J'ai rien compris à cette histoire de théorie rejeter une infinité de foi pourquoi le fait de répèter une expérience augmente les chances que la théorie soi rejeter sa me paraît magique ?
Bonjour, je rebondis sur les trois premières minutes :
Si une théorie T est vraie, qu'on fixe le seuil à 1%, et qu'on effectue un grand nombre de tests, alors environ 1% des tests rejetteront T.
Peut-on en conclure, à l'inverse, que si environ 1% des tests (nombreux) effectués rejettent une théorie T pour laquelle on avait fixé un seuil de 1%... alors c'est un argument plutôt convaincant de la validité de T !?
très bonne vidéo, comme d'habitude . tu ne parles pas des conclusions avec très peu de données, par extension statistiques. mais je pense que c'est pour la prochaine fois
La raison numéro 1 est intéressante. La numéro 2 est avant tout un problème méthodologique. On peut éventuellement reprocher à l'approche par p-value de ne pas permettre de déceler l'erreur si la description méthodologique n'est pas suffisamment claire, mais un chercheur ne devrait pas tomber de bonne foi dans ce piège. Encore faudrait-il qu'on apprenne son métier au chercheur. Les raisons suivantes sont avant tout liées au contexte qu'à la méthode. La communauté est très insatisfaite à ce sujet mais il est difficile de s'extraire du contexte actuel (notamment parce qu'il n'y a pas une alternative claire, parce que les autorités estiment qu'une mauvaise métrique vaut mieux que pas de métrique, parce que ne pas jouer le jeu est un risque pour le chercheur -- aurait-on atteint un équilibre ?) Je me réjouis de voir la suite des vidéos pour obtenir quelques réponses :-)
Ah oui, et je suis étonné que le fait que la méthode par p-value ne puisse pas répondre à toutes les questions, et pas seulement pour des raisons éthiques, n'ait pas été soulevé dans cette vidéo. Mais ça a peut être été dit ailleurs
Bonjour,
Il me semble qu'en sciences on ne conclut à des a la forte plosibilitée d'une hypothèse une fois que les méta-analises convergent vers un consensus. Et ces critiques sont surtout applicables aux articles qui prouvent pas grand-chose mais qui indique des pistes non ?
La science prend du temps.
Cette image à 13:00 est LE TRUC le plus IMPORTANT selon moi ! On comprend très très bien le biais hyper important !! "Selon 2 études très très sérieuse, blablabla". Oui mais les 28 autres ? Elles n'ont pas été publié car pas impressionant. Mais les études impressionantes, sont justement impressionantes parce qu'elles se sont très probablement trompé ! Ce biais est énorme !!
1) Disons qu'une théorie T0 vraie a 99% de chance de survivre au test. Des théories alternatives T1, T2 ou T3 fausses auront probablement beaucoup moins de chances d'y survivre. Ainsi, une méta-analyse comparant ces quatre théories conclura tout de même que T0 est la meilleure théorie pour le moment.
Et d'accord pour les autres points :)
A part bien sûr l'identité que tu fais entre fréquentisme et méthode scientifique, qui me semble épistémologiquement ou historiquement très discutable.
"En fait, ça m'exaspère même au plus haut point d'entendre parfois certains dire que la méthode scientifique d'aujourd'hui est la moins pire des méthodes. Cela me semble être une absence d'autocritique, un excès de confiance et un raisonnement motivé indigne d'intellectuels qui prétendent vouloir connaitre au mieux le monde qui les entoure." Hihi Lê tire à balles réels .... et ça fait du bien. Enfin ! Merci beaucoup, ça fait plaisir de l'entendre dire.
Il me semble que 1,3, 4 et 5 sont exactement le meme probleme, c'est a dire la
multiplication des experiences et la publication de celles qui ont marche par hasard. Ce n'est donc pas la p value qui pose probleme, mais bien la non publication des etudes n'ayant pas marche. Tout ca peut se resumer en deux mots : cherry picking. Et je ne voie pas tres bien comment les Bayesiens pourront ne pas faire encore pire vis a vis de ce probleme.
Je suis d'accord. Ces problemes sont tous de la famille des biais de publications. Mais ceux ci ne sont pas spécifiques a la p-valeur. J'ajoute qu'ils se résolvent facilement grâce a la reproduction des études, qui est un passage obligé de la science moderne. Il est bien connu qu'une etude toute seule non reproduite ne constitue pas un resultat fiable. Il juste avoir conscience de çà.
@Thierry Mastrosimone La "reproduction des études" n'est pas si facile. D'abord, il faut en avoir les moyens, puis, il faut disposer des mêmes données. Si les données sont la propriété de celui qui a fait l'étude, pourquoi comme il a été dit dans la science climatique, "je vous donnerai mes données pour que vous puissiez détruire mon travail ?". Et il ne faut pas plus faire confiance à 2 études faites par 2 équipes différentes avec des données différentes qui aboutissent aux mêmes résultats : il peut s'agit ici aussi d'un biais, où une étude cherche le soutien de l'autre...
@poiu17472 Hello. Quand on parle de reproduction, c'est de reproduction des conclusions d'une etudes par un autre laboratoire, qui va refaire les memes experiences, pour justement verifier que ce qu'il observe lui permet d'arriver a la meme conclusion que le laboratoire initial. C'est donc ce que vous dites dans votre 2e phrase. La crise de la reproductibilite (https://fr.wikipedia.org/wiki/Crise_de_la_reproductibilit%C3%A9) montre que ce mecanisme permet de faire bien plus confiance a une etude reproduite qu'a une etude non reproduite.
Oui merci c'est bien ce qui me semblait. Le 5 me semble un peu différent tout de même, puisqu'en + on y transforme sans l'assumer une étude prospective en rétrospective.
Super! 👍👍 décidément d’utilité publique.
est-ce que dans la point 5 sur la malléabilité tu parles des variables instrumentales qui permettent de contenir un biais d'exogénéité d'une variable explicative ? en choisissant des variables qui nous seront subjectives dans ce cas l'étude pourrait être biaisé car on y rajoute de plus en plus de variables jusqu'à avoir une p-value publiable ?
Concernant les travers 1 et 2, je ne comprends pas en quoi un test randomisé sur un échantillon de très grande taille ne suffit pas à les corriger. On peut discuter des notion de "grande taille" ou de "randomisation", éventuellement, mais si on admet qu'il est possible de travailler sou ces conditions, je ne vois pas pourquoi la p-value perdrait de sa pertinence.
Le problème c'est qu'on n'a pas toujours les moyens ou le temps d'avoir un échantillon de grande taille. Pour moi, il faudrait faire plus de méta-analyses, mais pour être rigoureux, il faudrait que les négatifs soient aussi publiés. Parce que si seulement 10 études sur 100 prouvent qu'un effet est significatif, alors l'effet significatif est peu probable.
Génial le coup des études sur le racisme des arbitres ! Comme d'habitude, je comprends pas tout à la vidéo mais je mets un pouce bleu car la petite partie que j'arrive à suivre m'enthousiasme.
Oui une hypothèse vrai va être rejetée un certain nombre de fois mais sur toute une littérature on aura tout de même de nombreuses études qui ne la rejetteront pas. Et puis il y a maintenant des outils méta-analytiques qui permettent de plus où moins faire de confirmer ou rejeter une hypothèse (méta-analyses qui se retrouvent de plus en plus dans des sciences telles que l'économie).
J'avoue trouver moi-même l'argument de Lé bizarre. Il suffit juste de comparer la fréquence des taux de résultats valides.
Cependant combiner avec le 3, ça devient un bon argument.
A part pour le premier cas je ne comprends en quoi la p-value est à l'origine de ces travers. L'organisation de la recherche le "publish or perish", des erreurs méthodologiques me semblent davantage à mettre en cause. Multiplier les tests statistiques, arrêter les expériences dès qu'on a un bon résultat ou encore procéder à posteriori à des traitements statistiques , est-ce inhérent à la p-value?
Quant au premier cas, je ne comprends pas non plus pourquoi une méta-analyse devrait conduire à dire que toute hypotjèse devrait être rejeter. Je pensais que dans une méta-analyse, justement, on prenait en compte le fait que certaines études donnent des résultats significatifs par pur hasard.
Il aurait été important de préciser que les critiques que tu formules ne remettent pas en cause la valeur de la méthode, mais la mauvaise utilisation qui peut en être faite. D'autant que les pré-requis à la validité de l'emploi de telles méthodes exclues de facto l'essentielle de ces mauvaises utilisation (déterminer l'intégralité du protocole (y compris nombre d' "evènements", les tests à soumettre à l'échantillon, etc.) AVANT sa mise en application ; avoir un et un seul critère de jugement principal ; etc.).
Enfin ... sauf la première critique qui ne me parait même pas avoir de sens : certes si on a un "petit p" à 0,01 on a 1% de chance de rejeter par erreur une hypothèse vraie ... mais on ne rejette pas une hypothèse dés lors qu' une unique étude semble ainsi la réfuter ! A fortiori s'il s'avère qu'à côté de cette étude, 99 autres la conforte ... Dés lors on n'est même pas dans la critique liée à une mauvaise utilisation, mais simplement dans une mauvaise compréhension .
Tiens la malléabilisé, ça me fait sérieusement penser aux innombrables études du glyphosate non statistiquement significatives, qui ont pas passé la barrière des médias, excepté le CIRC qui lui était étonnament plus significatif que les autres...
Pour la maleabilité, ce serait bien que le chat sceptique nous explique ça en détail !
Lê, que fais tu de la nécessité de reproduire les expériences et des méta analyse qui s'appuient sur un ensemble de recherches pour faire une synthèse ?
En médecine, le Cochrane est un exemple d'institut américain.qui cherche à déterminer la qualité des études scientifiques en question en publiant des méta analyses qui me semblent vraiment de bonne qualité.
Pour le 2, je dirais que en cas d'arrêt prématuré à cause de cas extrême, il faut soit ne pas publier, soit préciser que le papier est soumis à des biais à cause d'arrêt prématuré. Cependant, le 2 n'est pas vraiment un argument contre la P-value mais contre une méthode lorsqu'on utilise une P-value.
C'est devenu quasiment obligatoire ! Et dans tous les domaines, ne pas le faire est de l'escroquerie scientifique pure et simple. Je ne comprends pas pourquoi on met ça en lien avec la p-value.
Merci pour toutes ces vidéos....super
La probabilité de rejet d'une théorie vraie tend vers 1 avec un nombre suffisant d'expériences ?
Une théorie vraie ?
Mais cela n'existe pas une théorie "vraie"... :)
C'est donc normal que la probabilité tende vers 1.
La seule démarche possible est la détermination la plus fine possible des conditions d'application d'une théorie donnée.
Enfin, on parle de sciences expérimentales là, hein ?
Il ne faut pas confondre les statistiques avec la façon de penser dite "méthode scientifique" ; cette dernière est fondée sur l'observation des faits et une interpretation LOGIQUE des faits. La condition "être statisticien" n'est absolument pas suffisante pour être un scientifique ! Et l'on peut être des scientifiques sans connaître "grande chose" des statistiques.
Toute personne qui adapte ses croyances aux faits (la *realité*) est un scientifique.
Toute personne qui adapte les faits à ses croyances ne l'est pas.
13:20 : seulement 1 étude. La seconde (la plus à droite sur le graphe) trouve un résultats très important mais non statistiquement significatif (ils ont intervals de confiance énormes).
Yes, excellente vidéo ! J'imagine que ma question est passée à la trappe, je suis shadow ban depuis 1 mois sur Youtube ... la réponse donnée à Aurel Ayrault répond en partie à ma question. Même si j'ai encore du mal à comprendre comment on formalise la p-value concrètement ?
Formellement, on considère une théorie T qui est une loi de probabilité sur l'ensemble Données. On construit alors une fonction Extrême : Données -> P(Données), qui a toute donnée D associe un sous-ensemble Extreme(D) de Données (pour être cohérent, on peut ajouter la condition que Extrême(Extrême(D)) = Extrême (D)).
La p-value d'une donnée D pour tester T est alors définie comme p = P[ Extrême(D) | T] (c'est-à-dire la mesure de l'ensemble Extrême(D) d'après la loi de probabilité T).
@Science4All Super merci pour ton explication ! :) ça me permet de comprendre le principe général ; du coup le choix des données influent nécessairement sur la preuve apportée à la théorie, ce que tu expliques dans ta vidéo comme un biais de sélection potentiel.
"Quand une mesure devient un objectif, elle cesse d'être une bonne mesure". C'est ce que vous voulez dire ici avec la p-value, mais ça n'est pas spécifique qu'à la p-value, n'est-ce pas ?
Non, c'est valable avec le PIB en économie par exemple
Mais une étude ne comprend-t-elle pas tout ce qui a été mis en œuvre pour trouver le moindre résultat ? Le P-hacking (qui j'ai l'impression englobe aussi les autres problèmes) consiste en fait à dissimuler une partie des résultats non ? Ce que bannit la méthode scientifique.
Parce que sinon on sait depuis longtemps que les scientifiques ont des biais de confirmation ou autres conflits d’intérêts qui pousse au P-hacking, c'est arrivé, ça arrivera encore.
En fait dès qu'il y a de forts enjeux économiques personnellement, je ne fais plus trop confiance en la méthode scientifique, parce que la probabilité du conflit d’intérêt interfère trop, j'ajuste donc la p-valeur de manière totalement arbitraire, mais que j'estime plus fiable. C'est je pense ce que tu entendais par science bisounours.
Je suis déçu, il y a beaucoup de mauvais points dans cette vidéo: tu ne parle pas de la correction pour tests multiples ou des méta-analyses qui sont des moyens de corriger ton argument binomial, et les équipes qui ont analysées les arbitrages de football ont bizarrement tous utilisés une méthode différente dont certaines qui ne prennent en compte aucun facteur de confusion ce qui n'est clairement pas une méthode valide pour analyser ce jeux de données.
Je propose un système/ un standard imparfait mais améliorant je pense: avoir un organisme d'enregistrement a priori des expériences statistiques. Le principe: avant de réaliser la moindre expérience statistique, un scientifique devrait enregistrer son test FUTUR via un organisme centralisé, fournissant qq détails comme la taille de l’échantillon, le critère jugé, le tout serait précisément daté etc... L’intérêt pour lui? Il pourrait ensuite, en cas de publication arborer ou non ce label "j'avais parié avant", qu'il ne tiendrait qu'à nous d'honorer fortement. Est ce que ça va le forcer à enregistrer ces essais foirés? non mais s'il en réussit un et qu'il ne s'est pas enregistré avant alors il ne pourra pas arborer le label sur sa publication, ça lui donne l'incentive de s'enregistrer. Ne serait-ce pas suffisant pour lui d'attendre d'avoir un truc qui marche pour ensuite s'enregistrer et le refaire? si ça serait suffisant mais tout l’intérêt est la, ça le force à être son propre replicateur, ça le force à vérifier lui même la reproductibilité de ses expériences. Si la communauté scientifique a su imposer un tel standard comme la p-value, il me semble tres simple qu'elle puisse imposer un autre standard de ce genre, et donner un tres gros credit au publication arborant ce label "j'avais parié avant". Il y a qq details techniques à penser, comme forcer de donner une date prevus pour le test limitant ainsi la duré de validité du "ticket" enregistré etc... au final il n'y aurait pas trop le choix, jouer le jeu, ne pas le jouer, ou tricher mais ca devrait etre une tricherie clairement volontaire, un mensonge (ce qui enleve beaucoup d'autres biais). Et ca permet aussi de faire pas mal de statistique sur les gens qui jouent le jeu.
On pourrait même rajouter un ratio sur le label "j'vais parié avant" selon le nombre de prédictions émises avant l'expérience et le niveau de confirmation. Par exemple, un statisticien effectuant son analyse sur un échantillon de 2k personnes en double aveugle devrait être plus méritante qu'un collègue restituant un résultat sur 3k sondées pour la même expérience. A mon humble avis ...
Idée très intéressante! Cela dit, comment s'assurer que le scientifique n'enregistre pas son test après l'avoir réalisé? Est-ce que la barrière psychologique de "triche" devient suffisante?
Si l'on pense que non, l'organisme en question pourrait aussi vérifier aléatoirement certains tests, cad vérifier qu'ils sont effectivement réalisés pendant la période annoncée (et au passage vérifier une partie des résultats?).
@Flavien Hirsch "Est-ce que la barrière psychologique de "triche" devient suffisante?" Ca c'est ce que je disais à la fin, en fait ca retire au moins la partie des biais involontaires. Le cherry picking c'est souvent involontaire: on met au point l'experience et on s’arrête quand ca marche. Parfois a raison, ie on est vraiment en train de régler un truc, parfois à tord: en fait on change rien et on s’arrête sans le savoir au moment ou on a de la chance. On est aussi pas mal biaisé d'un point de vue "mémoire" on va avoir l'illusion d'avoir réussi 10 fois et échoué 3 alors qu'en pratique on aurait fait 30 échecs (qu'on aurait decide de pas vraiment compte que des vraies tentatives) et 4 réussites (qui bizarrement dans notre tete deviendront des tests tout a fait valables. indépendants etc...). En adoptant ce protocol d'enregistrement, on va rectifier d'une part le dernier aspect, par ce que le fait de s'enregistrer va "réveiller" la personne et lui faire bien prendre acte qu'elle est en train de faire un test. Et on enleve aussi le biais involontaire, ou au moins un garde un historique de preuve pointant le fait que ca puisse être un simple hasard. Au final oui on peut pas lutter contre la triche, mais la part malveillante est minoritaire.
@Passe-Science Ça permet de régler le problème des biais involontaires (du moins ces biais-là) en effet!
Pour les tests qui se sont arrêtés en cours de route (raisons éthiques ou autre) au moins on le saurait en comparant l'enregistrement au test réel, et les auteurs devraient bien le justifier.
La question suivante devient donc: y a-t-il dans certains cas de bonnes raisons de ne pas prévoir à l'avance les détails du test? Est-ce qu'enregistrer les tests pourrait inciter à se priver d'études utiles qui auraient été faites autrement?
(Je n'ai pas d'exemple qui me vient immédiatement en tout cas, et puis on pourrait rétorque que si certaines variables sont dynamiques on pourrait quand même enregistrer ce qui est fixe, et expliquer ce qui doit rester dynamique et ce à quoi on s'attend)
Si une étude sur 100 rejette une théorie pour une p-value = 0.01 il faut rejeter la théorie définitivement ? Cela parait étrange
Mais du coup, avec le p-hacking, est-ce qu'un géant de l'industrie pétrolière pourrait, avec assez d'argent, se payer une équipe de chercheurs pour "prouver significativement" que le réchauffement climatique n'est pas dû aux activités humaines ?
La méthode scientifique d’aujourd’hui est là moins pire des méthodes aujourd’hui
Je vois pas en quoi ce serait dommage de dire ça
Comme la fission nucléaire est la moins pire des méthodes pour générer de l’énergie propre aujourd’hui
Jusqu’à ce qu’on ai la fusion
Et même une dois ce progrès technique atteint, on cherchera encore à réduire les perte
sylvain mercadie - 2019-06-10
Merci beaucoup pour ce travail remarquable ! Tout étudiant en science devrait voir cette série de vidéo. Bonne continuation !