Jeudi 13 décembre 2018

Science et censure

Il faut toujours dire ce que l'on voit: surtout il faut toujours, ce qui est plus difficile, voir ce que l'on voit.

Charles Péguy

Alessandro Strumia est chercheur en physique des particules à l'Université de Pise. Le 28 septembre 2018, Strumia a donné une présentation lors de la première conférence sur les "Particules de Hautes Energies et le Genre". Dans sa présentation, l'auteur explique, en s'appuyant sur un travail publié plus tôt que depuis quinze ans, ce sont les femmes qui sont favorisées notamment dans les embauches en sciences physiques. La discrimination existe bien, mais contrairement aux idées reçues, elle s'exercerait donc contre les hommes. Le 30 septembre - un dimanche, c'est dire l'urgence -, le CERN publiait un communiqué de presse pour dire que la présentation de Strumia "risqu[ait] d'éclipser le message important et les réalisations de [cette conférence]" ("risks overshadowing the important message and achievements of the event"), jetant ainsi le doute sur le but premier de l'évènement en question et la nature du CERN comme organisme de recherche ou think tank du progressisme qui organiserait des conférences uniquement quand les conclusions en sont maîtrisées. Mais ce n'est pas tout. Strumia, par ailleurs chercheur invité au CERN, a été par la même occasion relevé de cette partie de ses fonctions. L'Université de Pise, où il a aussi un poste, a ouvert une enquête pour violation de son Code d'Ethique. Cette affaire est la dernière mais sûrement pas la première des censures qui s'exercent contre ceux qui travaillent sur les discriminations en sciences1 ou d'autres domaines contrôlés par le politiquement correct.

Dans ce billet, il n'est pas question de reprendre l'étude de Strumia ou de discuter de l'hypothèse de variabilité sur laquelle sont fondés la plupart des travaux censurés sur les discriminations. Tout cela devrait être fait calmement, froidement avec des arguments quantitatifs, des modèles testés, des critiques publiées, bref, scientifiquement, loin de toute pression sociale, cléricale, institutionnelle2. Il s'agit plutôt ici de discuter des conséquences de la censure en sciences. L'expérience de Strumia mais aussi ma pratique quotidienne de la recherche m'ont convaincu de son existence et même de son omniprésence dans certains champs dits scientifiques. Dans l'immense majorité des cas, il ne s'agit pas d'une censure explicite, qui s'applique sur une personne ou un travail, il s'agit plutôt d'auto-censure ou même de formattage de l'esprit tels que le chercheur ne peut pas penser autrement que de manière conforme3. Il y a beaucoup à dire et écrire sur ce sujet des raisons ou sources de la censure mais cela non plus ne sera pas le but de ce billet. Nous ne parlerons pas non plus des problèmes moraux ou philosophiques que pose la censure en soi. Nous préférerons parler des conséquences de la censure dans les sciences et uniquement dans les termes du but que se donne la science: la découverte de la vérité ou peut-être plus modestement l'existence de certaines lois de la Nature (ou de la Société).

Votre quête vers le prix Nobel

Commençons par un exemple pour être transparents sur les notions et le modèle que nous utiliserons dans ce billet. Habillé de votre plus belle blouse blanche, vous demandez à votre équipe d'assistants de recherche de vous rejoindre dans la salle café et vous leur annoncez: "Aujourd'hui, nous partons à la recherche du Yéti. Comme vous le savez, personne ne sait s'il existe. Bien sûr, si c'était le cas, il serait impossible de l'observer directement, il serait bien trop méfiant. Mais voici à quoi ressembleraient ses empreintes. Montrons la vérité de la théorie de l'existence du Yéti et c'est la gloire, la richesse et le prix Nobel pour moi (de physiologie et médecine? ou son équivalent de Géographie? Ou si vraiment il s'agit de trouver une bête imaginaire, peut-être que le prix Nobel d'économie serait mieux indiqué)! Et peut-être une prolongation de vos contrats pour vous. Pour ce dernier point, on verra, ça dépendra des sujets à la mode pour les financements de l'année prochaine..."

Posons les hypothèses suivantes sur la campagne de recherche de terrain que vous venez de lancer.

  • Comme nous ne savons pas si le Yéti existe, nous poserons a priori (avant le début de toute recherche) la probabilité de son existence à 50%.
  • Chaque jour, l'équipe d'assistants de recherche court la campagne et observe une empreinte avec une certaine probabilité. Avant le début de la recherche, on estime cette probabilité quelque part entre 6% et 30% (cette probabilité peut être ou ne pas être identique que le Yéti existe effectivement ou non).
  • Quand une empreinte est observée, il existe la possibilité que ce soit une empreinte d'un autre animal que le Yéti. Il existe deux types d'erreur: considérer que c'est effectivement une empreinte de Yéti alors que ce n'en est pas une (observation faussement positive) ou à l'inverse, considérer que ce n'est pas une empreinte de Yéti alors que c'en est bien une (observation faussement négative). Nous ne connaissons pas exactement ces probabilités de faire des erreurs, nous estimerons donc a priori qu'elles sont quelque part entre 0% et 40%.
  • Si le Yéti existe, les empreintes des autres grands animaux ne devraient pas exister: en effet le Yéti ne peut être que le seul grand mammifère dans l'écosystème où vous envoyez vos assistants de recherche. Ainsi, si les empreintes pouvaient être attribuées sans erreur (sans observations faussement négatives ou positives), une seule empreinte de Yéti prouverait son existence, une seule empreinte d'un animal autre que le Yéti prouverait son inexistence. Mais le fait qu'il puisse y avoir des erreurs d'obsevation interdit de tirer des conclusions aussi simples aussi vite.

Chaque jour, votre équipe d'assistants de recherche, vous envoie depuis le terrain un message pour vous tenir informé et vous dit si

  1. elle n'a pas trouvé d'empreinte,
  2. elle a trouvé une empreinte qu'elle a jugée ne pas être celle d'un Yéti, ou
  3. elle a trouvé une empreinte qu'elle a jugée être celle d'un Yéti.

Quelle est alors la probabilité pour que vous deveniez prix Nobel? Et combien de jours devra durer la campagne qui vous mènera à la gloire? Pour calculer tout cela, il faut connaître deux choses: quelles vont être les observations obtenues sur le terrain et comment celles-ci vont influencer la croyance de tous (vous-même et le comité Nobel) que ces observations prouvent l'existence (ou l'inexistence) du Yéti? Pour répondre à la première question, nous ferons des simulations informatiques pour générer des observations avec les probabilités données plus haut. Pour la seconde question, nous nous appuierons sur le concept de révision Bayésienne. Illustrons ce concept complexe avec les exemples suivants.

  • Le premier jour, votre équipe vous informe qu'aucune empreinte n'a été vue. Vous en déduisez qu'il est certainement un tout petit peu plus compliqué que vous ne le pensiez d'observer une empreinte. En revanche, sans nouvelle observation sur la forme des empreintes, vous ne modifiez pas votre croyance sur la théorie de l'existence du Yéti.
  • Le second jour, votre équipe saute de joie: une empreinte a été observée et elle est effectivement jugée être celle d'un Yéti. Dans ce cas, vous revenez sur votre première révision: observer des empreintes ne doit pas être si compliqué que ça si on peut en oberver une en seulement deux jours. Aussi, vous vous dites que puisque la première empreinte observée est jugée être celle d'un Yéti, la théorie de l'existence du Yéti devient sûrement plus probable. Elle n'est bien sûr pas prouvée à 100% puisqu'on peut avoir devant nous une observation faussement positive, mais c'est sûrement une bonne nouvelle...

Le concept de révision Bayésienne est la méthode mathématique qui décrit comment, quantitativement, les probabilités de notre modèle doivent être modifiées quand une observation est faite. Avec nos simulations et la méthode des révisions Bayésiennes, nous pouvons maintenant imaginer 240 chemins tirés au hasard pour votre campagne de recherche du Yéti et calculer ainsi les probabilités que vous avez de gagner le prix Nobel. Nous montrons ces chemins dans la figure suivante.

Figure introuvable...
Figure 1: Probabilité que vous accordez à l'existence du Yéti en fonction du nombre d'observations (en vert, le Yéti existe effectivement, en rouge, il n'existe pas).

Une courbe verte correspond à la probabilité que vous accordez à l'existence du Yéti en fonction du nombre d'observations pour une histoire de données particulière, tirée au sort, alors que le Yéti existe bel et bien. On peut voir que les courbes vertes tendent assez vite vers 100%. Une courbe rouge montre la probabilité que vous accordez à l'existence du Yéti en fonction du temps pour une histoire de données particulière alors que le Yéti n'existe pas. Cette fois, on peut voir que l'on tend assez vite vers 0%. Dans tous ces cas donc, la science triomphera! Parfois il faudra attendre d'amasser près de 500 données mais à la fin, sûrement que la science nous fera atteindre la vérité: si le Yéti existe, on tendra vers une croyance à 100% que c'est le cas, si il n'existe pas, on tendra vers une croyance à 0% qu'il existe.

En général, on considère qu'une "vérité scientifique" est établie quand on peut la prouver à 95%. Dans notre cas, on peut prouver, dans ce sens, l'existence du Yéti, prouver sa non-existence - c'est-à-dire penser qu'il existe à moins de 5% -, et ne prouver ni l'un, ni l'autre - quand on croit à son existence entre 5% et 95%. Dans la figure suivante, nous montrons donc la probabilité, dépendante du temps - ou de manière équivalente pour nous du nombre d'observations - avec laquelle la théorie de l'existence du Yéti est prouvée quand celui-ci existe bien. La zone rouge correspond à la preuve de l'inexistence, la zone verte à la preuve de l'existence et la zone bleue à la zone où nous ne pourrons pas être définitifs, nous ne pouvons pas conclure.

Figure introuvable...
Figure 2: Probabilité de prouver l'existence du Yéti en fonction du nombre d'observations quand le Yéti existe effectivement.

Très vite, si le Yéti existe, son existence sera prouvée. La figure suivante montre, avec les mêmes couleurs, les mêmes probabilités quand le Yéti n'existe pas. Cette fois, on peut voir que, très vite, si le Yéti n'existe pas, son inexistence sera prouvée. Dans tous les cas, gloire à la science!

Figure introuvable...
Figure 3: Probabilité de prouver l'existence du Yéti en fonction du nombre d'observations quand le Yéti n'existe pas.

Le début des ennuis

Le problème désormais c'est que vos assistants de recherche sont humains, ce ne sont pas des machines sans intentions. Et vous sentez bien qu'ils ne vous transmettent pas toute la vérité du terrain. Peut-être croient-ils que les financements pour leur prochain poste viendront plus facilement si on prouve l'existence du Yéti. Ou au contraire, veulent-ils saboter votre carrière et ne veulent-ils surtout pas que vous montriez l'existence du Yéti. Ou peut-être même gardent-ils une partie des informations et des preuves pour eux-mêmes et pour plus tard, quand, à leur tour, ils seront professeurs et mandarins, qu'eux mêmes partiront à la quête du Yéti. Bref, nous ferons l'hypothèse désormais que, quand ils observent une empreinte qu'ils jugent être celle d'un Yéti, avec une certaine probabilité, ils vous annoncent ne pas avoir observé d'empreinte du tout (s'ils vous annonçaient avoir vu une empreinte peu susceptible d'être celle d'un Yéti, vous pourriez vérifier). De la même manière, s'ils observent une empreinte qu'ils jugent ne pas être celle d'un Yéti, avec une certaine probabilité, ils vous annoncent ne pas avoir observé d'empreinte du tout. Ces deux probabilités, censurer des données positives (des empreintes jugées être celles d'un Yéti) ou censurer des données négatives (des empreintes jugées ne pas être celles d'un Yéti) peuvent être différentes entre elles. Comme vous connaissez assez peu vos assistants de recherche, vous estimez qu'elles peuvent être égales à n'importe quelles valeurs entre 0% et 100%.

On recommence l'expérience et on montre dans les deux figures suivantes, les mêmes que les deux précédentes dans ce cas où il peut y avoir de la censure et que vous êtes conscient de la possibilité que cette censure existe.

Figure introuvable...
Figure 4: Probabilité de prouver l'existence du Yéti en fonction du nombre d'observations quand le Yéti existe effectivement (cas avec censure).
Figure introuvable...
Figure 5: Probabilité de prouver l'existence du Yéti en fonction du nombre d'observations quand le Yéti n'existe pas (cas avec censure).

Notez que désormais il est possible, voire probable, que vous soyez incapable, même après un temps très long et des observations très nombreuses de savoir si le Yéti existe ou non. Cette incapacité de conclure arrivera avec environ 60-70% de chance. Vous aurez dans ce cas perdu votre temps (et l'argent public) et la raison en sera la suivante: si vous tendez vers une conclusion, vous pourrez toujours vous dire qu'en fait, vos assistants de recherche ont censuré les observations de façon à vous faire conclure un peu trop rapidement. Si les données sont suffisamment systématiques dans un sens donné, vous vous direz que c'est peu probable que les assistants puissent vous tromper à ce point mais si les données sont moins claires, alors vous ne pourrez pas conclure. Ainsi, la censure de vos assistants de recherche pourrait bien vous coûter le prix Nobel tant convoité, par impossibilité de conclure des données. Le manque de transparence de vos assistants de recherche, même si vous en êtes conscient, rend votre recherche vaine et même si on vous communique régulièrement la découverte d'empreintes de Yéti, vous ne pourrez pas vous empêcher de penser que les empreintes qui ne sont pas des empreintes de Yéti vous ont été cachées (et vice versa) et que, dans ces conditions il est peu prudent d'essayer de conclure.

La censure biaisée

Modifions encore une fois légèrement les hypothèses. Vous savez, comme plus haut que vos assistants de recherche peuvent censurer les données, mais désormais vous savez qu'ils ne le feront - s'ils le font - que pour vous cacher une empreinte qui ne serait pas celle d'un Yéti. Si vos assistants de recherche trouvent une empreinte qu'ils jugent être celle d'un Yéti, vous n'avez rien à caindre: ils vous le diront. Nous montrons dans les deux figures suivantes les probabilités que vous avez alors de montrer l'existence ou l'inexistence de l'horrible bête dans ce cas.

Figure introuvable...
Figure 6: Probabilité de prouver l'existence du Yéti en fonction du nombre d'observations quand le Yéti existe effectivement (cas avec censure biaisée).
Figure introuvable...
Figure 7: Probabilité de prouver l'existence du Yéti en fonction du nombre d'observations quand le Yéti n'existe pas (cas avec censure biaisée).

Maintenant, les informations vous arrivent de manière moins bruitée puisque vous ne pouvez douter de la bonne foi de vos assistants de recherche que pour la divulgation des observations négatives. Ainsi, vous êtes dans le cas intermédiaire entre celui où vos assistants de recherche ne censurent aucune donnée ou celle où ils censurent tous les types de données. Et alors, vous arriverez à prouver l'existence ou l'inexistence du Yéti avec une probabilité intermédiaire. Notez, que de manière assez étonnante, bien que vos assistants de recherche ne censurent que les observations négatives, vos chances de prouver l'existence ou l'inexistence du Yéti sont à peu près identiques, en effet, que le Yéti existe ou non, votre probabilité de ne pas pouvoir conclure à l'issue de vos recherches sont de l'ordre de 20-30%. Ainsi, pour vous, ce qui pose problème c'est la censure des données en général, que cette censure soit biaisée ou non n'ajoute pas au problème. C'est comme si le fait que vous soyez conscient de l'existence de la censure dans un sens vous permet de réequilibrer la façon dont vous interprétez les données (potentiellement censurées).

La censure dont vous n'êtes pas conscient

Mais il y a, pour vous, une situation bien pire que toutes celles que nous avons évoquées jusque là. Vos assistants de recherche pourraient censurer comme nous l'avons décrit plus haut, avec une certaine probabilité, un type de données, disons par exemple les empreintes qu'il ne jugent pas être des empreintes de Yéti. Mais contrairement au cas ci-dessus, vous pourriez ne pas en être conscient. Après tout, tout le monde devrait partager votre probité et vous pourriez ne pas vous rendre compte que la science est aussi un objet social, loin du concept pur que vous imaginez. Dans les deux prochaines figures, nous montrons la confiance en la théorie de l'existence du Yéti que vous obtiendriez dans ce cas de censure dont vous n'êtes pas conscient.

Figure introuvable...
Figure 8: Probabilité de prouver l'existence du Yéti en fonction du nombre d'observations quand le Yéti existe effectivement (cas avec censure non anticipée).
Figure introuvable...
Figure 9: Probabilité de prouver l'existence du Yéti en fonction du nombre d'observations quand le Yéti n'existe pas (cas avec censure non anticipée).

Si le Yéti existe effectivement, vous pourrez rapidement prouver son existence avec toute probabilité. En revanche, si le Yéti n'existe pas, vous pourrez montrer son existence dans 35% des cas après suffisamment d'observations! En effet, vos assistants censureront alors les preuves qui tendraient à montrer l'inexistence du Yéti et vous, inconscient de cette possibilité, ne pourrez pas penser que vous êtes trompé. Vous obtiendrez bien le prix Nobel mais pour avoir montré des résultats faux! Et qui sait ce qui arrivera quand ce qui sera alors interprété comme votre malhonnêteté sera révélé. Ainsi, la censure, tant qu'elle était anticipée, conduisait à une perte de puissance, c'est-à-dire une diminution de la capacité à conclure. Quand elle n'est pas anticipée, elle peut alors conduire à des résultats faux!

Conclusion

Revenons à la discrimination contre les femmes. La société est analogue au professeur qui a envoyé ses assistants de recherche (les chercheurs généralement) sur le terrain pour amasser des preuves de cette discrimination. Les chercheurs publient régulièrement ces preuves. Aujourd'hui, une grande majorité d'études tendent à montrer l'existence d'une discrimination contre les femmes dans de nombreux domaines. Mais le cas Strumia prouverait qu'il y a sûrement de la censure dans la façon dont les études sont publiées. Si c'était le cas et que vous n'en étiez pas conscient jusque-là, pourriez-vous être dans le cas du professeur dont les assistants de recherche ont caché une partie des résultats? Vous pourriez alors être convaincu de la thèse de l'existence des discriminations alors que celles-ci n'existent pas ou en tout cas pas dans tous les domaines où elles sont censées avoir été montrées, ou pas avec l'amplitude qui a été estimée. Peut-être juste n'avez vous pas eu accès à toutes les données qui iraient dans le sens contraire à la croyance généralement admise.

Notons en remarque finale que notre démonstration tiendrait quelque soit la nature de la censure. Mon expérience de chercheur m'a montré que celle-ci peut prendre de très nombreuses formes. Elle peut être explicite, ce peut être de l'auto-censure, ce peut être une pression exercée par les pairs qui, entre autres, peuvent rendre plus grande la difficulté à publier les résultats qui vont dans un certain sens, ce peut être un biais de sélection dans les recherches entreprises (biais qui lui-même découle sûrement d'un biais dans la sélection des chercheurs), ce peut être un biais dans les méthodes utilisées... Il arrive aussi que des études, là aussi, pas nécessairement consciemment, transforment des empreintes d'un animal quelconque en empreintes de Yéti. Dans ce dernier cas, la censure empêche alors que les corrections nécessaires soient publiées.


  1. Pour d'autres exemples, voir les cas Hill ou Lawrence Summers.

  2. C'est le cas, par exemple, de la critique de Sabine Hossenfelder.

  3. Notons d'ailleurs que je ne dis pas dans ce billet que la réaction du CERN a été le fait d'une bureaucratie qui agirait avec des motivations contraires aux préférences des chercheurs. En effet, les décisions du CERN ont été validées par des milliers d'entre eux dans une pétition où le ridicule le dispute à la mauvaise foi.