Vous avez peut-être déjà entendu parler de ces termes, ou peut-être pas, chacun suit son propre chemin. Mais comme il s’agit de concepts essentiels pour comprendre et utiliser les p-values, j’espère que ce tutoriel vous sera utile, qu’il s’agisse d’une remise à niveau ou de votre première approche de ces notions.
Ceci étant dit, je ne vais pas réintroduire les p-values car nous avons déjà un article à ce sujet, ici.

L’intuition

Avant d’aborder les aspects mathématiques et probabilistes du problème, prenons un instant pour comprendre intuitivement le problème des tests multiples à travers l’exemple de la loterie nationale.

Quelles sont vos chances de gagner ? Il vous faudrait beaucoup de chance.

Mais quelles sont les chances qu’une personne que vous connaissez gagne ? C’est plus probable, mais cela reste peu probable.

Et maintenant, si l’on considère tout un pays, quelle est la probabilité que quelqu’un gagne ? Et à ce stade, s’agit-il encore d’une question de chance ?

Vos chances personnelles de gagner sont faibles, les chances que quelqu’un gagne ne le sont pas.

Cela illustre bien le problème des tests multiples.

Retour à la science

Comme mentionné dans l’article d’introduction aux p-values, fixer une limite en dessous de laquelle une p-value est considérée comme significative revient à fixer la probabilité d’observer ces données lorsque la réalité de l’univers est « normale » (c’est-à-dire sous l’hypothèse nulle). Cette limite est souvent fixée à 0,05. Observer un tel résultat (avec un seuil suffisamment strict) relèverait alors de la chance. Cependant, si vous appliquez les mêmes tests à l’ensemble des quelque 21 000 gènes du corps humain, vous vous retrouvez dans une situation analogue à celle de la loterie : la probabilité d’observer quelque chose « par hasard » plutôt qu’en raison d’un véritable effet, augmente fortement.

Autrement dit, le seuil de p-value que nous utilisons dans une expérience unique correspond au taux maximal de faux positifs que nous sommes prêts à accepter. Par convention, on accepte généralement un risque de 5 % de conclure qu’il se passe quelque chose alors que ce n’est pas le cas. Toutefois, si vous répétez suffisamment une expérience, ou si vous réalisez un grand nombre d’expériences similaires, cette probabilité de 5 % finit par se concrétiser, et plus vous répétez, plus cela devient probable. Cela peut vous conduire à publier des résultats erronés ou à perdre du temps à essayer de confirmer un effet qui n’existe pas.

Outils pour compenser cela

Ces méthodes sont facilement accessibles dans le langage R en utilisant la fonction p.adjust sur un vecteur, avec l’option correspondant à la méthode de correction souhaitée. Vous pouvez consulter la page de manuel.

  • Bonferroni

La méthode de Bonferroni est la plus stricte : elle réduit fortement les risques de considérer à tort un résultat négatif comme positif. Cependant, elle peut aussi éliminer une part importante de vrais résultats positifs.

  • Correction FDR

La correction FDR (False Discovery Rate) cherche à atteindre un compromis plus équilibré. En particulier, si vous avez de nombreuses p-values faibles, elles ne seront pas trop affectées.

Ces deux méthodes reposent sur des philosophies différentes : Bonferroni limite la proportion de résultats négatifs considérés à tort comme positifs, tandis que la FDR limite la proportion de résultats positifs qui sont en réalité faux. Le débat sur la meilleure méthode peut rapidement devenir complexe. Sachez simplement que les deux sont utilisables, mais qu’un FDR < 5 % et une p-value corrigée < 5 % ne signifient pas exactement la même chose, bien que les deux soient tout à fait acceptables dans vos articles scientifiques.

Pour une explication plus détaillée et mathématique sur les tests multiples et leur correction, je vous encourage à lire l’article suivant.

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6099145/

 
 
 

À lire aussi

Utilisation de la ressource de calcul iPOP-UP@RPBS

Utilisation de la ressource de calcul iPOP-UP@RPBS

Bonjour à toutes et tous, Nous organisons des sessions de formation gratuites sur l’utilisation de la ressource de calcul haute performance iPOP-UP@RPBS. Ces formations sont ouvertes à tout biologiste travaillant dans un laboratoire de l’Université Paris Cité. Ce...

Nouvelle nomination à la direction scientifique d’iPOP-UP

Nouvelle nomination à la direction scientifique d’iPOP-UP

Nous avons le plaisir d’annoncer la nomination du Professeur Bertrand Cosson en tant que responsable scientifique de la plateforme iPOP-UP (Integrative Platform for ‘Omics’ Projects at Université Paris Cité). Cette nomination marque une nouvelle étape dans le...