Introduction aux tests d’équivalence

Equivalence

Pré-requis

Pour tirer pleinement profit de cet article d’introduction aux tests statistiques d’équivalence, il est nécessaire d’être familier avec le principe des tests statistiques, et notamment connaitre les notions d’hypothèses, de statistique du test, de risque alpha, de p-value, et de conclusion).

Si cela n’est pas le cas, vous pourrez trouver un rappel des principaux éléments dans mon article d’introduction à la puissance statistique.

👉 cliquez ici pour accéder à l’article d’introduction à la puissance statistique

Vous pourrez encore trouver des éléments complémentaires dans la partie Rappels de mon tutoriel “comparaison de deux moyennes avec le logiciel R”

👉 cliquez ici pour accéder au tutoriel de comparaison de 2 moyennes avec R

Introduction

Les tests statistiques classiques, ne permettent de conclure que sur la présence d’une différence. C’est le cas, par exemple, des tests employés pour comparer deux moyennes, comme le test de Student, ou le test de Wilcoxon. Ces tests ne permettent de conclure que sur la différence, car si leur hypothèse nulle est rejetée, on conclura à la présence d’une différence. Alors que si cette hypothèse nulle n’est pas rejetée, on ne conclura pas à l’absence de différence. On dira seulement que “rien ne permet de conclure à la différence“. L’absence de mise en évidence de la différence pouvant être due à une réelle absence d’effet, mais aussi peut être à un manque de puissance.

Ces tests, dits de supériorité, sont, par exemple, utilisés mettre en évidence une plus grande efficacité d’un traitement, par rapport à celle d’un placebo.

Or, dans certaines situations, nous aimerions conclure sur l’équivalence de deux traitements, non pas sur leur différence.
Cela pourrait être le cas si un nouveau traitement coûte deux fois moins cher à produire, que le traitement de référence. Avant de mettre ce nouveau médicament sur le marché, il est nécessaire d’évaluer si son efficacité est équivalente à celle du traitement de référence. Et dans cette situation, c’est un test d’équivalence qu’il faut utiliser !

Brefs rappels des tests de supériorité

Les tests de supériorité sont basés sur l’opposition de deux hypothèses :

  • une hypothèse nulle, dite de statu quo, qui suppose qu’il n’y a pas d’effet du traitement,
  • une hypothèse alternative qui spécifie, au contraire qu’il y a un effet.

Dans le cadre d’une comparaison de deux moyennes, avec une approche bilatérale, ces hypothèses, s’écrivent :

$$H_0 : \mu_A = \mu_B $$
$$H_0 : \mu_A \neq \mu_B $$

Le principe du test statistique est de calculer une quantité (la statistique du tests) avec les données observées, puis de regarder où se situe cette valeur sur la distribution théorique, qui est connue, de cette statistique. Cette distribution théorique est celle sous l’hypothèse nulle que les moyennes sont égales, elle est donc centrée sur 0.

Par exemple, la statistique du test de Student est :

$$T_{n_A+n_B-2} = \frac{m_{A} – m_{B}}{\sqrt{s^2 (\frac{1}{n_A}+\frac{1}{n_B})}}$$

Ou s² est la variance poolée :

$$s^2 = \frac{(n_{A}-1)s_{A}^2\;+(n_{B}-1)s_{B}^2}{(n_{A} + n_{B} -2)}$$

La distribution théorique de cette statistique est une distribution de Student centrée sur 0 à n_A + n_B-2 paramètres.

distribution de Student sous l'hypothèse nulle

 

Le risque alpha (ou risque de première espèce), est le risque que l’on prend, de se tromper en concluant à tort au rejet de l’hypothèse nulle. Il est généralement fixé à 5%. Dans un test bilatéral ces 5% sont répartis de part et d’autre de la courbe de distribution:

valeur seuil de rejet de l'hypothèse nulle

 

 

Si la statistique calculée dépasse les valeurs critiques (les barres rouges verticales) définies en fonction du risque alpha, alors l‘hypothèse nulle est rejetée, et on conclut à la présence d’une différence

rejet de l'hypothèse nulle

 

En revanche, si la statistique calculée est comprise entre les deux valeurs critiques alors l‘hypothèse nulle n’est pas rejetée

 

non rejet de l'hypothèse nulle

 

Mais dans cette situation, on ne conclura pas à l’absence de différence, et encore moins à l’égalité des moyennes !

Cela est dû au fait que l’on ne contrôle pas le risque de se tromper. L’absence de mise en évidence d’une différence pourrait être le résultat d’une absence réelle d’effet, ou bien d’une faible puissance statistique (par exemple, si les échantillons sont de faibles taille).

Ainsi, lorsque l’hypothèse nulle n’est pas rejetée, on ne peut jamais conclure à l’égalité des moyennes.

 

Une autre approche, dite des intervalles de confiance peut également être employée pour comparer deux moyennes. Il s’agit de calculer l’intervalle de confiance à 95% de la différence des moyennes :

  • si cet intervalle de confiance à 95% ne contient pas 0, alors on conclura que les deux moyennes sont différentes
  • si cet intervalle de confiance contient 0, alors on conclura “que rien ne permet d’affirmer que les deux moyennes sont différentes”.

test de supériorité et intervalle de confiance

 

Vous trouverez plus d’informations sur les intervalles de confiance dans l’article Fluctuations d’échantillonnage et biais.

👉cliquez ici pour accéder à l’article dédié aux fluctuations d’échantillonnage et aux biais

 

Les tests d’équivalences

Les bornes d’équivalence

Pour évaluer l’équivalence, il est nécessaire, dans un premier temps, de fixer des bornes d’équivalence.

Ces bornes d’équivalence vont permettre de définir un intervalle d’équivalence, c’est-à-dire une étendue à l’intérieure de laquelle la différence entre deux moyennes sera considérée comme négligeable.

Les valeurs de ces bornes, généralement symétriques, sont un peu subjectives. Elles dépendent totalement du domaine d’application.

C’est pour cela que ce n’est pas à un biostatisticien-ne de les définir, mais bien à un spécialiste (voir un consensus de spécialistes), de l’effet observé (généralement des médecins).

Ces bornes sont fréquemment notées delta_L (L pour lower) et delta_u (U pour upper):

bornes d'équivalence

Pour donner un exemple, ces bornes peuvent être +/- 20% de m1 (si m1 représente la moyenne du traitement de référence). Donc si m1=10,  les bornes peuvent être 8 et 12. Exprimées en termes de différences entre m2 et m1,  les bornes peuvent être -2 et +2.

 

La procédure TOST

Pour évaluer l’équivalence de deux moyennes, ce qu’il nous faudrait, c’est un test basé sur

  • une hypothèse nulle qui spécifie la non-équivalence
  • une hypothèse alternative qui spécifie l’équivalence.

$$H_0 : \mu_1 \neq \mu_0 \;\text{(ou non-équivalence)}$$

$$H_1 : \mu_1 = \mu_0 \;\text{(ou équivalence)}$$

Comme cela, en rejetant H0, on pourrait conclure à l’équivalence.

Mais cette simple inversion des hypothèses n’est pas possible, car on ne peut pas connaître la valeur sur laquelle serait centrée la distribution théorique (il s’agirait de la vraie différence standardisée entre les deux traitement).

Face à ce problème, la solution consiste à utiliser deux tests classiques unilatéraux, combinés. C’est ce qu’on appelle la procédure TOST pour Two One-Sided Tests.

Le premier test va consister à tester si la différence observée est significativement supérieure à la borne inférieure au risque de 5% :

Premier test d'équivalence TOST

D’habitude, on test si une différence est significativement différente de 0. Ici pour tester si la différence est significativement différente de la borne inférieure (qui n’est pas égale à 0), on va simplement décentrer la statistique en soustrayant la borne inférieure. La statistique du test devient alors :

$$T_{n_A+n_B-2} = \frac{m_{A} – m_{B}-\Delta_L}{\sqrt{s^2 (\frac{1}{n_A}+\frac{1}{n_B})}}$$

Ainsi si la statistique observée est au-delà de la valeur seuil définie pour le risque de 5%, alors on conclura que la différence des moyennes est significativement supérieure à la borne inférieure d’équivalence (delta_L).

On va ensuite faire un second test pour évaluer si la différence est inférieure à la borne supérieure :

deuxieme test d'équivalence TOST

Ainsi si la statistique observée est au delà de la valeur seuil définie pour le risque de 5%, alors on conclura que la différence des moyennes est significativement inférieure à la borne supérieure d’équivalence (delta_U).

Au final, si la différence observée est à la fois supérieure à la borne inférieure et inférieure à la borne supérieure, alors c’est qu’elle est contenue dans l’intervalle d’équivalence. Et dans cette situation, on conclura à l’équivalence.

test d'équivalence TOST

D’après Stephan Brisley

L’approche de l’intervalle de confiance

De façon similaire à l’évaluation d’une différence, une approche par intervalle de confiance peut être employée pour évaluer l’équivalence de deux moyennes.

Dans cette situation, on calculera les intervalles de confiance à 90% de la différence des deux moyennes. Et on confluera à l’équivalence seulement si cet intervalle de confiance ne chevauche aucune des bornes d’équivalence. Autrement dit, si l’intervalle de confiance est pleinement inclu dans l’intervalle d’équivalence.

intervalle de confiance pour évaluer l'équivalence

Pour aller plus loin

Je vous conseille deux publications :

 

 

Si cet article vous a plu, ou vous a été utile, et si vous le souhaitez, vous pouvez soutenir ce blog en faisant un don sur sa page Tipeee 🙏

👉 Cliquez ici pour soutenir le blog Statistiques et Logiciel R

 

Image par Peggy und Marco Lachmann-Anke de Pixabay

Partager l'article
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

6 commentaires

  1. Orson Répondre

    Salut Claire , super article vraiment bien merci à vous et surtout prenez soin de vous et de vos proches

  2. Trésor Zola Répondre

    Bonjour Claire! J’ai beaucoup aimé cet article où j’ai retenu surtout comment conclure lorsque l’hypothèse nulle n’est pas rejetée!

  3. Olivier Nicolas Répondre

    Super article ! Je ne connais pas les procédures que tu présentes et tu explicites bien ce problème statistique d’équivalence auquel on ne fait pas forcément attention

  4. Muzembe Floribert Répondre

    Bonjour Chère Claire,
    Un grand merci pour cet article qui me fait découvrir l’aspect de l’équivalence que je ne connaissais pas.

  5. Cédric Jung Répondre

    Un grand merci pour ce nouvelle article, précis et très bien à synthétisé comme à chaque fois.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *