ANOVA à 2 facteurs – quand les hypothèses ne sont pas satisfaites

 

Cet article fait suite aux trois précédents articles consacrés à l’ ANOVA à 2 facteurs (two ways anova, en anglais) :

 

Nous allons voir ici, les solutions qui peuvent être envisagées lorsque l’hypothèse de normalité et/ ou l’hypothèse d’homogénéité des résidus ne sont pas satisfaites.

1. Rappels concernant les hypothèses de validité de l’ANOVA à 2 facteurs:

Comme décrit dans le tutoriel il est nécessaire que l’ANOVA à 2 facteurs (comme tous les modèles linéaires d’ailleurs) satisfasse trois conditions, pour que ses résultats soient valides (c’est à dire pour qu’on puisse avoir confiance dans ces résultats). On parle alors d’hypothèses de validité. Celles-ci se vérifient sur les résidus de l’ANOVA.

Ces hypothèses de validité sont :

  1. L‘indépendance des résidus,
  2. La normalité des résidus , autrement dit les résidus sont distribués selon une loi normale de moyenne 0,
  3. L’homogénéité des résidus, autrement dit la dispersion des résidus (pour chaque condition correspondant aux croisements des modalités des deux facteurs) est similaire.

Pour plus de détails sur la vérification de ces hypothèses, je vous renvoie vers le tutoriel.

Si l’hypothèse d’indépendance des résidus n’est pas satisfaite, c’est généralement par ce que des observations sont réalisées plusieurs fois sur la même unité expérimentale. Par exemple, si un des facteurs est un traitement (A ou B) et le second facteur du temps (Jour1, jour2, jour 3) et que les observations sont réalisées pour chaque temps sur le même sujet. Dans ce cas, les données d’un même sujet sont corrélées, et il s’agit alors d’utiliser un modèle mixte pour prendre en compte que les données d’un même sujet se ressemblent plus que les données de deux sujets différents. Cette situation de non-indépendance des données nécessite de changer d’approche statistique.

En revanche, lorsque les résidus ne satisfont pas l’hypothèse de normalité et/ou l’hypothèse d’homogénéité cela est plus problématique, car il n’existe pas, du moins à ma connaissance, d’approche non paramétrique de l’ANOVA à 2 facteurs ( comme cela est le cas pour l’ANOVA à un facteur avec le test de Kruskal Wallis).

Il existe néanmoins une solution qui peut facilement être mise en place. Il s’agit d’appliquer une transformation sur la variable réponse. C’est ce que nous allons explorer dans cet article.

2.Une solution simple pour l’ANOVA à 2 facteurs: la transformation

Lorsque, dans une ANOVA à 2 facteurs,  l’hypothèse de normalité des résidus, et / ou l’hypothèse d’homogénéité des résidus ne sont pas satisfaites, une solution simple à envisager est celle de l’utilisation d’une transformation log, ou d’une transformation de type BoxCox (c’est une généralisation de la transformation log) de la variable réponse. L’application de ces transformations a pour conséquence d’améliorer conjointement la normalité et l’homogénéité des résidus. C’est pour cela qu’on peut avoir recours à la transformation de la variable réponse en cas de défaut de normalité des résidus et/ ou en cas de défaut d’homogénéité.

 

3. Tutoriel 

Prenons pour exemple les données mydata, simulées pour l’occasion. On pourrait imaginer qu’il s’agit de mesurer la fatigue musculaire des quadriceps en fonction de trois types d’exercices (course à pied / vélo / vélo elliptique) et en fonction de deux types d’hydratation (eau, boisson glucidique).

 

Vous pouvez copier-coller les lignes suivantes dans voter console R pour créer le jeu de données utilisé ici :

 

2.1 Visualisation des données :

Commençons par visualiser les données :

 

On peut voir que :

  • les niveaux de fatigue lors des exercices de courses et de vélo elliptique sont relativement proches, mais qu’en revanche la fatigue musculaire est plus forte pour l’exercice du vélo.
  • le niveau de fatigue est globalement moins élevé en cas d’hydratation avec une boisson glucidique, et que le profil des fatigues est plutôt parallèle.
  • les profils de fatigue en fonction du type d’hydratation semblent un peu différents (forte augmentation de la fatigue pour le coupe Vélo simple et hydratation avec de l’eau). Ceci laisse à penser qu’une interaction entre les facteurs “Hydration” et “Exercice” pourrait être présente.

2.2 Mise en évidence des défauts de normalité et d’homogénéité

2.2.1 Réalisation de l’ANOVA à 2 facteurs

Pour rappel, les contrastes sont modifiés pour obtenir des carrés de type 3 (vous trouverez plus d’infos dans le tutoriel).

 

2.2.2 Evaluation de l’hypothèse de normalité des résidus

 

anova à 2 facteurs

Le QQplot nous montre qu’il existe un défaut de normalité assez prononcé puisque de nombreux points ne sont pas bien alignés selon la droite.

Le test de Shapiro Wilk va dans le même sens puisque sa p-value est < 0.05 ; il rejette donc l’hypothèse de normalité.

 

2.2.3 Evaluation de l’hypothèse d’homogénéité des résidus

 

Le plot des résidus standardisés en fonction des valeurs prédites (les moyennes des croisements des exercices et des types d’hydratation) nous montre qu’il existe un défaut d’homogénéité des résidus. En effet, on peut voir que la variabilité des résidus a tendance à augmenter lorsque la fatigue augmente (fitted values).

On peut également réaliser un test de Bartlett, en créant une variable condition qui est le croisement des modalités des facteurs “Exercice” et “Hydratation” :

 

Le test de Bartlett va dans le même sens puisque sa p-value est < 0.05 ; il rejette donc l’hypothèse d’égalité des variances des résidus.

 

2.3 Utilisation d’une transformation log de la réponse

2.3.1 Réalisation de l’ANOVA à 2 facteurs avec le log de la réponse

Pour cela, il suffit seulement d’ajuster à nouveau le modèle ANOVA à 2 facteurs, en utilisant log(Fatique) comme variable réponse :

 

Remarque : la transformation log peut être utilisée si les valeurs de la variable réponse sont strictement positives. Si certaines valeurs sont nulles, on peut ajouter + 1 au log : log(Fatique+1).

 

2.3.2 Evaluation de l’hypothèse de normalité

Quand on réalise à nouveau le QQplot, on peut voir que la normalité des résidus s’est améliorée :

 

 

De même, le test de Shapiro Wilk ne rejette plus l’hypothèse de normalité des résidus puisque sa pvalue est > 0.05.

2.3.3 Evaluation de l’hypothèse  d’homogénéité

Le plot des résidus standardisés en fonction des valeurs prédites ne met plus en évidence d’augmentation systématique de la variabilité des résidus avec l’augmentation de la fatigue, et globalement les variabilités des résidus semblent similaires.

 

Et le test de Bartlett ne rejette plus l’hypothèse homogénéité des variances ; sa p-value est > 0.05.

 

Remarque : le test de Levene peut également être utilisé pour évaluer la robustesse du résultat :

 

2.3.4 Résultats

La table ANOVA est accessible via la fonction Anova du package car.L’interaction Hydratation * Exercice apparaît significative.

Pour plus d’informations sur l’interprétation et les suites à donner à l’analyse, consulter le tutoriel sur l’ANOVA à 2 facteurs.

 

2.4 Utilisation d’une transformation BoxCox de la réponse

La transformation BoxCox est définie par :

Quand lambda est différent de zéro, la transformation BoxCox est très proche d’une transformation puissance puisqu’elle retranche 1 et divise par lambda, qui est une constante.

Deux éléments importants sont à prendre en considération :

1. Cette transformation BoxCox s’applique elle aussi uniquement lorsque les données sont strictement positives, car en présence de valeurs négatives et positives, l’ordre des données, peut, ne pas être préservé. Dans ce as, on peut ajouter une valeur (appelé start) aux réponses pour les rendre toutes positives.

  1. La transformation est efficace seulement si les données sont relativement distendues (ratio min max > 1)

Il existe plusieurs fonctions dans R pour appliquer une transformation BoxCox. Ma préférence va à la fonction powerTransform() du package car, pour sa simplicité d’utilisation et les informations fournies en sortie. La fonction powerTransform()s’applique directement sur le modèle :

 

Les sorties de la fonction sont constituées de trois éléments. Dans la première partie, on retrouve l’estimation du coefficient lambda (l’estimation est faite par maximum de vraisemblance).

Dans la seconde partie, un test statistique est réalisé pour évaluer si lambda peut être fixé à 0, c’est à dire pour évaluer si une simple transformation log est suffisante.

Dans la troisième partie un test statistique est réalisé pour évaluer si la transformation BoxCox (avec lambda =1 ou lambda différent de 1) est réellement nécessaire.

Ici, on peut voir que :

  1. lambda est estimé à -0.45 avec un intervalle de confiance à 95% =[- 0.992 ; 0.091].
  2. la transformation log serait suffisante. On s’en doutait déjà puisque l’intervalle de confiance de lambda contient 0.
  3. il est nécessaire d’appliquer une transformation (log ou autre)

A présent, il est nécessaire d’ajouter la réponse transformée au jeu de données, pour ensuite ajuster à nouveau le modèle ANOVA à 2 facteurs avec cette nouvelle réponse :

 

 

 

2.4.1 Evaluation de l’hypothèse de normalité des résidus

Lorsqu’on réalise le QQplot, on peut alors voir que la normalité des résidus a été améliorée :

 

Ceci est confirmé par le test de Shapiro-Wilk :

 

2.4.2 Evaluation de l’hypothèse d’ ’homogénéité des résidus

 

La variabilité des résidus semble plutôt homogène.

Ceci est confirmé par le test de Bartlett:

 

2.4.3 Résultats

 

Ici encore l’interaction Hydratation * Exercice apparaît significative. Cela était déjà  cas avant l’application des transformations , mais avec une statistique F sans doute largement surestimée ( de l’ordre de 6 et 5 avec les transformations contre 34 sans !) :

 

3. Conclusion:

J’espère que cet article répondra aux attentes des nombreux messages de que j’ai reçu depuis la publication du tutoriel sur l’ANOVA à 2 facteurs. Il est à noter que ces transformations log et BoxCox ne sont pas réservées à l’ANOVA à deux facteurs, elles peuvent également être utilisées , par exemple, dans le cadre de la régression linéaire multiple, qui n’a pas non plus d’équivalent non paramétrique. Il faut aussi garder en tête que ces transformations ne sont pas toujours efficaces, parfois les améliorations de la normalité et / ou de l’homogénéité des résidus restent insuffisante.

D’autres approches peuvent être employées si seule l’hypothèse d’homogénéité des résidus est rejetée, comme l’utilisation des estimateurs sandwich ou encore en modélisant la variance. J’essaierai de présenter ces deux approches dans un prochain article.

D’ici là, si cet article sur l’utilisation des transformations vous a plu, ou vous a été utile, n’oubliez pas de le partager 😉

 

Crédits photo : Composita

 

Continuez votre lecture : 

ANOVA à un facteur : quand les hypothèses ne sont pas satisfaites

La régression linéaire simple avec le logiciel R

Régression linéaire simple : quand les hypothèses ne sont pas satisfaites

 

 

Partager l'article
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

3 commentaires

  1. Rojas Répondre

    Merci beaucoup pour votre article, il tombe à point ! Et merci encore pour ce blog très utile à tous les niveaux !

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *