Introduction à l’ANOVA à 2 facteurs

anova à deux facteurs avec R

 

L’ANOVA à deux facteurs est une extension de l’ANOVA à un facteur puisqu’elle permet d’évaluer les effets des modalités, non plus d’une variable catégorielle (ou facteur), mais de deux variables catégorielles, sur une réponse de type numérique continu. Il s’agit d’une méthode statistique classique, mais qui de mon point de vu, est un peu plus complexe à appréhender que l’ANOVA à un facteur, notamment du fait de la possible interaction des effets des deux facteurs sur la réponse.

NB : Avant de lire cet article, il vous sera peut être utile de lire ma série de trois articles que j’ai consacré l’ANOVA à un facteur : ici, et .

 

Table des matières :

 

1. Contexte :

1.1 Le plan d’expérience factoriel

L’ANOVA à deux facteurs est généralement employée pour analyser les résultats d’une expérimentation dans laquelle des individus, ou des unités expérimentales, ont été exposées, de façon aléatoire (randomisée), à l’une des combinaisons (ou croisement) des modalités des deux variables catégorielles. On parle alors de plan factoriel, 2 X 2 si les variables catégorielles possèdent deux modalités chacune, ou 2 X 3 par exemple si l’un des variables possède deux modalités et l’autre trois modalités, etc…

Le nombre d’observations au sein de chaque condition (croisement des modalités) est généralement identique, on parle de plan factoriel “équilibré”.

Prenons par exemple, le jeu de données “warpbreak”s du package “multcomp”. Les données sont issues d’un plan d’expérience visant à évaluer le nombre de ruptures de fils sur un métier à tisser, en fonction de deux variables catégorielles qui sont :

  • la tension exercée sur la laine, avec 3 modalités croissantes :Low / Medium / High
  • le type de laine (A/B).

Les résultats des plans expérimentaux contrôlés sont généralement présentés comme ceci.

ANOVA 2 facteurs avec R

 

Dans un plan d’expérience factoriel, les variables catégorielles sont dites contrôlées, car c’est l’expérimentateur qui choisit leurs modalités (ou niveaux).

De plus, la randomisation permet d’effacer, en moyenne, (là aussi on dit “contrôler”) les effets de variables non étudiées (on parle de variables confondantes, ou parasites).

Les données d’un plan factoriel peuvent être représentées comme ceci, avec les modalités de la première variable catégorielle sur l’axe des x, et les modalités de la seconde variable mise en évidence par des couleurs différentes.

 

ANOVA 2 facteurs avec R

1.2 L’étude observationnelle non contrôlée

D’un point de vu calculatoire, il est tout à fait possible de réaliser une ANOVA à deux facteurs dans le cadre d’une étude observationnelle non contrôlée. Une étude observationnelle non contrôlée est une étude dans laquelle on observe les caractéristiques d’individus ou d’unités expérimentales disponibles.

Par exemple, le jeu de données “mtcars”, est issu d’une étude observationnelle dans laquelle 11 caractéristiques de 32 modèles de voitures répertoriés. En voici un extrait :

mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1

 

On pourrait alors, par exemple, envisager d’évaluer l’impact du type de transmission (am=0 pour une boite de vitesse automatique, am=1 pour une boite de vitesse manuelle), et du type de moteur (vs=0 pour un moteur en V, vs=1 pour un moteur droit) sur la distance parcouru avec un galon d’essence (variable mpg).

Ce type d’étude pose cependant un problème majeur : les autres variables ne sont pas contrôlées, et elles peuvent biaiser les effets des variables d’intérêt.

Par exemple, même si on ne connaît pas grand chose aux voitures, on peut penser qu’à priori, plus une voiture est lourde, moins la distance qu’elle peut parcourir avec un galon d’essence est importante.

Imaginons à présent, que les voitures les plus lourdes ont plutôt un moteur de forme droite qu’un moteur en forme de V. Dans cette situation, si l’ANOVA à deux facteurs met en évidence un effet de la forme du moteur sur la distance parcourue, dans le sens d’une distance moins importante pour les moteurs droits, il se pourrait que derrière l’effet de la forme du moteur, se cache, en réalité, l’effet du poids des voitures. Le poids de la voiture est alors un facteur de confusion ( on dit aussi parfois variable confondante).

Dans cette situation, on peut contrôler à posteriori (c’est à dire lors de l’analyse statistique) les effets d’une ou plusieurs variables confondantes, en les ajoutant dans le modèle de régression (l’ANOVA est un modèle de régression). On dit qu’on ajuste sur les autres variables. Mais dans ce cas, on est plus dans le cadre de l’ANOVA à deux facteurs, c’est autre chose, une analyse de covariance par exemple.

 

2 L’Interaction des variables

2.1 Définition

Le plan d’expérience factoriel permet de limiter le nombre d’unités expérimentales employées (par rapport à une étude réalisée avec chacune des variables séparément), mais il permet surtout d’évaluer si les deux variables catégorielles agissent conjointement sur la variable réponse, ou non. On parle alors d’interaction.

Si l’évolution de la réponse en fonction des différentes modalités de la première variable catégorielle, ne dépend pas des modalités de la seconde variable catégorielle, alors il n’existe pas d’interaction entre les deux variables. Si au contraire, on observe une modification de cette évolution, soit par une augmentation de l’effet de la première variable, soit par une diminution, alors il existe une interaction.

2.2 Visualisation

En prenant pour contexte le plan expérimental des métiers à tisser, présenté plus haut, voici un exemple des différents cas de figure que l’on pourrait rencontrer.

Remarque : les points représentent la moyenne.

 

ANOVA 2 facteurs avec R

Sur la première représentation (à gauche), l’évolution du nombre de ruptures en fonction du niveau croissant de tension est identique pour les deux types de laines, puisque les profils sont parallèles. Il n’y a donc pas d’interaction.

Sur la seconde représentation, le nombre de ruptures en fonction du niveau croissant de tension, augmente plus rapidement pour la laine de type B. Il y a alors une interaction entre la tension du fil et le type de laine avec ici un effet synergique. Lorsque les profils ont la même direction, mais avec des “vitesses” différentes, on parle parfois d‘interaction “quantitative”.

Sur la dernière représentation, les évolutions du nombre de ruptures en fonction de la tension sont contraires. Lorsque les profils se croisent, l’interaction est parfois appelée “qualitative”.

2.3 Interprétation

Lorsqu’une interaction qualitative est mise en évidence par l’ANOVA à deux facteurs, il n’est pas possible de conclure sur les effets propres (individuels) de chacune des deux variables.

En effet, sur le premier graph, celui mettant en évidence une absence d’interaction, on peu dire qu’en moyenne (sur les deux types de laine considérés) le nombre de ruptures de la tension L <;au nombre de ruptures de la tension M < nombre de ruptures de la tension H. De même, on peut dire qu’en moyenne (sur les 3 niveau de tension) nombre de ruptures de la tension A < nombre de ruptures de la tension B. On peut tirer les mêmes conclusions sur la deuxième représentation. En revanche sur le 3ème graph, celui de l’interaction qualitative, on ne peut pas dire que le nombre de ruptures L < nombre de ruptures M < nombre de ruptures H car cela dépend du type de laine. De la même façon on ne pet pas dire que le nombre de ruptures de la laine A est inférieur à celui de la laine B, car cela dépend du niveau de tension.

 

3. Prinicipe de l’ANOVA à deux facteurs

De façon similaire à l’ANOVA à un facteur, le principe de l’ANOVA à deux facteurs repose sur la dispersion totale des données, et sa décomposition en quatre origines :

  • la part imputable au premier facteur
  • la part imputable au second facteur
  • la part imputable à l‘interaction des 2 facteurs
  • la part non expliquée, ou résiduelle.

Imaginons que les données de l’expérimentation en plan factoriel 2×3 sur les métiers soient celles-ci :

ANOVA à deux facteurs avec R

Sur le plot ci dessus, on voit que le nombre de ruptures a tendance à être plus élevé pour les tensions M puis H. Une partie de la dispersion du nombre de ruptures est donc imputable aux modalités M et H puisque par rapport à la modalité L, elles tirent le nombre de ruptures vers le haut. Cette part de dispersion ou variabilité est appelée variabilité factorielle (du premier facteur).

De même , on voit que le nombre de ruptures à tendance a être plus élevé pour la laine B que pour la laine A. Une partie de la dispersion du nombre de ruptures est donc imputable au type de laine puisque la laine B tire les valeurs vers le haut. Cette part de dispersion ou variabilité est également appelée variabilité factorielle (mais du second facteur cette fois).

On voit encore qu’il existe un effet synergique entre le type de laine et la tension, puisque le nombre de ruptures pour les combinaisons Tension M et Laine B, ainsi que Tension H et laine B est supérieur au nombre attendu par une simple addition des effet de la tension et du type de laine. Cette part de dispersion ou variabilité est simplement appelée variabilité de l’interaction.

Enfin, pour une même condition (combinaison d’une tension et d’un type de laine), on voit que les nombres de ruptures ne sont pas strictement identiques, mais qu’il existe une certaine variabilité. On parle de variabilité intra-classe. Cette variabilité est aussi appelée variabilité résiduelle, car c’est la part de variabilité qui reste lorsque les deux variabilités factorielles et la variabilité de l’interaction sont soustraite à la variabilité totale. On considère que la variabilité résiduelle est le bruit des données, car elle correspond à la part qui n’est pas expliquée.

L’ANOVA à deux facteurs va consister à déterminer, à l’aide d’un test statistique si chacune des parts de dispersion (imputable aux facteurs étudiés et à leur intercation), est significativement supérieure à la part résiduelle.

 

4. Conclusion

J’espère que cette introduction à l’ANOVA à deux facteurs répondra à une partie de vos interrogations et de vos attentes sur cette méthode statistique. Dans un prochain article, j’aborderai les éléments calculatoires de cette approche. En attendant, si cet article vous a
plus, n’hésitez pas à le partager 😉

Crédits photos : MBatty

 

Retrouvez ici des articles en lien avec celui que vous venez de lire : 

 

Partager l'article
  •  
  •  
  •  
  •  
  •  
    9
    Partages
  • 9
  •  
  •  
  •  
  •  

7 commentaires

    • Claire Della Vedova Auteur de l’articleRépondre

      Bonjour Daniel,
      très heureuse qu’il vous plaise.
      A bientôt

  1. Merci Cédric ntata Répondre

    Par rapport à ma demande précédente qui était d’avoir les enseignements sur quant et pourquoi utiliser un test stat, je me rend compte que de détails sur le test (ANOVA à 2 facteurs …); Tout est résolu… Donc je suivrai le détail de chaque test pour comprendre enfin quant et pourquoi….
    Merci claire

  2. Youcef GUEFASSA Répondre

    Scinsères salutations, que dieu vous protège…c’était vraiment un article très utile.
    SVP, s’il y aura une possibilté, je voudrai avoir une brève explication de cette fonction : “””MorphoTools: a set of R functions for morphometric analysis”””
    à la prochaine.

  3. Anne-Laure Répondre

    Merci Claire pour cet article !
    Vivement l’article “ANOVA à 2 facteurs : partie 2 – la pratique ” comme pour votre série d’articles sur l’ANOVA à 1 facteur !

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *