ANOVA à un facteur : partie 1

ANOVA un facteur

L’ANOVA à un facteur (ou one-way ANOVA) est une méthode statistique extrêmement répandue, qui est employée pour comparer plus de deux moyennes. Elle est dite à un facteur, car les moyennes sont relatives aux différentes modalités d’une seule variable, ou facteur.

Cette méthode est un peu déconcertante au début parce que ANOVA veut dire “ANalysis Of VAriance”, que la variance est un paramètre de dispersion, et qu’elle est employée pour comparer des moyennes qui sont des
paramètres de position ! Ca peut sembler paradoxale, mais je vais essayer de vous expliquer pourquoi.

 

1. Contexte de l’ANOVA à un facteur

En prenant comme exemple le jeu de données iris, une ANOVA à un facteur pourrait, par exemple, être employée pour comparer les moyennes (les traits horizontaux sur le plot) des longueurs des sépales des trois espèces d’iris, et répondre ainsi à la question “est ce que ces moyennes sont globalement différentes ou pas ?

 
anova à un facteur

Note : ici, le facteur est la variable Species qui contient 3 modalités ou groupes (setosa, virginica et versicolor). Pour plus de lisibilité le nombre de données a été réduit à 10 par espèces.

 

2. Principe de l’ANOVA à un facteur

Le principe de l’ANOVA repose sur la dispersion des données (c’est à dire l’écartement des données autour de la moyenne).

L’idée derrière l’ANOVA à un facteur est de dire que la dispersion des données a deux origines :

  • d’une part, l’effet du facteur étudié. Par exemple, sur le plot précédent, on voit que les longueurs des sépales de l’espèce versicolor ont tendance à être plus élevées que celles de l’espèce setosa. Lorsque toutes les fleurs sont considérées ensemble, une partie de la dispersion est donc imputable aux modalités versicolor et virginica, puisque, par rapport à l’espèce setosa, elles tirent les valeurs vers le haut. Cette part de dispersion ou variabilité est appellée variabilité factorielle ou variabilité inter-classe.

  • et d’autre part, la variabilité intrinsèque des fleurs. Toujours sur le plot précédent, on voit que, pour une même espèce, les longueurs des sépales ne sont pas strictement identiques, mais qu’il existe une certaine variabilité. On parle de variabilité intra-classe. Cette variabilité est aussi appelée variabilité résiduelle, car c’est la part de variabilité qui reste lorsque la variabilité factorielle est soustraite à la variabilité totale. On considère que la variabilité résiduelle est le bruit des données,car elle correspond à la part qui n’est pas expliquée.

Le principe de l’ANOVA est de déterminer, à l’aide d’un test statistique, si la part de dispersion imputable au facteur étudié, est significativement supérieure à la part résiduelle.

Si la dispersion factorielle est significativement supérieure à la dispersion résiduelle (comme dans le plot de gauche ci dessous), alors cela signifie que la dispersion des données, autour des moyennes de chaque modalité, est faible par rapport à la dispersion des moyennes autour de la moyenne générale (traits magenta). Et si les moyennes relatives à chaque modalités sont très dispersées, en même temps que la variabilité intra-classe est faible, alors cela signifie que les moyennes sont globalement différentes.

A l’inverse, si la dispersion factorielle est du même ordre de grandeur que la disepersion résiduelle (comme sur le plot de droite ci dessous), alors cela signifie que les moyennes ne sont pas globalement différentes.

anova à un facteur
Les traits verticaux en pointillés illustrent la dispersion des moyennes de chaque espèce, par rapport à la moyenne générale (lorsque toutes les données sont considérées ensemble).Ces données ne sont pas celles du jeu de données iris, elles ont été simulées.

 

3. Processus détaillé de l’ANOVA à un facteur

3.1 Première étape : calcul de la dispersion totale des données

La première étape de l’ANOVA à un facteur, consiste à mesurer la dispersion totale des données, en employant comme paramètre la somme des distances au carré, entre chaque observation et la moyenne globale (ou Grand Mean). On appelle ce paramètre la Somme des Carrés Totaux (SCT). En, anglais on l’apelle Total Sum of Squares, son abréviation est SST.

Avant de voir la formule de calcul de la Somme des Carrés Totaux, posons quelques repères :

  • le facteur étudié (ici Species) comporte k modalités (ici 3).
  • le nombre de données, pour chacune des modalités, est noté n_i(dans le jeu de données iris original, n1 = n2 = n3 = 50).
  • le nombre total de données est noté N dans le jeu de données irisoriginal N=150).
  • les observations (ici les longueurs des sépales) sont notées yij.
  • i est l’indice des modalités, ici, il va de 1 à k.
  • j est l’indice de l’observation au sein d’une modalité, ici il va de 1 à 50.
  • les moyennes des observations de chaque modalité sont notée y_bar_i.

$$ \overline {y_i} = \frac{1}{n_i}\sum_{i=1}^{n_i}(y_{ij})$$

 

  • la moyenne générale des observations (appellée aussi Grand Mean), est notée y_bar (tout court)

$$\text{Grand Mean} = \overline{y} = \frac{1}{N} \sum_{i=1}^{k}\sum_{j=1}^{n_j} (y_{ij}) $$

 

Comme dit précédemment, la Somme des Carrés Totaux (SCT) correspond à la somme des distances au carré entre chaque valeur observée et la
moyenne globale ( Grand Mean)
:

$$\text{SCT} = \sum_{i=1}^{k}\sum_{j=1}^{n_j} (y_{ij } – \overline{y})^2 $$

La somme des carrés totaux peut s’illustrer comme ceci, ici, pour l’illustration le nombre de données à été réduit à 10 par espèces.

anova à un facteur

 

3.2 Décomposition de la dispersion totale

La seconde étape, de l’ANOVA à un facteur, consiste, comme expliqué précédemment, à décomposer la Somme des Carrés Totaux (SCT) en deux parties:

  • celle imputable au facteur, c’est-à-dire imputable aux modalités de la variable étudiée, ici l’espèce. Cette partie est appelée la Somme des Carrés Factoriels (SCF). Elle est appelé Factorial Sum of Squares (SSF) en anglais.

  • et la partie restante, qui est appellée la Somme des Carrés Résiduels (SCR). Elle est appelée Error Sum of Squares (SSE) en anglais.

La Somme des Carrés Factoriels se calcule de la même façon que la Somme des carrés Totaux, à la différence que les valeurs observées (yij) sont remplacées par les moyennes des groupes auxquels elles sont rattachées.Les écarts considérés sont donc ceux entre les moyennes des groupes et la moyenne générale.

 

$$ SCF = \frac{1}{k-1} \ n_i *(\overline{y_i} – \overline{y})^2 $$

 

Le graph ci dessous illustre la somme des carrés factoriels :

anova à un facteur

Le Somme des Carrés Résiduels s’obtient par simple différence :

SCR = SCT − SCF

La variance résiduelle peut aussi se calculer avec la formule déjà vue précédemment, en remplaçant la moyenne générale par la moyenne des groupes, comme cela :

$$\text{SCR} = \sum_{i=1}^{k}\sum_{j=1}^{n_j} (y_{ij } – \overline{y_i})^2 $$

 

On peut illustrer la somme des carrés résiduels comme ceci :

anova à un facteur

 

3.3 Calcul des variances factorielle et résiduelle

Après avoir calculé les sommes des carrés factoriels et résiduels, il est nécessaire de calculer les variances de ces deux sources de variations. La variance n’est rien d’autre que la Somme des Carrés divisées par son nombre de degrés de liberté (degrees of freedom en anglais). En pratique, le nombre de degrés de liberté de la part factorielle est k-1, et celui de la part résiduelle est N-k.

Les variances calculées ici sont aussi appeleés Carrés Moyen, ou Mean Squares en anglais.

$$\text{Variance Factorielle} = \frac{SCF}{k-1} $$

 

$$\text{Variance Résiduelle} = \frac{SCR}{(N-k)} $$
 

3.4 Test statistique

Dans la quatrième étape de l’ANOVA à un facteur, un test statistique est employé pour déterminer si la variance factorielle est significativement supérieure à la variance résiduelle. Il s’agit du test F du rapport de ces deux variances.

Sous certaines hypothèses (normalité et homogénéité des résidus (écarts entre les observations et les moyennes des groupes), la statistique du test F suit un loi de Fisher à k-1 et N-k degrès de liberté.

$$ F_{(k-1, N-k)} =\frac{ \frac{SCF}{(k-1)}}{\frac{SCR}{(N-k)}} $$

Si la valeur de F est supérieure à la valeur seuil théorique selon la distribution de Fisher, avec un risque alpha donné (5% en général), alors cela signifie qu le test est significatif. Dans ce cas, la variabilité factorielle est significativement supérieure à la variabilité résiduelle (ou au bruit). Et on conclut que les moyennes sont globalement différentes.

 

4. Hypothèses de l’ANOVA à un facteur

Je disais plus haut que l’ANOVA à un facteur est employée pour répondre à la question “est ce que les moyennes sont globalement différentes” ?

De façon plus précise, l’expression “globalement différente” veut dire “est ce qu’au moins deux moyennes, (parmi les k observées) sont significativement différentes? “.

Les hypothèses nulle et alternative de l’ANOVA à un facteur sont alors :

$$H_0 : µ_1 = µ_2 =….=µ_k $$

$$H_1 : \exists (i,j)\ tel\ que : µ_i \ne µ_j $$

Note : les hypothèses sont faites au niveau des populations, c’est pour cela qu’on utilise la lettre grec µ. Les y_ij_barre correspondent aux moyennes des échantillons.

 

5. Le modèle ANOVA est un modèle linéaire

Bien que cela ne soit pas complètement intuitif aux premiers abords, l’ANOVA est un modèle régression linéaire qui fait l’hypothèse d’une moyenne par modalité du facteur étudié. Il s’écrit :
$$ y_{ij}= \overline{y_i} + e_{ij}$$

eij correspondent aux résidus (les écarts entre les observations et les moyennes des groupes auxquels elles sont relatives). Ce sont sur ces résidus que sont évalués les hypothèses de validité du test F.

6. Présentation des résultats

Les résultats de l’ANOVA à un facteur sont généralement présentés dans
une **table d’analyse de variance*, comem ceci :

Source Somme des carrés ddl Carrés Moyens Fvalue pvalue
Facteur SCF k-1 SCF / (k-1)
Résidus SCR N-k SCR / (N-1) F p
Total SCT N-1

 

7. Les conditions de validité de l’ANOVA

Comme évoqués plus haut, les résultats du test F sont valides, si :

  • les résidus sont indépendants.
  • les résidus suivent une loi Normale de moyenne 0 et de variance = variance résiduelle.
  • les résidus sont homogènes.

Cela se vérifie avec un diagnostique de régression et/ou l’utilisation de tests statistiques adéquats.

Si ces hypothèses ne sont pas vérifiées, il est toujours possible d’appliquer une transformations au niveau des réponses (log par exemple), ou bien d’utiliser une ANOVA non-paramétrique (test de Kruskal-Wallis), ou encore de réaliser une ANOVA basée sur des tests de permutations.

 

8. Pour aller plus loin

Je vous montrerai dans un prochain article comment réaliser une ANOVA à un facteur avec R, c’est-à-dire quelles sont les commandes à utiliser, comment vérifier les hypothèses de validité, et comment faire les tests-post hoc (les comparaisons deux à deux pour déterminer quelles sont les moyennes qui sont différentes).

En attendant, j’espère que ce premier article sur l’ANOVA à un facteur permettra aux débutants de bien comprendre la théorie de cette approche statistique. Et si cet article vous a été utile, n’oubliez pas de le partager !

   

Crédit photo : wangxiawhx


Retrouver ici mes quatre derniers articles dédiés aux débutants:

Ressources francophones pour l’analyse de données avec le logiciel R

Comment importer plusieurs jeux de données de façon automatisée, avec le logiciel R]

Analyse descriptive des variables catégorielles

12 conseils pour organiser efficacement vos données dans untableur.

Partager l'article
  •  
  •  
  •  
  •  
  •  
    6
    Partages
  • 6
  •  
  •  
  •  
  •  

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *