Introduction aux GLM

glm R

Très récemment, dans le cadre d’une prestation d’assistance en biostatistique, j’ai été amené à présenter les GLM (modèles linéaires généralisés ou generalized linear models). La personne avec qui j’ai travaillé n’avait jamais étudié ces modèles à la fac. On lui avait seulement parlé des ANOVA et des régressions linéaires, autrement dit des modèles utilisables lorsque la variable réponse est de type numérique continu (comme une masse, ou une taille, par exemple).

Or, dans ses données, la variable réponse était de type “comptage”, il s’agissait d’un nombre d’insectes observés (on parle d’abondance en écologie).

Par le passé, ce type de données était analysé en utilisant des modèles linéaire classiques après transformation logarithmique des comptages. Cette vielle approche, a au moins deux défauts : une puissance statistique diminuée, et une interprétabilité pas toujours évidente (cf l’article de warton et al).

Aujourd’hui, cette approche n’est plus suffisante, et si vous voulez fournir une analyse statistique de qualité, vous devrez passer par l’utilisation des GLM.

Puisque ces modèles sont souvent méconnus des débutants en statistiques, et qu’ils font souvent un peu peur, j’ai eu envie d’essayer d’écrire un article d’introduction, et de montrer qu’en pratique, ils ne sont pas si compliqué que ça!

1. Rappel sur les modèles linéaires

Avant de parler des GLM, il me semble nécessaire de faire quelques rappels sur les modèles linéaires classiques.

1.1 Formulation des modèles linéaires classiques

Les modèles linéaires classiques, sont des modèles mathématiques utilisés pour évaluer les effets de variables prédictives (de type numérique ou catégorielle) sur une variable réponse qui, elle, est obligatoirement de type numérique continue (comme une masse ou une taille par exemple).

La régression linéaire simple, est un modèle linéaire dans lequel une seule variable prédictive est considérée, et celle-ci est de type numérique continue. Pour donner un exemple, une régression linéaire simple peut être employée pour évaluer la relation entre la taille (variable réponse) et le poids (variable prédictive) d’une population donnée (les enfants de 12 ans par exemple).

L’équation de ce modèle linéaire est :

$$ Taille_i = \beta_0 +\beta_1 \;\ast \text{Poids_i}\; + e_{i} $$

i représente l’indice des individus, beta_0 l’ordonnée à l’origine, beta_1 la pente et e_i les erreurs (l’écart entre la taille prédite par beta_0+ beta_1 * poids, et la taille réellement observée). Beta_0 et beta_1 sont des paramètres estimés à partir des données.

De même, une ANOVA à un facteur est un modèle linéaire, qui comporte également une seule variable prédictive, mais ici elle est de type catégorielle. Par exemple, une ANOVA peut être employée pour évaluer si les longueures des sépales de trois espèces d’iris sont différentes. Ce modèle spécifie une moyenne par groupe (ici l’espèce), son équation est :

$$y_{ij} = \overline{y_i} + e_{ij} = µ\;+a_i + e_{ij} $$

i est l’indice de l’espèce, j l’indice des individus dans une espèce donnée. y_barre_i est la moyenne des longueurs des sépale pour l’espèce i. µ est alors la moyenne générale (grand mean), alpha_i l’écart entre la moyenne générale et la moyenne de l’espèce i, et eij les erreurs
(l’écart entre la longueur des s”pales d’une fleur et la moyenne de son espèce)

De façon générale, c’est à dire quelle que soit la nature des variables prédictive (numérique ou catégorielle), et leur nombre (une ou plusieurs comme dans le cas de la régression linéaire multiple, par exemple) l’équation du modèle linéaire est :

$$ y_{ij} = \sum_{j=1}^{p}\;\beta_j\;X_{ij} \;+ e_{ij} $$

Cela signifie que les réponses (y_ij) sont prédites par une combinaison linéaire (addition) des variables prédictives (Xj), auxquelles s’ajoutent les erreurs.

Autrement dit, pour chaque y observé, un y moyen est prédit en sommant les effets des variables prédictives. On peut donc écrire :

$$ µ_y = \sum_{j=1}^{p}\;\beta_j\;X_{ij} $$

Remarque : Cette dernière formulation est importante pour comprendre les GLM.

 

 1.2 Les hypothèses du modèles linéaires:

Les modèles linéaires sont sous-tendus par trois hypothèses, c’est à dire que leurs résultats, notamment en termes de p-value, sont valides si :

  • les résidus sont indépendants,
  • les résidus suivent une loi normale de moyenne nulle et de variance résiduelle,
  • les résidus sont homogènes.

L’indépendance des résidus est généralement évaluée par le plan expérimentale, mais elle peut également être validée par l’emploi d’un test statistiques. Les hypothèses de normalité et d’homogénéité sont généralement évaluées de façon visuelle et/ ou en employant des tests statistiques.

Pour plus de détail sur ces trois hypothèses, vous pouvez consulter cet article.

1.3 En résumé :

Pour résumer, les modèles linéaires :

  1. s’utilisent uniquement lorsque la variable réponse est de type numérique continue
  2. spécifient que les réponses sont prédites par une combinaison linéaire (addition) des variables prédictives, auxquelles s’ajoutent les erreurs
  3. sont sous-tendus par les hypothèses d’indépendance, de normalité et d’homogénéité des résidus.

Remarque : les résidus sont les estimations des erreurs.

 

2.Et les GLM alors ?

Les GLM sont une extension des modèles linéaires classiques qui peuvent être utilisés lorsque les réponses ne sont pas de type numérique continues.

2.1 Quand utiliser un GLM ?

Les GLM sont principalement utilisés dans deux situations :

  1. Lorsque les données sont de type comptage (nombre d’oeufs pondus, nombre de larve présentes etc..),
  2. Lorsque les données sont de type binaire (Malade/non malade ou mort/vivant)

 

 2.1.1 Lorsque les réponses sont de type comptage

Les réponses de type comptage sont bornées en 0 et ne comportent que des valeurs entières positives. Elle suivent théoriquement une distribution de Poisson de paramètre Lambda.

De plus, par définition la variance de réponses distribuées selon une loi de Poisson n’est pas constante, mais égale à la moyenne, elle-même égale au paramètre Lambda (c’est la théorie qui le dit). Cela est aussi vrai pour les résidus. Cela signifie que, en théorie, la variance des résidus augmente, de façon proportionnelle, avec les valeurs de réponses prédites (fitted). Ceci va à l’encontre de l’hypothèse d’homogénéité des modèles linéaires classiques.

Lorsqu’un GLM est utilisé pour analyser des données de comptage, cette approche est parfois nommée “régression de Poisson” (même si la ou les variables prédictives sont catégorielles et que le modèle s’apparente à une ANOVA)

2.1.2 Lorsque les réponses sont de type catégoriel binaire

Lorsque les données sont catégorielles binaires, il est encore plus évident que les erreurs ne peuvent pas suivre une loi normale de moyenne nulle et de variance constante, puisque la réponse est “oui” ou “non”. Ce type de données suit une distribution Binomiale, de paramètres “n” et p”. Comme nous le verrons plus loin, dans ce cas, une transformation (de la réponse) va permettre de passer du “oui” / “non” à une probabilité d’être “oui”.

Lorsqu’un GLM est employé pour analyser des réponses catégorielles binaires, on parle de régression logistique.

Remarque : les glm peuvent également être employés lorsque les réponses sont des proportions.

 

2.2 Comment ça marche les GLM ?

Les modèles linéaires généralisés reposent sur 3 éléments:

  1. Un prédicteur linéaire
  2. Une fonction de lien
  3. Une structure des erreurs

2.2.1 Le prédicteur linéaire

prédicteur linéaire“, c’est un terme un peu complexe pour dire, que comme dans les modèles linéaires classiques, les réponses prédites par les modèles vont l’être à partir d’une combinaison linéaire des variables prédictives. On nomme généralement ce prédicteur linéaire par la lettre ƞ (eta):

$$ \eta \; = \sum_{j=1}^{p} \beta_j\;X_{ij} $$

 

2.2.2 La fonction de lien

La fonction de lien c’est l’étape un peu délicate des GLM ! Contrairement aux modèles linéaires classiques, les valeurs prédites par le prédicteur linéaire ne correspondent pas à la prédiction moyenne d’une observation, mais à la transformation (par une fonction mathématique) de celle-ci.

En pratique, cela signifie que les valeurs du prédicteur linéaire sont obtenues en transformant préalablement les valeurs observées par la fonction de lien. Autrement dit, les beta sont estimés après transformation des réponses selon la fonction de lien choisie.

Le prédicteur linéaire et la fonction de lien sont ainsi liés par cette équation :

$$ g(µ_y) =\sum_{j=1}^{p} \beta_j\;X_{ij} $$

Qui peut également s’écrire :

$$ g(µ_y) = \eta $$

Par exemple, pour les données de comptage, on n’a plus :

$$µ_y =\sum_{j=1}^{p} \beta_j\;X_{ij} $$

mais :

$$log(µ_y) =\sum_{j=1}^{p} \beta_j\;X_{ij} $$

 

Pour obtenir la prédiction moyenne, il est nécessaire d’appliquer la fonction de lien inverse :

$$ µ_y = g^{-1} \; (\eta) $$

Toujours avec les données de comptage, cela correspond à la fonction exponentielle, d’où l’équation suivante :

$$ µ_y = e^{\sum_{j=1}^{p} \beta_j\;X_{ij}} $$

Le but de la fonction de lien est de contraindre les valeurs prédites à être dans l’échelle des valeurs observées. Ainsi, dans le cas des données de comptage, qui sont obligatoirement positives, ou nulles, la fonction de lien log contraint les valeurs prédites par le prédicteur linéaire à devenir également positives ou nulles après l’emploi de la fonction inverse du log, c’est à dire la fonction exponentielle.

Remarque : lorsque les réponses sont catégorielles binaires (oui / non) la fonction de lien est la fonction logit :

$$ log(\frac{p}{1-p}) = \sum_{j=1}^{p} \beta_j\;X_{ij}$$

p est la probabilité que “y=oui”.

Si la fonction de lien est encore un concept un peu obscure, ne vous inquiétez pas. Retenez simplement que dans les GLM, les données sont d’abord transformées et que cette transformation permet ensuite aux prédictions d’avoir des contraintes identiques aux réponses observées (par exemple, d’être toujours positives ou nulles), autrement dit de fournir des prédictions cohérentes !

2.2.3. La structure d’érreur

A une fonction de lien donnée, correspond généralement une structure d’erreur particulière.Il s’agit d’une famille de distribution des erreurs. Par exemple, pour les données de comptage, la fonction de lien est le log et la structure d’erreur correspondante est la distribution de Poisson.

Cette structure d’erreur, permet notamment de spécifier correctement la relation entre la moyenne et la variance. Cette relation est utilisée par l’approche de maximum de vraisemblance pour estimer les coefficients des paramètres (les beta) du GLM.

Ici un tableau récapitulatif des structures d’erreur, fonctions de lien, fonctions de moyennes et fonctions de variance des données de type numériques continues non bornée, de comptage et binaire.

GLM avec R

Remarque : un GLM avec une structure d’erreur gaussienne et une fonction de lien “identité”, correspond à un modèle linéaire classique.

2.2.4 Maximum de vraisemblance et déviance

Les coefficients des paramètres d’un GLM sont estimés par la méthode du maximum de vraisemblance, qui fait appelle à la notion de déviance. La déviance est en quelque sorte une généralisation de la variance.

Pour plus de détail, je vous recommande le chapitre ” Deviance : Measuring the goodness of fit of a GLM” (p516) du Rbook version2.

 

3 GLM avec R:

Pour utiliser un GLM avec R, il suffit d’employer la fonction glm() du package stats qui est chargé par défaut, à chaque ouverture de session R. Cette fonction s’utilise globalement comme la fonction lm(), excepté qu’elle dispose en plus de l’argument “family” qui permet de spécifier à la fois la fonction de lien et la structure d’erreur désirée.

Les options disponibles de l’argument family sont :

GLM avec R

 

Un exemple avec des données de comptage, et une analyse de type ANOVA à un facteur :

 

Comme vous pouvez le voir, la sortie logiciel et très proche de celle des modèles linéaires classiques.

 

Conclusion

Si la théorie des GLM vous échappe encore un peu, de mon point de vu, ce n’est pas très gênant. Ce qui est important de retenir c’est que lorsque les données observées sont de type “comptage” ou de type “binaire”, et bien il faut utiliser un GLM et pas un modèle linéaire classique. Vous pouvez aussi retenir que les GLM permettent d’évaluer les effets d’une ou plusieurs variables prédictives, de type numérique continue ou de type catégoriel, sur des réponses de type comptage, de type binaire ou encore des proportions.

Cet article avait seulement pour but d’introduire les GLM. J’aborderai les régressions de Poisson et logistique, en détail, dans de prochains articles “Tutoriel”.

Pour celles et ceux qui voudraient dores et déjà en savoir plus, je vous recommande les chapitres dédiés aux GLM du “R book” et du livre “R in action“. Je vous recommande aussi ce document en français, rédigé par Jonathan Lenoir, qui m’a aidé à écrire cet article :

En attendant, si cet article vous a plus, partagez le 😉

 

Crédits photos : Geralt

 

Continuez votre lecture

Partager l'article
  •  
  •  
  •  
  •  
  •  
    14
    Partages
  • 14
  •  
  •  
  •  
  •  

5 commentaires

  1. Guefassa youcef Répondre

    Très bonne révision pour le week-end. On aurra toujours besoin de vos idées analytiques. Merci claire

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *