Régression linéaire simple : le R², info ou intox ?

R2 coefficient de détermination

Le coefficient de détermination (ou R carré ou encore R²) est un paramètre qui est calculé, et fourni en sortie, par tous les logiciels de statistiques, lorsqu’une régression linéaire est réalisée.

Pourtant, comprendre ce paramètre n’est pas évident. D’autant plus que certains l’utilisent à tour de bras pour juger de la qualité du modèle de régression, alors que d’autres, ne lui accordent pratiquement aucune importance.

Durant mes études de biostatistiques (1 master, et 2 DU), je n’ai pas souvenir qu’on m’ait beaucoup parlé de ce paramètre. Par contre, quand j’ai commencé à travailler, mes collègues venaient régulièrement me voir en me disant, “on a un R2 de 0.7, c’est bien, non ?”. Je ne savais jamais trop quoi répondre, et j’avais surtout l’impression d’avoir loupé un chapitre !

Si vous aussi, vous ne savez pas trop quoi penser de ce paramètre, je partage dans cet article, quelques éléments de réflexion que j’ai amassé au fil de mes lectures, et de mes discussions avec certains collègues.

 

Table des matières : 

  1. Définition du R²
  2. Le R² ne permet pas de juger de la qualité d’ajustement d’un modèle
  3. La valeur du R² est dépendante de l’étendue de la variable prédictive
  4. Il n’y a pas de lien entre le R² et la p-value
  5. Le R² ne permet pas de juger de la qualité prédictive du modèle
  6. Conclusion

 

1. Définition du R²

Le coefficient de détermination () se définit par : ” la part de variance (de la réponse), expliquée par le modèle de régression (linéaire simple, ici)”.

Je n’en ai pas parlé dans mes précédents articles dédiés à la régression linéaire simple (ici et ),
mais comme l’ANOVA, la régression linéaire simple peut s’envisager sous l’angle d’une décomposition de la variance.

La variabilité totale des données est alors répartie en deux composantes :

  • une part expliquée par le modèle de régression,
  • une part non expliquée, qui correspond à du bruit.

La dispersion totale des données se mesure par la somme des distances au carré, entre chaque observation et la moyenne des réponses (ou Grand Mean). On appelle ce paramètre la Somme des Carrés Totaux (SCT). En, anglais on l’appelle Total Sum of Squares, son abréviation est SST.

$$\text{Grand Mean} = \overline{y} = \frac{1}{N} \sum_{i=1}^{N}(y_{i}) $$
Avec N : le nombre total de données.

$$\text{SCT} = \sum_{i=1}^{N}(y_{i } – \overline{y})^2 $$

 

La part de dispersion expliquée par le modèle se mesure par la somme des distances au carré entre chaque valeur prédite par le modèle (y\_chapeau) et la moyenne des réponses. On appelle ce paramètre la somme des carrés de la régression (SCReg). En anglais, on l’appelle sum of Squares due to Regression (SSReg).

$$\text{SCReg} = \sum_{i=1}^{N}(\hat{y_i} – \overline{y})^2 $$

 

La part de dispersion, qui n’est pas expliquée par le modèle, est la part résiduelle. Elle est mesurée par la somme des distances au carré entre chaque observation et la droite de régression (autrement dit, la valeur prédite). On appelle ce paramètre la somme des carrés résiduels (SCRes). En anglais, on l’appelle Error Sum of Squares, son abréviation est SSE ou SSRes.

$$\text{SCRes} = \sum_{i=1}^{N}({y_i} – \hat{y_i})^2 $$

On peut alors écrire :

$$ SCT=SCReg + SCRes $$

 

Le calcul de ces différentes quantités peut se visualiser comme ceci :

R2 coefficient de détermination

 

 

Au final, le coefficient de détermination R² est défini par la relation suivante :

$$ R^2 = \frac{SCReg}{SCT}$$

Remarque : On peut aussi écrire :
$$R^2=\frac{SCT-SCR}{SCT} = 1-\frac{SCR}{SCT} $$

 

Le R² étant le résultat d’une fraction, il est toujours compris entre 0 et 1 :

$$ R^2 \in [0 \; ; 1]$$

 

Par ailleurs, dans le cas de la régression linéaire simple, le R² est égal au coefficient de corrélation de Pearson  au carré, entre la variable réponse (Y), et la variable prédictive (X).

$$ R^2 = r^2(X,Y)$$

Pour une démonstration de cette égalité, vous pouvez consulter cet article.

Le coefficient de corrélation de Pearson mesure la force de la relation linéaire entre la variable réponse et la variable prédictive. En pratique, plus les points sont resserrés autour de la droite de régression, plus le coefficient de corrélation de Pearson est élevé (en valeur absolue). Et à l’inverse, plus les points sont dispersés autour de la droite de régression, moins le coefficient est élevé.

Compte tenu de la relation précédente, on observe le même comportement avec le coefficient de détermination.

 

2. Le R² ne permet pas de juger de la qualité d’ajustement d’un modèle

Si la valeur du coefficient de détermination était une mesure de l’adéquation du modèle aux données, on s’attendrait à observer de fortes valeurs de R² lorsque le modèle de régression est bien adapté aux données, et, au contraire, des valeurs plus faibles lorsque le modèle l’est moins, par exemple lorsque les données présentent une courbure.

L’utilisation du quartet d’Anscombe, qui est composé de 4 jeux de données très différents, mais partageant des propriété statistiques similaires,  nous permet d’explorer ce problème.

 

R2 coefficient de détermination

Ici, les quatres modèles linéaires ont le même R², alors que les deux modèles de droite ne sont clairement pas adaptés aux données.

Pour ceux qui ont un doute :

 

3. La valeur du R² est dépendante de l’étendue de la variable prédictive

Si je reprends les données du paragraphe de définition de R², et que je limite les valeurs de la variable prédictive à l’intervalle [90 ; 95] , le R² passe de 0.97 à 0.8, alors la dispersion autour de la droite reste globalement la même.

R2 coefficient de détermination

 

Vous trouverez une autre démonstration, plus complète, de cette dépendance du R² en fonction de l’étendue de la variable prédictive ici, et une formulation du problème dans le chapitre 2.1.1 du document “The Truth About Linear Regression” de Cosma Shalizi.

 

4. Il n’y a pas de lien entre le R² et la p-value

Il n’y a pas de lien entre le coefficient de détermination et la p-value (du test de la pente) car ces deux paramètres mesurent des choses différentes. Comme nous l’avons vu, le R² indique la part de variabilité expliquée par le modèle. De son côté, la p-value nous permet de conclure sur la significativité de la relation linéaire entre la variable réponse et la variable prédictive.

La part de variabilité expliquée par un modèle peut dépendre du contexte, elle peut être de l’ordre de 80% dans certains domaines, et uniquement de 10% dans d’autres, comme en biologie par exemple. La part de variabilité expliquée par le modèle, ne préjuge pas de la significativité de la relation entre la réponse et la variable prédictive. Dis autrement, même si un modèle n’explique que peu de variabilité, la p-value du test de la pente demeure valide, à condition que les hypothèses du test soient validées, bien entendu.

 

5. Le R² ne permet pas de juger de la qualité prédictive du modèle

Si le modèle n’est pas biaisé (autrement dit, qu’il est bien adapté aux données), plus la valeur de R² est proche de 1, plus les observations sont regroupées autour de la droite de régression, et par conséquent plus les erreurs de prédictions sont faibles. On pourrait donc se dire que le coefficient de détermination permet donc de juger de la qualité prédictive d’un modèle.

Le problème, comme nous venons de le voir, est que la valeur du R² dépend de l’étendue de la variable prédictive….De ce fait, pour une même dispersion des points autour de la droite de régression, les valeurs du R² peuvent être relativement différentes. C’est aussi cette dépendance à l’étendue de la variable prédictive qui rend le coefficient de détermination inutilisable pour comparer les capacités prédictives de deux modèles, ayant chacun une variable explicative (et donc une étendue), différente.

 

6. Conclusion

Bien que le coefficient de détermination soit présent dans les sorties de tous les logiciels de statistiques lorsqu’une régression linéaire est réalisée, ce paramètre n’a, à mon sens, pas beaucoup (voir pas du tout) d’intérêt. Comme nous venons de le voir, il ne permet pas de juger de la qualité d’un modèle, ni en termes d’ajustement, ni en terme de prédiction, et il ne permet pas non plus d’évaluer la significativité de la relation entre la variable réponse et la variable prédictive. Cette conclusion s’étend également à la régression linéaire multiple.

J’espère qu’à présent vous saurez quoi penser de ce paramètre, et que je vous ai convaincu de son inintérêt. Si ce n’est pas le cas, vous pouvez aussi consulter ces trois références:

Credit photo : mohamed_hassan.

 

Retrouvez ici 4 de mes articles les plus consultés :

 

 

Partager l'article
  •  
  •  
  •  
  •  
  •  
    6
    Partages
  • 6
  •  
  •  
  •  
  •  

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *