Comment évaluer la relation entre deux variables numériques continues

J’ai récemment retravaillé sur cette question de l’évaluation de la liaison entre deux variables numériques avec un doctorant, et j’ai trouvé que cela serait intéressant de faire un point sur les méthodes qui permettent d’explorer cette problématique.

La question qui est généralement formulée au départ est quelque chose comme : “est ce que lorsque l’une de mes variables augmente, la seconde augmente aussi”? Ou, au contraire, “est ce que lorsqu’une de mes variables augmente, la seconde diminue ?

Pour fixer les idées, on pourrait, par exemple, vouloir étudier s’il existe une relation entre la taille des enfants à la naissance, et la
taille de leur père, en se demandant si globalement la taille des enfants est plus grande lorsque la taille des pères augmente.

Pour répondre à cette question, et plus généralement à la problématique de l’évaluation d’une liaison entre deux variables numériques continues, on peut grosso modo employer deux méthodes: la régression linéaire simple ou la corrélation de Spearman. Ces deux méthodes ont des spécificités légèrement différentes : la régression linéaire évalue un lien linéaire (figure de gauche), alors que la corrélation de Spearman évalue seulement un lien monotone (figure de droite).

La régression linéaire est donc plus spécifique que la corrélation.

La régression linéaire simple
La régression linéaire simple est une procédure asymétrique, au moins conceptuellement, dans laquelle:

  • une des variables est considérée comme la réponse ou comme la variable à expliquer. On l’appelle aussi variable dépendante, et on la représente sur l’axe des ordonnées y.
  • l’autre variable est la variable explicative ou prédictive ou encore ‘explanatory variable’ en anglais. On l’appelle aussi variable indépendante, et on la représente sur l’axe des abscisses x.

Comme dit précédemment, la régression linéaire simple permet d’évaluer l’existence d’un lien linéaire entre deux variables. Ainsi, on ne se contente pas d’évaluer si lorsque la première variable augmente la seconde augmente aussi, mais si cette seconde variable augmente linéairement en fonction de la première.

Principe de la régression linéaire simple

Le principe de la régression linéaire simple est de trouver la droite (c’est à dire déterminer son équation) qui passe au plus près de l’ensemble des points formés par les couples (xi ; yi), en faisant pivoter la droite sur un point charnière de coordonnées (moyenne de x ; moyenne de y).

Ces deux méthodes ont des spécificités légèrement différentes : la régression linéaire évalue un lien linéaire (figure de gauche), alors que la corrélation de Spearman évalue seulement un lien monotone (figure de droite).

Pour trouver cette droite qui passe au plus près de l’ensemble des points, on mesure la distance au carré entre chaque point et chaque droite potentielle. La droite qui passe au plus près de l’ensemble des points est celle qui minimise la somme de ces distances au carré. C’est ce qu’on appelle la méthode des moindres carrées (ou MCO pour moindres carrés ordinaires ou encore OLS pour Ordinary Least Squares). Ces distances entre chaque point observé et la droite déterminée par les moindres carrés sont appelées les résidus du modèle de régression. Dans la figure ci-dessous, seuls 3 résidus sont représentés.

Le modèle de régression ou la droite peut s’écrire sous la forme de l’équation :

Lorsqu’on détermine la droite qui passe au plus près de tous les points (on dit qu’on ajuste une droite aux données observées), on estime aussi les paramètres a et b. Ces estimations peuvent également être obtenues à partir de formules dérivées de la méthode du maximum de vraisemblance:

L’ordonnée à l’origine est la valeur, selon la droite déterminée, de la variable y lorsque la variable x prend pour valeur 0. Son estimation n’a aucun intérêt pour évaluer s’il existe une relation linéaire entre deux variables. L’ordonnée à l’origine est déterminé par la méthode, mais on ne s’en sert pas, en tout cas pas directement pour évaluer le lien entre deux variables.

La pente, quant à elle, correspond à la variation de y, lorsque x varie d’une unité. Si, par exemple, la variable en y est exprimée en kg et que la variable en x est exprimée en cm, alors la pente correspond à la variation en kg de la variable y lorsque la variable x varie d’un cm. Le signe de la pente (<0 ou >0) nous renseigne sur la direction de la droite, décroissante lorsque b est <0, et croissante lorsque b est >0. La valeur de la pente renseigne sur la vitesse d’évolution de la variable y en fonction de la variable x, mais ne présume pas de la significativité de la relation. Il est tout à fait possible de voir une pente de valeur 10 non significative, et une pente de valeur 2 significative.

Evaluation de la significativité de la relation linéaire

La valeur de la pente ne permet pas, à elle seule, d’évaluer la significativité de la relation linéaire. La significativité dépend aussi de l’incertitude de la pente, qui est mesurée par son erreur standard (généralement notée se(b)). L’erreur standard de la pente mesure la dispersion moyenne des observations (les couples (xi, yi)) autour de la droite de régression. Plus les points sont écartés de la droite déterminée par les moindres carrées, plus l’incertitude de la pente est grande. L’erreur standard de la pente peut être calculée en employant la formule suivante:

Pour évaluer la significativité de la relation linéaire, on rapporte la valeur absolue de la pente à son erreur standard. Ce rapport est la statistique T du test :

De manière un peu grossière on peut dire que si ce ratio est supérieur à 2, alors la pente est significativement différente de 0, et donc que la liaison entre les deux variables est significative. De façon plus précise, la statistique T, suit une loi de Student à n-2 degrès de liberté. La pente est considérée significativement différente de 0, si sa valeur absolue est supérieure à une valeur seuil qui correspond au quantile 1-alpha/2 (c’est-à-dire 0.975 dans la très grande majorité des cas) à n-2 degrés de libertés. n est le nombre de points sur lesquels on a ajusté la droite. La valeur de ce quantile est proche de 2 lorsque n=30, elle est égale à 2.25 lorsque n=10.

Lorsque la régression met en évidence un lien linéaire significatif entre les variables x et y, ce résultat est parfois interprété, à tort, en termes d’influence ou de causalité de la variable x sur la variable y. Une méthode statistique ne peut, à elle seule, établir un lien de causalité entre deux variable. La causalité entre deux variables est un lien complexe à mettre en évidence, qui demande, entre autres, un plan expérimental spécifique, la répétabilité des résultats dans le temps, ainsi que sur divers échantillons.

Conditions d’application

La régression linéaire ne peut pas être employée dans toutes les situations. Pour être utilisée cette méthode nécessite que les données satisfassent trois critères:

  • la relation entre les deux variables doit être globalement linéaire, au moins grossièrement. C’est pour cette raison, qu’il faut toujours représenter graphiquement les données avec un scatter plot avant de choisir la méthode d’analyse
  • les réponses doivent être indépendantes. C’est le plan d’échantillonnage qui renseigne sur cette condition. Si les données proviennent d’individus ou d’unités expérimentales différentes, elles sont généralement indépendantes. En revanche, si la variable indépendante est temporelle, les données ne sont sans doute pas indépendantes. Par exemple, si les réponses correspondent à des taux de glycémie mesurés quotidiennement sur un même patient, alors les réponses ne sont pas indépendantes.
  • les résidus doivent suivre une loi normale et être homogènes.

La première condition (la linéarité) vient du fait que cela n’a pas de sens d’évaluer un lien linéaire si la relation qui lie les deux variables à la forme d’un U ou d’un U inversé, par exemple. Il n’y a pas d’impossibilités calculatoires qui empêcheraient le logiciel R (ou un autre) de fournir des résultats ; il faut donc être vigilant.

Si les réponses ne sont pas indépendantes, ou si les erreurs ne sont pas homogènes, alors l’estimation de l’erreur résiduelle (s) et donc ensuite celle de l’erreur standard de la pente sera biaisée. Par conséquence la statistique T aussi, et donc en bout de chaîne la conclusion du test de significativité de la pente pourra être erronée.

Si les résidus ne sont pas distribués selon une loi Normale, alors la distribution de la statistique T s’éloignera de la distribution de Student. Cela peut notamment entraîner une augmentation du risque alpha. Le risque alpha correspond à la probabilité de se tromper en concluant que la pente est significativement différente de 0, si en réalité elle ne l’est pas. C’est un des principes des tests statistiques : même si en réalité la pente n’est pas significative, l’estimation de la statistique T peut, dans 5% des cas, prendre des valeurs encore plus extrêmes que le seuil de décision fixé, lui, à 5%. Lorsque la statistique T à un défaut de normalité, la valeur seuil, fixée selon une loi de Student, ne correspond pas à la vraie distribution de la statistique T. Ainsi la probabilité que la statistique T dépasse cette valeur seuil, fixée théoriquement, est peut-être d’avantage de l’ordre de 10%, 20% ou même plus. Autrement dit, on croit prendre un risque de 5% de se tromper, ce qui est communément considéré comme acceptable, alors qu’en réalité on est au-delà.

Pour améliorer la relation linéaire, et ou la normalité, il est possible de loguer (en base 10 ou en népérien) la variable réponse, et ou la variable explicative.

La corrélation de Spearman

La corrélation de Spearman est une méthode symétrique dans laquelle les deux variables ont le même rôle. Cette méthode est moins spécifique que la régression linéaire simple, puisqu’elle n’évalue pas la linéarité mais seulement la monotonie. C’est aussi ce qui fait qu’elle peut être utilisée dans un plus grand nombre de situations.

Principe de la corrélation de Spearman

La corrélation de Spearman permet d’évaluer la force d’une liaison monotone, on parle également de dépendance monotone, entre deux variables. Cette force de liaison est mesurée par le coefficient de corrélation de Spearman, qui est compris entre \[-1 ; 1\]. Lorsque le coefficient de corrélation est positif, cela signifie que les deux variables varient dans le mêmes sens. Au contraire, lorsque le coefficient est négatif cela signifie que les variables varient en sens opposé. Plus la valeur absolue du coefficient est proche de 1, plus la relation monotone entre les deux variables est forte, c’est à dire plus la relation monotone entre les deux variables est parfaite.

Contrairement à la régression linéaire, la corrélation de Spearman est une méthode non paramétrique, qui est basée sur les rangs des observations. Le coefficient de corrélation de Spearman (ρ) est calculé selon la formule suivante :

Avec :

 Evaluation de la significativité du coefficient de correlation de Spearman

Le coefficient de corrélation renseigne sur la force de la relation mais pas sur la significativité. Le coefficient de corrélation ne permet pas, à lui seul, d’évaluer la significativité de la dépendance monotone entre deux variables. Par exemple, on ne peut pas considérer qu’un coefficient de 0.85 est toujours suffisant, ou bien systématiquement nécessaire pour que la liaison entre deux variables soit considérée comme significative. Pour que la relation monotone soit considérée comme significative, la valeur absolue du coefficient de corrélation de Spearman doit dépasser une valeur seuil qui dépend entre autres du nombre de données. Mais globalement, on peut dire que plus le coefficient de corrélation de Spearman est proche de 1, plus la probabilité qu’il soit significativement différent de 0, et donc que la relation entre les deux variables soit significative, est grande.

Les valeurs seuil sont déterminées par permutation ; on parle alors de tests exacts. Il s’agit de laisser la variable X dans l’ordre du tableau de données de départ, et de permuter, un grand nombre de fois, les réponses au hasard. Pour chaque permutation, on calcule le coefficient de corrélation de Spearman. Cette procédure permet ainsi d’établir la distribution du coefficient de corrélation sous l’hypothèse H0 d’une absence de corrélation (puisque les observations de la variable X sont associées au hasard aux observations de la variable Y). La valeur seuil est la valeur au-delà de laquelle seuls 5% des coefficients de corrélation issus des permutations ont des valeurs absolues au moins aussi extrêmes.

Quand le nombre de données est importants (certains disent 30 d’autres 200), la significativité du coefficient de corrélation de Spearman peut être évaluée par approximation normale, ou selon une distribution de Student avec les statistiques suivantes :

Mais pas de panique, R gère tout ça tout seul, ou presque.

Conditions d’applications

Pour utiliser la corrélation de Spearman, les réponses doivent être indépendantes et la relation entre les deux variables doit être au moins grossièrement monotone. Cette seconde hypothèse se vérifie graphiquement à l’aide d’un scatter plot. Cela n’a pas de sens d’évaluer la monotonie d’une relation si celle-ci est clairement non monotone (en forme de U, ou de U inversé, par exemple). Il n’est pas non plus nécessaire d’utiliser une transformation logarithmique d’une ou des deux variables car celle-ci n’a pas d’influence sur les rangs.

Et la corrélation de Pearson ?

La corrélation de Pearson est strictement équivalente à la régression linéaire puisqu’il existe une correspondance entre la pente et le coefficient de corrélation.

Pour preuve, les p-values obtenues par les deux méthodes sont strictement identiques.

La corrélation de Pearson n’est donc pas une troisième solution à la mise en évidence d’une relation entre deux variables numériques.

Et la corrélation de Kendall ?

La corrélation de Kendall est une autre approche non paramétrique permettant d’évaluer la dépendance monotone de deux variables. Cette approche n’est pas basée sur les rangs des observations mais sur les paires concordantes et discordantes. Les corrélations de Spearman et de Kendall donnent des résultats très similaires dans une très grande majorité de situation. La corrélation de Kendall peut donc être utilisée à la place de la corrélation de Spearman.

 

Et pourquoi pas une méthode basée sur la covariance ?

A priori, cela semble avoir du sens d’utiliser la covariance de deux variables numériques pour évaluer si lorsque l’une varie, l’autre varie aussi. En réalité le coefficient de corrélation est une mesure standardisée de la covariance (c’est ce qui fait que le coefficient de corrélation est compris dans l’intervalle \[-1 ; 1\]). Et historiquement, sans doute pour des raisons de propriétés mathématiques, c’est la corrélation qui est utilisée.

Conclusion

La régression linéaire simple et la corrélation de Spearman ont toutes deux leurs avantages et leur inconvénients. La régression est sensée être plus puissante que la corrélation (cela est peut-être vrai en cas de distribution parfaitement normale des données, mais comme cela est rarement le cas en pratique, cet argument n’est peut-être pas très convaincant). En revanche, la régression linéaire simple permet de quantifier l’évolution de la réponse en fonction de la variable prédictive. Elle permet également de prédire une réponse pour un niveau donné de la variable prédictive. Enfin, la régression peut se représenter graphiquement sous la forme d’une droite. Néanmoins, pour l’utiliser, en tout cas pour avoir confiance dans ses résultats, les données doivent satisfaire 3 hypothèses.

De son côté, en étant moins spécifique que la régression, la corrélation de Spearman est adaptée à un plus grand nombre de situations. Elle requière également moins d’hypothèses. Cependant, un de ces inconvénients réside dans le fait de ne pas pouvoir la représenter graphiquement, car la monotonie couvre de nombreux modèles.

J’espère qu’avec cet article, vous saurez, à présent, comment évaluer si deux variables numériques sont liées, en fonction de vos besoins et des caractéristiques de vos données. Dans un prochain post, je vous montrerai, en pratique comment utiliser ces deux méthodes avec le
logiciel R.

Et si l’article vous a plu, partagez le !

Crédit photo : Christian Mayrhofer.

Partager l'article
  •  
  •  
  •  
  •  
  •  
    6
    Partages
  • 6
  •  
  •  
  •  
  •  

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *