Représentez un intervalle de confiance et de prédiction

intervalle

La semaine dernière, j’ai reçu un commentaire d’un lecteur qui me disait :

Bonjour, Bravo pour la qualité de l’information. Je souhaiterais faire exactement la même méthode que dans la partie 10 (représentation finale de la régression) [de l’article La régression linéaire simple avec le logiciel R] pour mettre sur un même graphique les points, le modèle, intervalle de confiance et intervalle de prédiction. Pour des raisons expérimentales il faut que ma régression passe par 0. Habituellement sur R, il faut utiliser le script ” Y ~ -1+X” pour obtenir la pente de l’équation Y=aX sans ordonnée à l’origine.
Je n’arrive pas avec le package ggplot2 à faire passer ma régression par 0. Lorsque je programme geom_smooth(method=”lm”, formula=y~-1+x), j’obtiens un intervalle de confiance qui me semble faux
Avez-vous une solution ?
Merci par avance

Je me suis dit que c’était une bonne occasion de refaire un point sur la représentation graphique de l’intervalle de confiance et de prédiction. Et aussi de parler de ces modèles de régression linéaire simple dont l’intercept (ordonnée à l’origine) est forcée à être égale à 0.

1. Rappels sur l’intervalle de confiance et de prédiction

L’intervalle de confiance à 95% d’une droite de régression est obtenu à partir d’un échantillon, il correspond à une plage de valeurs ayant une probabilité de 95% de contenir la droite de régression de la population.

Vous trouverez plus d’information sur les intervalles de confiance, dans l’article Fluctuations d’échantillonnage et biais.

L’intervalle de prédiction à 95% , quant à lui, est une plage de valeur qui a une a une probabilité de 95% de contenir une observation nouvelle.

Le modèle de régression linéaire simple est une droite qui passe au mieux des points. Il comporte deux paramètres :

  • une pente qui permet de quantifier l’évolution de la réponse quand la variable prédictive (celle en x) varie d’une unité
  • un intercept (ou ordonné à l’origine) qui permet de quantifier la valeur de la réponse quand la variable prédictive est égale à 0.

régression linéaire simple

2. Data

Nous allons utiliser les données du jeu de données iris (inclu dans le package dataset chargé par défaut dans R ), mais en les limitant aux 50 observations de l’espèce setosa :

 

 

3. Ajustement du modèle

Nous allons ajuster un modèle de régression linéaire en considérant que la variable réponse est la variable Sepal. Width, que la variable explicative est la variable Sepal.Length, et que l’intercept de ce modèle est égale à 0.

Comme expliqué dans le commentaire, pour forcer un modèle de régression à avoir un intercept égal à 0, autrement dit pour que la droite passe par le point (0;0), nous devons utiliser la syntaxe lm(Sepal.Width~Sepal.Length-1, data=setosa) :

 

 

 

4. Visualisation de l’intervalle de confiance avec geom_smooth()

Nous pouvons, dans un premier temps, représenter la droite de régression du modèle ajusté et son intervalle de confiance, à l’aide de la couche geom_smooth(), en spécifiant en argument :

  •  method="lm"
  • l’équation du modèle avec formula=y~x-1

 

plot droite de régression

 

5. Visualisation de l’intervalle de confiance en utilisant des prédictions

5.1  Création d’un vecteur de Sepal.Length

Nous créons un vecteur de 1000 valeurs de Sepal Length en prenant pour bornes les min et max observées, et nous le plaçons dans un data frame (nommé predicted):

 

5.2  Obtention des bornes de l’intervalle de confiance

 Dans un second temps, nous ajoutons la variable Sepal.Width qui correspond à la valeur de Sepal Length, prédite par le modèle de régression ajusté précédemment, pour la valeur de Sepal.Length correspondante dans le tableau.

Cette valeur est obtenue à l’aide de la fonction predict():

5.3  Obtention des bornes de l’intervalle de prédiction

Puis nous allons, toujours à l’aide de la fonction predict(), obtenir les bornes inf et sup de l’intervalle de confiance de chaque réponse de Sepal.Width prédite, en utilisant l’argument interval="confidence" :

 

 

Puis nous faisons de même avec l’intervalle de prédiction :

 

5.4  Réalisation du graphique

Enfin, nous pouvons réaliser le graphique :

 

intervalle de confiance

 

L’intervalle de confiance me semble identique à celui obtenu avec la fonction geom_smooth().

 

Nous pouvons également poursuivre la droite pour vérifier que son intercept est bien égale à 0.

 

droite de régression et prédiction

 

Cette approche pour représenter des modèles de régression et leur intervalle de confiance et de prédiction n’est pas spécifique au modèle de régression linéaire simple.

J’espère avoir un peu aidé le lecteur qui a posté ce commentaire….

 

 

Si cet article vous a plu, ou vous a été utile, et si vous le souhaitez, vous pouvez soutenir ce blog en faisant un don sur sa page Tipeee 🙏

👉 Cliquez ici pour soutenir le blog Statistiques et Logiciel R

 

Image par Gerd Altmann de Pixabay 

 

Poursuivez votre lecture : 

Partager l'article
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

4 commentaires

  1. bernard Répondre

    Bonjour Claire, travaillant sur des données hospitalières, je rejoins la cohorte des fans de votre blog avec une remarque sur cette page : au §3, la copie d’écran montrant le résultat de summary(mod1) ne correspond pas à mod1.
    Bonne continuation et merci encore pour ces notes précises à l’approche intuitive.

    • Claire Della Vedova Auteur de l’articleRépondre

      Bonjour Bernard,

      merci pour votre message et remarque, je viens de modifier !
      Bonne continuation.

  2. Christian Z Répondre

    thanks so much. I’m post graduate in biostatistic . That’s very usefull for me

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *