Analyses statistiques : quels sont les 3 grands types ?

analyses statistiques avec R

Lorsque j’étais étudiante en Master “Méthodologie et statistiques en recherche biomédicale”, les cours se déroulaient à la fac de médecine de Paris Sud. Avec quelques amis, nous avions sympathisé avec un groupe d’étudiants en  médecine. Un jour l’un d’eux est venu nous demander “ c’est quoi les statistiques inférentielles ?”. Il participait à une étude pilote en neurologie, dans laquelle il devait mesurer la fréquence d’ondes dans le cerveau, au sein de deux groupes de patients (un groupe contrôle et un groupe de sujets stimulés). Il sortait de réunion, dans laquelle on lui avait dit qu’il fallait faire des analyses statistiques inférentielles, et il n’avait aucune idée de ce que cela voulait dire.

En repensant à cette anecdote, je me suis dit qu’il n’était sans doute pas le seul à ne pas trop savoir ce que sont les statistiques inférentielles, et comment elles se situent par rapport aux autres types d’analyses statistiques. C’est dommage parce qu’en réalité c’est assez simple, il existe, grosso modo, trois grands types d’analyses statistiques :

    • les analyses descriptives,

    • les analyses inférentielles,

    • et les analyses prédictives.

 

Les analyses statistiques descriptives

C’est généralement celles qui sont faites en premier, et sans surprise, elles servent à décrire les données. Pour fixer les idées, imaginons que nous observons un échantillon de 500 olives prélevées sur la production d’une oliveraie d’Aglandau (Et oui, on est en Provence ici !), et qu’on s’intéresse à leur teneur en huile et à leur niveau de coloration.

Olives

Photo de Geneviève Romier

 

On a donc un échantillon de taille 500, et deux variables observées, la teneur en huile (exprimée en gramme) et le niveau de coloration (codé par exemple en “faible ou “élevée” selon que la coloration atteint moins de 50% du fruit ou plus de 50% du fruit).

La teneur en huile est une variable numérique (ou quantitative), alors que le niveau de coloration est une variable catégorielle (ou qualitative), ici à  deux modalités (faible et élevée).

Le jeu de données pourrait ressembler à ceci :

Tab_JeuDonnées

 

Faire des analyses statistiques descriptives consiste à calculer des paramètres qui vont résumer les valeurs observées. Ces paramètres appartiennent à deux grandes catégories :

  • les paramètres de position qui témoignent d’un niveau
  • les paramètres de dispersion qui renseignent sur la répartition des données autour de la moyenne (Est ce que les teneurs en huiles des olives sont plutôt similaires,  regroupées autour de la moyenne, ou bien plutôt dispersées entre des valeurs hautes et des valeurs basses ?).

 

Lorsque la variable d’intérêt est numérique

Lorsque la variable étudiée est de type numérique, les paramètres de position les plus utilisés sont :

  • la moyenne
  • la médiane
  • les min et max
  • les 1er et 3ème quartiles (le 1er quartile est la donnée de la série qui sépare les 25 % inférieurs des données le 3e quartile est la donnée de la série qui sépare les 25 % supérieurs des données)

La moyenne est souvent accompagnée d’un intervalle de confiance à 95%. Il s’agit d’une plage de valeurs au sein de laquelle 95% des moyennes observées seraient incluses si d’autres échantillons étaient constitués. L’intervalle de confiance reflète la variation (ou erreur) d’échantillonnage.

Les paramètres le plus fréquemment employés pour caractériser la dispersion de données numériques sont :

  • l’écart type
  • la variance (carré de l’écart type),
  • l’intervalle interquartile (intervalle entre le 1er et 3ème quartile).

Le nombre de données manquantes est aussi une information importante.

Lorsque la variable d’intérêt est catégorielle

Lorsque la variable étudiée est catégorielle, un seul paramètre de position est généralement utilisé : la fréquence (ou pourcentage) de chacune des modalités. Ici le pourcentage d’olives avec un niveau de coloration faible et le pourcentage d’olives avec un niveau de coloration élevée. Là encore ces pourcentages sont souvent accompagnés d’un intervalle de confiance à 95%.

Un seul paramètre de variation est également employé, l’écart type ou la variance.

Présentation des statistiques descriptives

Les statistiques descriptives sont généralement présentées sous la forme d’un tableau. Lorsqu’on a une hypothèse de travail qui concerne deux populations, il est préférable de présenter les statistiques descriptives pour chacune d’entre elles. On pourrait par exemple imaginer que l’on dispose d’un deuxième échantillon, lui aussi de taille 500, mais cette fois composée d’olives de l’espèce Picholine.

 

Olives_Aglandau_Picholine

Photos de Ken Drahw et INRA DIST

 

L’hypothèse de travail pourrait être ici que la moyenne des teneurs en huile des fruits de l’espèce Aglandau est supérieure à celle de l’espèce Picholine. Disposer des statistiques descriptives pour ces deux espèces permet de faire une première comparaison rapide des deux échantillons;  c’est le premier pas vers les statistiques inférentielles.

Tab_Descriptif

 

Il n’est pas rare que les paramètres calculés à l’étape des analyses descriptives soient aussi utilisé graphiquement, comme ci-dessous. Le rond noir correspond à la moyenne des teneurs en huile, et les barres horizontales correspondent aux bornes inférieures et supérieures de l’intervalle de confiance à 95% de la moyenne.

points_et_IC

Les analyses statistiques inférentielles

Les statistiques inférentielles sont souvent définies comme un ensemble de méthodes permettant de généraliser, à l’échelle de la population, des conclusions tirées à partir des données d’un échantillon. On a affaire ici à l’un des grands concepts des statistiques : puisqu’on ne peut pas observer l’ensemble de la population qui nous intéresse (les olives de toute l’oliveraie), alors on constitue un échantillon avec une petite partie. Mais on ne va pas constituer l’échantillon n’importe comment. On va faire en sorte qu’il soit représentatif de la population car ce n’est que sous cette hypothèse que l’on va pouvoir généraliser les conclusions.

Dans notre exemple cela pourrait signifier de bien faire attention à prélever des fruits de tous les oliviers, ou du moins de bien répartir les prélèvements au sein de chacune des oliveraies.

Qu’est ce qui se passe si l’échantillon n’est pas représentatif de la population ?

Imaginons, pour le raisonnement, que les olives Aglandau ont une teneur en huile plus élevée que celle des olives Picholines. Imaginons encore que, dans la cadre de notre étude, nous nous sommes contentés de prélever 500 olives d’un même arbre pour constituer notre échantillon d’Aglandau, et que par malchance l’arbre choisi a souffert de la sécheresse l’été dernier,  et qu’il a produit des fruits particulièrement petits et particulièrement faibles en huile. La moyenne observée de la teneur en huile des olives sera donc biaisée. Cela aura une conséquence sur le test statistique, qui pourrait alors ne pas mettre en évidence de différence significative entre les deux moyennes des teneurs en huiles, et au final sur la généralisation de ce résultat : “les olives Aglandau ne contiennent pas plus d’huile que les olives Picholine”.

Pour revenir à la définition des statistiques inférentielles, on peut dire, de manière un peu moins formelle, qu’elles correspondent à la réalisation de tests statistiques, ou à la comparaison d’intervalles de confiance, avec pour but ultime de tirer une conclusion (qui s’appliquera à l’échelle des populations).

Ainsi, les tests d’hypothèses employés pour comparer des moyennes, des médianes, ou encore des pourcentages, sont des statistiques inférentielles. De même que les ANOVA (permettent de comparer plus de deux moyennes), les régressions, etc…

Pour revenir à l’étudiant en médecine, on lui demandait simplement de comparer, par un test statistique, les moyennes des fréquences observées au sein de ces deux groupes afin de conclure ou non à l’augmentation de la fréquence dans le groupe des sujets stimulés.

Les analyses statistiques prédictives

La non plus pas de surprises, les analyses prédictives servent à…. prédire ! Néanmoins, on rentre ici dans une autre dimension des statistiques, plus complexe, mais passionnante.

Il s’agit, par exemple, de prédire la consommation en électricité d’une famille en fonction du jour de la semaine, de la température, du vent, de la pression atmosphérique, et de la quantité de pluie des 5 jours précédents.

Les analyses statistiques prédictives peuvent être employées pour prédire des données de type numérique (comme la consommation en électricité) ou des données de type catégoriel (comme le fait qu’un mail soit considéré comme un “spam“ ou un courrier “normal”). Selon le type de données à prédire, les algorithmes utilisés sont différents et font appel à des méthodes de régression ou de classification.

Pour réaliser des analyses prédictives il est nécessaire de disposer, au préalable, d’un jeu de données contenant :

  • les variables prédictives (par exemple le jour de la semaine,  la température, le vent,  la pression atmosphérique, et la quantité de pluie  des 5 jours précédents)
  • la variable que l’on cherche à prédire. On l’appelle la réponse ; il s’agit ici de la consommation en électricité.

Le principe est de découper ce jeu de données en deux parties :

  • une partie dite “training” constituée d’environ 70% des données
  • une partie dite “testing” constitué de 30% restante.

Ce ratio est approximatif et peut varier selon les études.

Le jeu de données “training”

Il est utilisé pour :

  • identifier les variables nécessaires à la prédiction,
  • construire les modèles de prédiction
  • entraîner ces modèles

L’entraînement du modèle est un processus itératif qui vise à estimer les paramètres du modèle (par exemple la pente et l’ordonnée à l’origine dans le cas d’un modèle linéaire simple), de telle sorte qu’ils conduisent à la plus petite erreur de prédiction globale possible. Autrement dit, à la plus petite différence entre les réponses observées et les prédictions. Ici l’erreur de prédiction n’est qu’un critère que l’on cherche à minimiser.

Le jeu de données “testing”

Un fois les modèles entrainés, une vraie mesure de l’erreur de prédiction est réalisée pour chacun d’eux. Cette mesure est “vraie” car elle est faite sur des données qui n’ont pas été utilisées dans la phase d’entrainement. Elle va servir à évaluer les modèles et à les classer du plus performant (plus faible erreur de prédiction) au moins performant (plus grande erreur).

Les prédictions

Le modèle le plus performant est alors utilisé en conditions réelles pour prédire des réponses.

Les processus utilisés dans les analyses statistiques prédictives relèvent du machine learning.

Des compétitions d’analyses prédictives

Il existe des compétitions de data science dédiées à la prédiction. Les plus connues sont celle du site Kaggle (https://www.kaggle.com/competitions). Des entreprises, et même des instituts de recherche, offrent des récompenses (souvent monétaires) à l’équipe qui obtient la plus faible erreur de prédiction, en échange du modèle développé.

Kaggle_Titanic

 

Les compétiteurs ont à leur disposition 2 jeux de données :

  • un “training” avec lequel ils doivent développer des modèles de prédiction (ils doivent donc le découper en deux parties : le premier pour développer leurs modèles, le second pour les évaluer et au final sélectionner celui qui donne les meilleurs prédictions.
  • un “testing”, qui ici ne contient pas les réponses, et sur lequel les compétiteurs vont appliquer leur modèle et soumettre leurs prédictions.

L’organisateur de la compétition détient en revanche les réponses du jeu de données “testing”. Il va alors comparer les prédictions soumises aux réponses réelles, autrement dit calculer l’erreur de prédiction des modèles proposés. Les compétiteurs sont ainsi classés en fonction de leurs erreurs de prédiction globale.

 

Et les analyses statistiques exploratoires ?

Ces analyses consistent surtout à utiliser des approches graphiques pour fouiller  les données et commencer à identifier les relations qui existent entre les différentes variables du jeu de données. Elles relèvent donc davantage de la data visualisation.

Voilà ! Si vous pensez que j’ai oublié quelque chose, si vous avez des remarques, des questions, n’hésitez pas à laisser un commentaire ci dessous ! Smile

Et n’oubliez pas de partager l’article ! Smile

 

Crédit photo : Bernard Fourmond.

Partager l'article
  •  
  •  
  •  
  •  
  •  
    14
    Partages
  • 14
  •  
  •  
  •  
  •  

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *