Analyses statistiques descriptives de données numériques – partie 2

Dans ce nouveau post, je vais vous montrer comment réaliser simplement des analyses statistiques descriptives de vos données numériques avec le logiciel R. Comme expliqué dans la première partie de cette série sur les analyses statistiques descriptives, il s’agit d’estimer un certain nombre de paramètres de position et de dispersion.

Pour réaliser facilement des analyses statistiques descriptives, il est important que vos données soient structurées selon un format dit tidy. Selon ce format :

1. les variables sont en colonne, et chaque variable mesurée doit correspondre à une seule colonne.
2. les observations sont en lignes, et si plusieurs observations ontété faites pour une variable donnée, ces observations doivent êtresur des lignes différentes.
3. A l’intersection des lignes et des colonnes se trouvent les valeursmesurées.

Pour illustrer cet article, je vais utiliser le jeu de données iris qui se trouve dans le package dataset qui est chargé par défaut par le logiciel R à chaque ouverture de session. Il n’est donc pas nécessaire d’importer le jeu de données dans R. Néanmoins les étapes pour importer un jeu de données dans le logiciel R sont décrites ici: https://statistique-et-logiciel-r.com/commet-importer-facilement-des-donnes-dans-le-logiciel-r/

1. Le jeu de données iris

Pour visualiser les 10 premières lignes du jeu de données iris, utilisez head(iris,10). De la même façon vous pouvez afficher les 5 (par exemple) dernières lignes en utilisant tail(iris,5).

head(iris, 10)

Sepal.Length Sepal.Width Petal.Length Petal.Width Species
 1 5.1 3.5 1.4 0.2 setosa
 2 4.9 3.0 1.4 0.2 setosa
 3 4.7 3.2 1.3 0.2 setosa
 4 4.6 3.1 1.5 0.2 setosa
 5 5.0 3.6 1.4 0.2 setosa
 6 5.4 3.9 1.7 0.4 setosa
 7 4.6 3.4 1.4 0.3 setosa
 8 5.0 3.4 1.5 0.2 setosa
 9 4.4 2.9 1.4 0.2 setosa
 10 4.9 3.1 1.5 0.1 setosa

tail(iris,5)

Sepal.Length Sepal.Width Petal.Length Petal.Width Species
 146 6.7 3.0 5.2 2.3 virginica
 147 6.3 2.5 5.0 1.9 virginica
 148 6.5 3.0 5.2 2.0 virginica
 149 6.2 3.4 5.4 2.3 virginica
 150 5.9 3.0 5.1 1.8 virginica

Le jeu de données iris est bien sous la forme dit tidy, puisque les variables sont en colonne, les observations en ligne, et les valeurs mesurées à l’intersection des lignes et des colonnes.

Le jeu de données iris est composé de 5 variables:

– Sepal.Length
– Sepal.Width
– Petal.Length
– Petal.Width
– Species

Les quatre premières sont des variables numériques continues, et la cinquième est une variable catégorielle à 3 modalités (setosa /versicolor / virginica).

La commande str(iris) permet de connaitre les types des variables (numérique / catégorielle (ou facteur)), alors que la commande levels(iris$Species) permet d’avoir accès aux différentes modalités de la variable catégorielle.

str(iris)

'data.frame': 150 obs. of 5 variables:
 $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

levels(iris$Species)

[1] "setosa" "versicolor" "virginica"

2.Utilisation des fonctions summary, var et sd

2.1 Utilisation de la fonction summary

Ces 3 fonctions appartiennent respectivement aux packages base et stats qui sont automatiquement installés et chargés à l’ouverture de chaque session de R. Il n’y a donc rien à faire de particulier pour pouvoir utiliser ces fonctions. La fonction summary est une fonction clé des analyses statistiques descriptives. Lorsque la variable considérée est numérique, cette fonction renvoie :

  • le minimum
  • le premier quartile
  • la médiane
  • la moyenne
  • le troisième quartile
  • le maximum
  • le nombre de valeurs manquante (NA pour *Not Available*).

Lorsque la variable considérée est catégorielle, la fonction summaryrenvoie uniquement :

  • le nombre de données pour chacune des modalités,
  • le nombre total de données manquantes.

La fonction summary peut être appliquée sur un jeu de données entier, une variable spécifique d’un jeu de données, ou encore sur un vecteur de données. Un vecteur de données correspond plus ou moins à une colonne de chiffres ou de texte sous Excel.

# utilisation de summary sur un jeu de données entier
summary(iris) 

Sepal.Length Sepal.Width Petal.Length Petal.Width
 Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
 Median :5.800 Median :3.000 Median :4.350 Median :1.300
 Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
 Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
 Species
 setosa :50
 versicolor:50
 virginica :50

# utilisation de la fonction summary sur une variable
summary(iris$Sepal.Length) 

Min. 1st Qu. Median Mean 3rd Qu. Max.
 4.300 5.100 5.800 5.843 6.400 7.900

# création d'un vecteur de valeurs numériques
my_vect <- c(5,1,9,54,85,66,21,58,12,77,59) 
 
# affichage du vecteur
my_vect 

[1] 5 1 9 54 85 66 21 58 12 77 59

# utilisation de la fonction summary sur le vecteur 
summary(my_vect) 
Min. 1st Qu. Median Mean 3rd Qu. Max.
 1.00 10.50 54.00 40.64 62.50 85.00

 2.2 Estimation des paramètres descriptifs par groupe avec la fonction summary

La fonction summary peut également être appliquée par groupe. Imaginons par exemple que l’on souhaite obtenir les paramètres décrits précédemment mais pour chaque modalité de la variable Species. Pour cela on utilise la commande by(jeu_de_données, variable_grpe, summary).

# sur le jeu de données entier
 by(iris, iris$Species, summary)

iris$Species: setosa
 Sepal.Length Sepal.Width Petal.Length Petal.Width
 Min. :4.300 Min. :2.300 Min. :1.000 Min. :0.100
 1st Qu.:4.800 1st Qu.:3.200 1st Qu.:1.400 1st Qu.:0.200
 Median :5.000 Median :3.400 Median :1.500 Median :0.200
 Mean :5.006 Mean :3.428 Mean :1.462 Mean :0.246
 3rd Qu.:5.200 3rd Qu.:3.675 3rd Qu.:1.575 3rd Qu.:0.300
 Max. :5.800 Max. :4.400 Max. :1.900 Max. :0.600
 Species
 setosa :50
 versicolor: 0
 virginica : 0

--------------------------------------------------------
 iris$Species: versicolor
 Sepal.Length Sepal.Width Petal.Length Petal.Width
 Min. :4.900 Min. :2.000 Min. :3.00 Min. :1.000
 1st Qu.:5.600 1st Qu.:2.525 1st Qu.:4.00 1st Qu.:1.200
 Median :5.900 Median :2.800 Median :4.35 Median :1.300
 Mean :5.936 Mean :2.770 Mean :4.26 Mean :1.326
 3rd Qu.:6.300 3rd Qu.:3.000 3rd Qu.:4.60 3rd Qu.:1.500
 Max. :7.000 Max. :3.400 Max. :5.10 Max. :1.800
 Species
 setosa : 0
 versicolor:50
 virginica : 0

--------------------------------------------------------
 iris$Species: virginica
 Sepal.Length Sepal.Width Petal.Length Petal.Width
 Min. :4.900 Min. :2.200 Min. :4.500 Min. :1.400
 1st Qu.:6.225 1st Qu.:2.800 1st Qu.:5.100 1st Qu.:1.800
 Median :6.500 Median :3.000 Median :5.550 Median :2.000
 Mean :6.588 Mean :2.974 Mean :5.552 Mean :2.026
 3rd Qu.:6.900 3rd Qu.:3.175 3rd Qu.:5.875 3rd Qu.:2.300
 Max. :7.900 Max. :3.800 Max. :6.900 Max. :2.500
 Species
 setosa : 0
 versicolor: 0
 virginica :50

# sur une seule variable du jeu de données
 by(iris$Sepal.Length, iris$Species, summary)

iris$Species: setosa
 Min. 1st Qu. Median Mean 3rd Qu. Max.
 4.300 4.800 5.000 5.006 5.200 5.800
 --------------------------------------------------------
 iris$Species: versicolor
 Min. 1st Qu. Median Mean 3rd Qu. Max.
 4.900 5.600 5.900 5.936 6.300 7.000
 --------------------------------------------------------
 iris$Species: virginica
 Min. 1st Qu. Median Mean 3rd Qu. Max.
 4.900 6.225 6.500 6.588 6.900 7.900
       

2.3 Estimation de l’écart type et de la variance avec les fonctions `var` et `sd`

En revanche, la fonction summary ne renvoie ni variance ni écart type. Il est donc nécessaire d’estimer séparément ces deux paramètres de dispersion à l’aide des fonctions var et sd. Ces fonctions appartiennent également au package stats; elles peuvent donc être utilisées immédiatement.

Néanmoins, contrairement à la fonction summary, ces deux fonctions ne peuvent pas s’appliquer sur un jeu de données entier, mais uniquement sur une variable numérique d’un jeu de données, ou sur un vecteur de données numériques.

var(iris$Sepal.Length)

[1] 0.6856935

sd(iris$Sepal.Length)

[1] 0.8280661

var(my_vect)

[1] 979.8545

sd(my_vect)

[1] 31.30263

Par contre, il est possible d’estimer la variance ou l’écart type de plusieurs variables d’un même jeu de données en une seule commande. Pour cela il faut utiliser la fonction map du package purrr. Ce package n’est pas importé et chargé par défaut, il faut donc faire ces deux étapes avant d’utiliser la fonction map.
Pour importer le package purrr utilisez l’onglet package de la fenêtre en bas à droite de R Studio, puis le sous onglet Install en écrivez purrr dans l’espace dédié. Chargez ensuite ce package (c’est ce qui permet d’avoir accés aux fonctions et aux jeux de données d’un package) à l’aide de la commande library(purrr).

library(purrr)
 map(iris[,c(1:4)],var) # estimation de la variances des variables 1 à 4 du jeu de données iris

$Sepal.Length
 [1] 0.6856935

$Sepal.Width
 [1] 0.1899794

$Petal.Length
 [1] 3.116278

$Petal.Width
 [1] 0.5810063

map(iris[,c(1,2,4)],sd) # estimation de l'écart type des variables 1, 2 et 4 du jeu de données iris

$Sepal.Length
 [1] 0.8280661

$Sepal.Width
 [1] 0.4358663

$Petal.Width
 [1] 0.7622377
      

3.Utilisation de la fonction `stats.desc` du package `pastecs`

La fonction stats.desc du package pastecs est également très intéressante pour réaliser des analyses statistiques descriptives. Elle est un peu plus complexe à utiliser mais elle permet d’estimer un grand nombre de paramètres, c’est ce qui la rend particulièrement complète.

3.1 Les paramètres de base

Cette fonction renvoie notamment :

nbr.val : le nombre de données
nbr.null : le nombre de valeurs nulles (valeurs non définies)
nbr.na : le nombre de données manquantes :
min : le min
max : le max
range : le range = max-min
sum : la somme des valeurs (rarement intéressant de mon point devu)
median : la médiane
mean : la moyenne
SE.mean : l’erreur standard de la moyenne (sem)
CI.mean.0.95 : l’erreur marginale à 95% de la moyenne (selon laloi de Student à n-1 degrés de libertés)
var : la variance des données observées
std.dev : l’écart type des données observées
coef.var : le coefficient de variation

L’erreur marginale à 95% de la moyenne est la quantité à soustraire à la moyenne pour construire la borne inférieure de l’intervalle de confiance à 95% de la moyenne, et inversement à additionner à la moyenne pour construire la borne supérieure.
Le coefficient de variation est le rapport de l’écart type des observations sur leur moyenne, soit std.dev / mean. Il s’agit d’une mesure de la dispersion relative. Ce paramètre peut être employé pour comparer la dispersion de deux variables ayant des unités différentes.


 library(pastecs)
 Loading required package: boot

stat.desc(iris)

Sepal.Length Sepal.Width Petal.Length Petal.Width Species
  nbr.val 150.00000000 150.00000000 150.0000000 150.00000000 NA
  nbr.null 0.00000000 0.00000000 0.0000000 0.00000000 NA
  nbr.na 0.00000000 0.00000000 0.0000000 0.00000000 NA
  min 4.30000000 2.00000000 1.0000000 0.10000000 NA
  max 7.90000000 4.40000000 6.9000000 2.50000000 NA
  range 3.60000000 2.40000000 5.9000000 2.40000000 NA
  sum 876.50000000 458.60000000 563.7000000 179.90000000 NA
  median 5.80000000 3.00000000 4.3500000 1.30000000 NA
  mean 5.84333333 3.05733333 3.7580000 1.19933333 NA
  SE.mean 0.06761132 0.03558833 0.1441360 0.06223645 NA
  CI.mean.0.95 0.13360085 0.07032302 0.2848146 0.12298004 NA
  var 0.68569351 0.18997942 3.1162779 0.58100626 NA
  std.dev 0.82806613 0.43586628 1.7652982 0.76223767 NA
  coef.var 0.14171126 0.14256420 0.4697441 0.63555114 NA

3.2 Estimation des paramètres de base par groupe

Ces paramètres descriptifs peuvent facilement être estimés par groupe, comme ici pour chaque modalité de la variable Species.

by(iris,iris$Species,pastecs::stat.desc)

iris$Species: setosa
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
  nbr.val 50.00000000 50.0000000 50.00000000 50.00000000 NA
  nbr.null 0.00000000 0.0000000 0.00000000 0.00000000 NA
  nbr.na 0.00000000 0.0000000 0.00000000 0.00000000 NA
  min 4.30000000 2.3000000 1.00000000 0.10000000 NA
  max 5.80000000 4.4000000 1.90000000 0.60000000 NA
  range 1.50000000 2.1000000 0.90000000 0.50000000 NA
  sum 250.30000000 171.4000000 73.10000000 12.30000000 NA
  median 5.00000000 3.4000000 1.50000000 0.20000000 NA
  mean 5.00600000 3.4280000 1.46200000 0.24600000 NA
  SE.mean 0.04984957 0.0536078 0.02455980 0.01490377 NA
  CI.mean.0.95 0.10017646 0.1077289 0.04935476 0.02995025 NA
  var 0.12424898 0.1436898 0.03015918 0.01110612 NA
  std.dev 0.35248969 0.3790644 0.17366400 0.10538559 NA
  coef.var 0.07041344 0.1105789 0.11878522 0.42839670 NA
  --------------------------------------------------------
  iris$Species: versicolor
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
  nbr.val 50.00000000 50.00000000 50.00000000 50.00000000 NA
  nbr.null 0.00000000 0.00000000 0.00000000 0.00000000 NA
  nbr.na 0.00000000 0.00000000 0.00000000 0.00000000 NA
  min 4.90000000 2.00000000 3.00000000 1.00000000 NA
  max 7.00000000 3.40000000 5.10000000 1.80000000 NA
  range 2.10000000 1.40000000 2.10000000 0.80000000 NA
  sum 296.80000000 138.50000000 213.00000000 66.30000000 NA
  median 5.90000000 2.80000000 4.35000000 1.30000000 NA
  mean 5.93600000 2.77000000 4.26000000 1.32600000 NA
  SE.mean 0.07299762 0.04437778 0.06645545 0.02796645 NA
  CI.mean.0.95 0.14669422 0.08918050 0.13354722 0.05620069 NA
  var 0.26643265 0.09846939 0.22081633 0.03910612 NA
  std.dev 0.51617115 0.31379832 0.46991098 0.19775268 NA
  coef.var 0.08695606 0.11328459 0.11030774 0.14913475 NA
  --------------------------------------------------------
  iris$Species: virginica
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
  nbr.val 50.00000000 50.00000000 50.00000000 50.00000000 NA
  nbr.null 0.00000000 0.00000000 0.00000000 0.00000000 NA
  nbr.na 0.00000000 0.00000000 0.00000000 0.00000000 NA
  min 4.90000000 2.20000000 4.50000000 1.40000000 NA
  max 7.90000000 3.80000000 6.90000000 2.50000000 NA
  range 3.00000000 1.60000000 2.40000000 1.10000000 NA
  sum 329.40000000 148.70000000 277.60000000 101.30000000 NA
  median 6.50000000 3.00000000 5.55000000 2.00000000 NA
  mean 6.58800000 2.97400000 5.55200000 2.02600000 NA
  SE.mean 0.08992695 0.04560791 0.07804970 0.03884138 NA
  CI.mean.0.95 0.18071498 0.09165253 0.15684674 0.07805468 NA
  var 0.40434286 0.10400408 0.30458776 0.07543265 NA
  std.dev 0.63587959 0.32249664 0.55189470 0.27465006 NA
  coef.var 0.09652089 0.10843868 0.09940466 0.13556271 NA

3.3 Les paramètres d’estimation de la normalité

La fonction stat.desc permet également d’évaluer la normalité de la distribution des valeurs observées, par l’intermédiaire de plusieurs paramètres accessibles en ajoutant l’argument norm=TRUE. Ces paramètres supplémentaires sont :

skewness : le coefficient d’asymétrie g1
skew.2SE : la statistique g1/ (2*SE_g1)
kurtosis : le coefficient d’applatissement g2
kurt.2SE : la statistique g2/ (2*SE_g2)
normtest.W : la statistique W du test de normalité de Shapiro Wilks
normtest.p : la pvalue du test de Shapiro de Shapiro-Wilks

Voici un exemple :

stat.desc(iris, norm=TRUE)

Sepal.Length Sepal.Width Petal.Length Petal.Width Species
  nbr.val 150.00000000 150.00000000 1.500000e+02 1.500000e+02 NA
  nbr.null 0.00000000 0.00000000 0.000000e+00 0.000000e+00 NA
  nbr.na 0.00000000 0.00000000 0.000000e+00 0.000000e+00 NA
  min 4.30000000 2.00000000 1.000000e+00 1.000000e-01 NA
  max 7.90000000 4.40000000 6.900000e+00 2.500000e+00 NA
  range 3.60000000 2.40000000 5.900000e+00 2.400000e+00 NA
  sum 876.50000000 458.60000000 5.637000e+02 1.799000e+02 NA
  median 5.80000000 3.00000000 4.350000e+00 1.300000e+00 NA
  mean 5.84333333 3.05733333 3.758000e+00 1.199333e+00 NA
  SE.mean 0.06761132 0.03558833 1.441360e-01 6.223645e-02 NA
  CI.mean.0.95 0.13360085 0.07032302 2.848146e-01 1.229800e-01 NA
  var 0.68569351 0.18997942 3.116278e+00 5.810063e-01 NA
  std.dev 0.82806613 0.43586628 1.765298e+00 7.622377e-01 NA
  coef.var 0.14171126 0.14256420 4.697441e-01 6.355511e-01 NA
  skewness 0.30864073 0.31261470 -2.694109e-01 -1.009166e-01 NA
  skew.2SE 0.77924478 0.78927812 -6.801988e-01 -2.547904e-01 NA
  kurtosis -0.60581253 0.13870468 -1.416857e+00 -1.358179e+00 NA
  kurt.2SE -0.76961200 0.17620762 -1.799947e+00 -1.725403e+00 NA
  normtest.W 0.97609027 0.98491787 8.762681e-01 9.018349e-01 NA
  normtest.p 0.01018116 0.10115427 7.412263e-10 1.680465e-08 NA

Lorsque le coefficient d’asymétrie skewness est > 0, cela témoigne d’une queue de distribution sur la droite, et d’une médiane inférieure à la moyenne.

Inversement, lorsque l’indice de skewness est <0, cela témoigne d’une queue de distribution sur la gauche, et d’une médiane supérieure à la moyenne.

Lorsque le coefficient d’asymétrie skewness est inférieur à -1 ou supérieur à 1, alors l’asymétrie de la distribution est considérée comme étant très marquée. Lorsqu’il est compris entre [-1 ; -1/2] ou entre [1/2, 1], l’asymétrie est considérée comme étant modérée. Lorsqu’il est compris entre [-1/2 ; 1/2], la distribution est considérée comme étant symétrique.

La statistique g1/ (2*SE_g1), nommée skew.2SE, permet d’évaluer la significativité du coefficient d’asymétrie. Si skew.2SE est supérieure à 1, ou inférieure à -1, alors le coefficient d’asymétrie est significativement différent de 0. La distribution s’éloigne alors de la normalité.

Le coefficient d’aplatissement g2 nommé kurtosis est moins utilisé que le coefficient d’asymétrie. Lorsque sa statistique g2 / (2*SE_g2), nommée kurt.2SE est supérieure à 1, ou inférieur à -1, alors le coefficient d’aplatissement est significativement différent de 0. La distribution s’éloigne alors de la normalité.

Le test de Shapiro-Wilk permet d’évaluer la normalité de la distribution des données observées. Si sa p-value, nommée ici normtest.p est inférieure à 0.05 alors la normalité est rejetée.

Ces informations sont disponibles dans la page d’aide de la fonction stat.desc.

Détecter si la distribution des données observées s’écarte de la normalité permet notamment de choisir une méthode adéquate pour estimer l’intervalle de confiance de la moyenne. En effet, en cas d’écart à la normalité, l’intervalle de confiance par utilisation de la loi de Student (paramètre CI.mean.0.95) peut s’avérer biaisé. Dans ce cas il est préférable d’estimer l’intervalle de confiance de la moyenne par une approche de bootstrap non paramétrique.

4. Estimation de l’intervalle de confiance de la moyenne par bootstrap

Le principe du bootstrap est de générer un grand nombre d’échantillons (par exemple 1000) à partir des valeurs observées.

Chacun des 1000 échantillons bootstrap est créé à partir des valeurs observées, en les tirant au sort avec remise. Cela signifie que dans un échantillon bootstrap donné, certaines valeurs apparaitront plusieurs fois et que d’autre valeurs ne seront pas présentes du tout.
Ensuite, chaque échantillon bootstrap est considéré séparément et la moyenne de chaque échantillon bootstrap est calculée. Les 1000 moyennes sont ensuite ordonnées de la plus petite à la plus grande et les percentiles 2.5 et 97.5 sont estimés. Le percentile 2.5 correspond au seuil en dessous duquel seules 2.5% des moyennes ordonnées sont présentes. De la même façon, le percentile 97.5 correspond au seuil au dessus duquel seules 2.5% des moyennes estimées ordonnées sont présentes. Ces valeurs constitueront les bornes inférieure et supérieure de l’intervalle de confiance à 95%.

Je vais vous montrer très succinctement comment calculer l’intervalle de confiance à 95% d’une moyenne avec la fonction boot du package du même nom . Pour cela, il est d’abord nécessaire d’importer et de charger ce package boot.

Ensuite, il faut créer une fonction moyenne tel que ci-dessous. C’est cette fonction qui sera passée en argument à la foncion boot

library(boot)

# création de la fonction moyenne pour la fonction boot
  moyenne<-function(data,indice)
  {

data.star <- data[indice]
  moy <- mean(data.star,na.rm=TRUE)
  }

#permet de fixer la graine des tirages aléatoires et donc d'obtenir des résultats toujours identiques
  set.seed(1234)

# realisation des échantillons bootstrap et estimation des moyennes
  b1 <- boot(iris$Sepal.Length, statistic= moyenne, R=1000)

Enfin, l'objet `b1` que nous venons de créer est passé en arugment de la fonction `boot.ci`, qui calcule l'intervalle de confiance dit `percentile`

boot.ci(b1)

Warning in boot.ci(b1): bootstrap variances needed for studentized
  intervals

BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
  Based on 1000 bootstrap replicates

CALL :
  boot.ci(boot.out = b1)

Intervals :
  Level Normal Basic
  95% ( 5.709, 5.976 ) ( 5.699, 5.969 )

Level Percentile BCa
  95% ( 5.718, 5.988 ) ( 5.718, 5.990 )
  Calculations and Intervals on Original Scale

En réalité, la fonction boot.ci estime plusieurs types d’intervalle de confiance. Celui qui nous intéresse ici est le type Percentile.
J’espère qu’avec cet article vous saurez, à présent, réaliser facilement les analyses descriptives de vos variables numériques. Si vous utilisez d’autres fonctions que celles décrites dans cet article , n’hésitez pas à me les indiquer dans un commentaire.

Et si cet article vous a plu, n’hésitez pas, non plus, à le partager.

Partager l'article
  •  
  •  
  •  
  •  
  •  
    2
    Partages
  • 2
  •  
  •  

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *