Faites de belles tables descriptives avec summarytools !

analyses descriptives avec R

J’ai déjà écrit plusieurs articles au sujet des analyses descriptives : Analyses statistiques descriptives de données numériques – partie 1 pour les aspects théoriques et Analyses statistiques descriptives de données numériques – partie 2 , Utilisez le package skimr en complément du package pastecs pour réaliser vos analyses statistiques descriptives et enfin 4 super fonctions pour la description de vos données.

J’étais déjà très satisfaite des différents packages et fonctions décrites dans ces articles, je les utilise dans mes routines d’analyse. Et puis la semaine dernière, je suis tombé sur ce tweet :

 

Cela avait l’air assez bluffant alors j’ai essayé. Et effectivement, c’est bluffant ! Comme d’autres packages le package summarytools et sa fonction dfSummary() permettent de faire une analyse descriptive des variables numériques et catégorielles MAIS SURTOUT, ils permettent, à partir d’un document R markdown, de présenter ces résultats, automatiquement, dans une table de résultat avec un rendu plutôt très chouette !

Je vous montre comment ça marche !

1. Installation et chargement du package

Vous pouvez installer le package depuis CRAN par l’outil d’installation de package de RStudio (fenêtre an bas à droite –> Packages –> Install –> summarytools), ou bien en utilisant la commande suivante :

 

 

2. Réglage des options du package

Dans la vignette d’introduction au package summary tools, il est conseillé de régler les options du package comme ceci :

 

Vous pouvez aussi ajouter lang="fr" pour avoir la table des résultats en français plutôt qu’en anglais :

 

3. Passer l’argument results=”asis” dans le chunk set-up

Le chunk setup est le premier chunk du document Rmarkdown :

 

summarytools R description

 

4. Réalisation d’une table descriptive

 

La table descriptive est générée à l’aide de la fonction dfSummary(). Par exemple ici, avec l’exemple ultra classique du jeu de données “iris”:

 

Le rendu obtenu est le suivant :

table descriptive avec logiciel R

Pour obtenir un rendu optimal, notamment au niveau de la colonne graph, il est conseillé (toujours dans la vignette d’introduction au package) d’utiliser les arguments suivants :

 

analyses statistiques descriptives avec R

Génial, non ?

Ce rendu est obtenu dans les formats html et word. En revanche en pdf, la dernière commande induit un message d’erreur. De ce fait seul la commande dfSummary(iris) et premier rendu semble possible (c’est déjà pas mal !) Et si vous souhaitez supprimer la colonne graph, utilisez l’argument graph.col=FALSE, comme ceci :

 

5. Réalisation d’ une table de contingence

En parcourant la vignette, il y a une fonctionnalité que j’ai trouvé très utile, c’est le fait de créer une table de contingence avec un rendu parfaitementadapté. Jusque-là, je n’avais pas de solution aussi satisfaisante pour présenter les résultats proprement :

 

table de contingence

L’argument prop = "r" permet de calculer les pourcentages par ligne. Les autres options sont :

  •  prop = "c" pour un calcul par colonne,
  •  prop = "t" pour un calcul total,
  •  prop = "n" (none) pour ne pas avoir de calcul des pourcentages.

En plus, cerise sur le gâteau, on peut ajouter les résultats du test du Chi2, réalise sur cette table de contingence :

 

test du chi2

 

6. Pour aller plus loin

Le package est vraiment intéressant, il existe pas mal d’options, c’est pourquoi je vous conseille de jeter un coup d’œil sur les vignettes !

7. Conclusion

Je trouve ce package vraiment génial ! Et vous ?  Est ce que l’article vous a convaincu de l’essayer ?

Est ce que vous avez déjà prévu de l’utiliser dans vos routines ? Dites le moi en commentaire !

Et si cet article vous a plus, n’oubliez pas de le partager !

En attendant, vous pouvez vous abonner à mon compte twitter, et à ma page facebook.

 

Image par Andrew Martin de Pixabay 

 

Continuez votre lecture :

 

Partager l'article
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

8 commentaires

  1. Stéphane Répondre

    Merci Claire pour ce partage, c’est vrai que la présentation est très sympa, mais je rencontre un problème d’installation en utilisant votre script :
    > library(summarytools)
    Error: package or namespace load failed for ‘summarytools’ in loadNamespace(j <- i[[1L]], c(lib.loc, .libPaths()), versionCheck = vI[[j]]):
    aucun package nommé ‘magick’ n'est trouvé
    In addition: Warning message:
    le package ‘summarytools’ a été compilé avec la version R 3.4.4

    • Claire Della Vedova Auteur de l’articleRépondre

      Bonjour,
      vous pouvez essayer d’installer la package via github
      install.packages(“devtools”)
      library(devtools)
      install_github(“rapporter/pander”) # Necessary for optimal results!
      install_github(“dcomtois/summarytools”)

      Vous trouverez les infos d’installation ici : https://github.com/dcomtois/summarytool.
      Bonne continuation

  2. Lassana Répondre

    Merci Claire
    Cet outil donne à la fois plusieurs informations riches.
    Merci pour le partage et Bonne continuation

  3. Sacko Répondre

    Merci infiniment Claire, chaque article vous renforcez ma motivation d’aller plus loin encore, vraiment merci !!!

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *