4 super fonctions pour la description de vos données

analyse descriptive avec R

 

Un petit post pour vous parler de 4 nouvelles fonctions que j’ai découvertes récemment, et qui sont géniales pour faire de la description de  données. Ces quatre fonctions appartiennent au package funModeling, développé par Pablo Casas, qui est aussi l’auteur du livre “Data Science Live Book: An intuitive and practical approach to data analysis, data preparation and machine learning, suitable for all ages!”

Le livre est vraiment très bien, il contient de bonnes explications et de nombreux exemples pour appliquer les fonctions du packages, (qui s’intègrent au tidyverse) et il ne coûte que 5.64 euros en version kindle !

Pour illustrer ces quatre fonctions utile à la description, je vais utiliser le jeu de données “heart_disease“, contenu dans le package “funModeling”.

 

 

1. La fonction df_status

La première fonction de description qui m’a particulièrement plu, c’est “df_status” qui permet d’obtenir :

  • le nombre de valeurs nulles (q_zeros) et son pourcentage (p_zeros)
  • le nombre de valeurs manquantes (q_na) et son pourcentage (p_na)
  • le nombre de valeur infinies (q_inf) et son pourcentage (p_inf)
  • le type des variables : facteur, character, numeric, entier, etc. – le nombre de valeurs uniques.

Je trouve que c’est très intéressant d’avoir ces informations en un clin d’œil

 

2. La fonction profiling_num

La deuxième fonction de description est “profiling_num”, qui calcule tous les paramètres classiquement utilisés pour faire de la description de données numériques : la moyenne, la médiane, l’écart type, le coefficient de variation, les 1er et 3ème quartile, etc… ainsi les valeurs de kurtosis et de skewness pour juger de la présence d’outlier et de la symétrie de donnés.

Un des points que j’apprécie, c’est qu’on n’a pas besoin de faire un subset préalable du jeu de données pour sélectionner uniquement les variables numériques. On donne en entrée le jeu de données dans sa globalité, et la fonction se débrouille !

 

3. La fonction plot_num

La fonction plot_num permet d’obtenir une visualisation des distributions de ces variables, là encore en un clin d’oeil !

 

description statistique logiciel R

Personnellement, je préfère le plot des densités, alors j’ai crée la fonction “plot_num_density”. Pour la faire tourner vous aurez besoin du package “reshape”.

 

description statistique logiciel R

4. La fonction “freq”

La quatrième fonction de description dont je voulais parler est la fonction “freq” qui permet d’obtenir les paramètres descriptifs des variables catégorielles ou facteurs.

Pour chaque facteur, la fonction renvoie :

  • la fréquence, le pourcentage et le pourcentage cumulé de chaque modalité
  • un barplot avec les modalités ordonnées.

 

description statistique avec R

 

 

description statistique avec R

 

Voilà, j’espère que ces quatre fonctions vous plairont également ! En ce qui me concerne, je les ai intégré dans mes routines d’analyses.

Et si cet article vous a plu, n’oubliez pas de le partager 😉

 

Note : je touche une petite commission (entre 3 et 6%) si vous passez par le liens Amazon de cet article pour acheter le livre mentionné, cela m’aide à entretenir ce blog, merci si vous le faites ! 😉 

Crédit photo : StartupStockPhotos

Retrouvez ici d’autres articles “astuce” :

Partager l'article
  •  
  •  
  •  
  •  
  •  
    16
    Partages
  • 16
  •  
  •  
  •  
  •  

2 commentaires

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *