Importer facilement vos données dans le logiciel R

importer des données

Importer des données dans le logiciel R pose souvent  problèmes aux débutants. Il est vrai qu’il n’est pas toujours facile de s’y retrouver entre les différentes procédures d’importation envisageables, les différents formats possibles des fichiers d’origine, les différentes fonctions existantes, et bien sur la structure que doivent avoir les données.

Par exemple, l’importation de données peut se faire via l’onglet “Import Data set” de la fenêtre Environnement de RStudio (L’interface de R Studio), ou bien en utilisant des lignes de commandes. De même il est  possible d’importer des données depuis un fichier txt, un fichier xls, un fichier xlsx ou encore d’un fichier  csv provenant de différents tableaurs etc… Et pour un même format, il existe parfois plusieurs fonctions permettant cette importation. Enfin, il est très important que les données importées soient structurées selon un certain schéma. En effet, elles doivent correspondre à la structure utilisée par les fonctions qui seront employées pour mener les différents types d’analyses statistiques (descriptives, inférentielles, prédictives (https://statistique-et-logiciel-r.com/les-3-principaux-types-danalyses-statistiques/).

 

Dans ce post, je vais vous montrer comment importer facilement et efficacement vos données dans le logiciel R depuis le logiciel Excel. Pour cela, je vais :

1. vous expliquer comment organiser votre espace de travail en utilisant la fonctionnalité “Project

2. vous exposer comment structurer vos données au format tidy avant l’importation

3. vous faire quelque recommandations

4. vous présenter la fonctionread.csv2” permettant de faire l’importation

5. et enfin vous montrer comme visualiser les données importées

 

1. Organisez votre espace de travail sous la forme d’un projet R

R studio dispose d’une fonctionnalité “Projet” qui permet d’encapsuler votre travail pour tout ce qui concerne R et R Studio. C’est un peu comme un système de dossiers mais spécifique à R. C’est un peu comme si au lieu d’avoir un seul R et RStudio, vous en aviez plusieurs, un pour chaque dossier de travail.

A chaque projet R est associée un working directory (répertoire de travail) localisé au même endroit que le projet. C’est dans ce working directory que seront stockés, par défaut, tout ce que vous exporterez (graph, données, etc..). De même, lorsque vous voudrez importer des données, R ira, par défau,t les chercher dans ce répertoire. Cela est vraiment pratique.

En plus du working directory, un workspace est associé au projet R. Il s’agit de tous les objets (données, tableau , constante etc…) que vous allez créer lors de vos analyses. L’ensemble ds éléments composant le workspace sont visibles dans la fenêtre “Environnement” (faire un autre renvoi à mon article).

Le workspace est sauvegardé lorsque vous quittez R Studio (en choisissant “Quit Session” du menu “File”, ou bien en cliquant sur la croix en haut à droite de l’application) ;  en choisissant l’option “save” de la fenêtre de dialogue .La commande save.image peut également être utilisée.

En plus du working directory et du workspace, un fichier contenant l’historique des commandes est également créé avec  le projet R.

De mon point de vu, la façon la plus simple de créer un projet R quand on débute est de le faire après la création du dossier auquel vous voulez l’associé. Imaginons que vous voulez créer un Projet R associé à un dossier “Grenoble_Alpes” lui même contenu dans le dossier “CHU” de  “Mes Documents” sur votre ordinateur. Pour cela,  vous allez commencer par créer ce dossier “Grenoble_Alpes” dans le dossier “CHU” du répertoire “Documents” de votre PC.

Création d'un dossier windows

Vous allez ensuite ouvrir R Studio (à partir du menu des applications de windows), et dans le menu File (de R Studio), vous allez choisir  “New_Project”.

Créer un nouveau projet R

Une fenêtre de dialogue s’ouvre alors pour demander si vous voulez sauver le workspace. Si vous venez d’ouvrir R studio cela n’a pas sens, mais si vous venez de travailler choisissez “save”.

Une nouvelle fenêtre s’ouvre alors avec 3 possibilités, choisissez “Existing Directory”

Creation projet R dans un répertoire existant

Et indiquez l’emplacement du dossier auquel vous voulez rattaché le projet R, puis cliquez sur “Create Project”.

Creation projet R dans un répertoire existant

 

Voilà, le projet R associé à votre dossier “Grenoble_Alpes” est créé.

 

New_R_Project

 

2. Structurez vos données au format tidy avant l’importation

Les données importées doivent être structurées d’une certaine façon pour pouvoir, ensuite, être utilisées dans les différentes fonctions de R.

Cette structure peut être résumée par deux grands principes :

1. Chaque variable mesurée doit correspondre à seule colonne.

2. Si plusieurs observations ont été faites pour une variable donnée, ces observations doivent être sur des lignes différentes.

Voici un exemple pour clarifier les idées. Imaginons que nous ayons mesuré la créatinine et la glycémie de 50 patients à deux temps différents (au cours de la première et de la 3ème semaine de septembre par exemple).

Dans une première approche, les données pourraient être reportées dans un  tableau sous cette forme :

 

Ce format ne correspond pas aux critères énoncés. En effet,  ici chaque variable mesurée (créatinine et glycémie) n’est pas contenue dans une seule colonne mais dans deux. De ce fait, le deuxième critère n’est pas respecté non plus puisque les deux mesures d’une même variable (la mesure de la glycémie de la première semaine et la mesure de la glycémie la deuxième semaine), ne sont pas sur des lignes différentes, mais sur une même ligne.

Les données pourraient également avoir été reportées sous la forme transposée du premier tableau, mais cela ne correspond pas non plus aux critères énoncés.

not tidy data

La forme correspondant aux critères énoncés est la suivante :

données à importer

 

Ici, chaque constante sanguine ne correspond qu’à une seule colonne ;  cela a nécessité la création d’une colonne “temps”. Et chaque mesure d’une constante sanguine donnée, pour un patient donné, est reportée dans une ligne différente. Ce format est appelé tidy data (données rangés). Les grands principes ce format “tidy” ont été défini par Hadley Wickham.

 

3. Quelques recommandations

Pour correctement importer vos données depuis Excel dans le logciciel R, il est indispensable de bien respecter le format du séparateur décimal défini dans Excel. A priori, en France, par défaut, le séparateur décimal défini par Excel est la virgule. Pour le vérifier vous pouvez aller dans le menu Fichier, puis Options (tout en bas) puis Options Avancées. Si ce n’est pas le cas, changez l’option pour utiliser la virgule.

Séparateur décimal Excel

Ensuite, lorsque vous mettez en forme vos tableaux de données dans Excel vous devez utiliser le même séparateur décimal que celui défini par Excel, c’est à dire la virgule. Si le séparateur considéré par Excel est la virgule et que vous, vous utilisez un point, alors au moment de l’importation dans le logiciel R vos données ne seront pas considérées comme “numériques” mais comme du texte. Vous ne pourrez donc pas les utiliser comme des nombres.

Si dans vos feuilles Excel, le séparateur est un point (par exemple parce que c’est un collègue américain qui vous a transmis les données et qu’aux Etats Unis le séparateur décimal défini par défaut par Excel est un point), alors utilisez l’outil “Rechercher-Remplacer” pour remplacer les points par des virgules.

Lors de la mise en forme de vos données sous Excel, je vous recommande également de :

1. Ne pas utiliser d’accents ou de caractères spéciaux pour nommer une variable (ça vaut aussi pour le nom du fichier de données).Par contre vous pouvez utiliser les tirets bas ou les points.

2. Ne pas nommer une variable en commença par un chiffre : pas “1glycemie” mais “glycemie1”

3. Raccourcir le nom des variables, tout en conservant leur intelligibilité. Par exemple “glycémie” pourrait devenir “glyc” plutôt que simplement “g” et “créatinine” devenir “crea” plutôt que “cre”. Vous allez écrire le nom des variables à de nombreuses reprises dans les lignes de commandes pour réaliser vos analyses statistiques et cela vous simplifiera la tâche si les noms des variables sont courts.

4. Ne pas conserver les unités dans les noms des variables. Pour garder néanmoins l’information, le mieux est de faire un “code book”. Il s’agit d’un tableau avec le nom de la variable dans les données d’origine,  son unité, le nom dans le fichier importé,   et les valeurs qu’elle peut prendre (par exemple le min et max pour les variables numériques et les différentes modalités possibles pour des variables catégorielles). En voici un exemple :

Code book

5. Ne pas arrondir vos données, car l’information originale sera perdue lors de l’importation. Par exemple, si vous ne gardez que 2 chiffres après la virgule vous ne pourrez plus avoir accès à plus de précision après l’importation dans le logiciel R. Il est donc préférable de gérer l’arrondi dans R.

6. Ne pas recoder en variable numérique une variable catégorielle. Par exemple, vous pourriez être tenté de coder la semaine 1 par un “1” et la semaine “3” par un 3.Cela engendrerait des manipulations supplémentaires à réaliser  sous R.

A final le jeu de données importé pourrait être celui ci, et il pourrait se nommer cste_sg_s1_s3 pour constantes sanguines, semaine 1 et semaine 3.

données sous Excel à importer

 

Une fois le fichier de données mis en forme, il est nécessaire de le sauvegarder au format CSV (séparateur: point-virgule (*.csv). Sauvegarder le dans le dossier associé à votre projet R (ici le dossier  Grenoble_Alpes).

 

csv file

 

4. Importer votre tableau de données en utilisant la fonction read.csv2

Les analyses statistiques sont généralement réalisées en employant un script. Il s’agit d’un document contenant l’ensemble des lignes de commandes utilisées. Pour ouvrir un script sous R, il suffit de cliquer sur l’icône d’un document vierge avec une croix verte en haut à gauche, puis de choisir “R script”.

New_Script

Il est ensuite nécessaire de le sauver, en lui donnant un nom intelligible et spécifique de préférence, en choisissant “save as “ du menu File.

Save R Script

Par défaut, le script est enregistré dans le working directory.

Pour importer le jeu de données au format csv, il suffit alors d’utiliser la fonction read.csv2.

La ligne de commande utilisée est alors :

data_sg <- read.csv2(“cste_sg_s1_s3.csv”)

data_sg” est l’objet dans lequel vont être sauvegardées les données. La flèche vers la gauche “<- ” permet d’assigner à l’objet “data_sg” le résultat de la fonction read.csv2, qui prend pour seul argument le nom du fichier au format csv.

Importation de données dans R

 

 

Pour exécuter les commandes (cad les passer dans la console), il suffit de se placer n’importe où sur la  ligne de commande avec la souris puis de cliquer sur l’icône “run” ou bien d’utiliser le raccourci Contrôle + Entrée.

Il existe également une fonction read.csv. Elle doit être employée lorsque le fichier à importer a été sauvegardé en formats csv mais avec une virgule à la place de point virgule pour séparer les colonnes, et lorsque le séparateur décimal est un point.

Les fonctions read.csv2 ou read.csv comportent plusieurs arguments qui permettent par exemple, d’importer ou non le nom des variables, le nom des lignes,  d’indiquer si certaines valeurs doivent être considérées comme des données manquantes etc..… Pour connaître toutes les options possibles et les arguments correspondant, il suffit de consulter l’aide intégrée à R Studio. Elle est accessible en sélectionnant avec la souris la fonction dans le script, ou dans la console puis  en appuyant sur la Touche F1.

Aide dans R

 

La description de la fonction read.csv2 se trouve plus bas.

L’accès à l’aide aide peut également être obtenu en écrivant “?read.csv2” dans la console.

Il est possible d’importer des données à partir de l’outil “import data set “ de la fenêtre environnement (en haut à droite) de R Studio, c’est à dire sans employer des lignes de commandes. Malgré la simplicité de cette démarche, elle a l’énorme inconvénient de ne pas tracer le nom du jeu de données importé.

 

5. Visualisez les données importées

Si l’importation de vos données s’est correctement réalisée, l’objet dans lequel vous les avez stockées (data_sg dans l’exemple) doit apparaître dans la fenêtre “Environnement” (en haut à droite).

Importation de données dans R

En double cliquant sur le nom “data_sg” un tableur s’ouvre dans la partie édition, avec des fonctions de filtre et de tri comme sous Excel. C’est vraiment très pratique !

visualisation des données dans le logiciel R

 

Avec cet article, j’espère que vous aurez envie de rapidement mettre en application cette méthode simple et efficace d’importation des données dans le logiciel R.

Et vous, quelles sont vos astuces pour importer vos données ?

 

 

Crédit photo : Jannek Staaks

Partager l'article
  •  
  •  
  •  
  •  
  •  
    3
    Partages
  • 3
  •  
  •  
  •  
  •  

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *