7 étapes pour organiser son travail sous R

7 étapes pour organiser son travail sours R

Lorsque je réalise des séances de coaching individuelles, ou lorsque je fais des formations, je commence toujours par expliquer comment organiser efficacement son flux de travail sous R. Ce sont des étapes clés, qui a mon sens, doivent être engagées avant même de parler d’analyse de données !

C’est cette organisation que je partage aujourd’hui avec vous dans cet article.

 

1.Organiser son travail dans un projet R

La première chose à faire, quand vous débutez un nouveau projet d’analyse de données, c’est d’encapsuler votre travail dans un projet R spécifique.

Pour cela :

  • Créez un dossier avec un nom intelligible dans un endroit approprié sur votre PC. Par exemple ici le dossier “Grenoble_Alpes” dans le dossier “CHU”, placé dans le répertoire “Mes Documents” :

oganisation travail logiciel R

 

  • Puis, dans R Studio : File –>  New Project –> Existing directory

projet R organisation workflow

 

  • Enfin, indiquez le chemin d’accès du dossier créé à l’étape 1. Et voilà le projet R associé au dossier est créé :

organiser travail logiciel R

 

Avec cet encapsulage, le répertoire de travail par défaut ( working directory) se situera à la racine du dossier créé. En pratique, cela signifie que lors de l’importation, le chemin d’accès aux données sera automatiquement fixé à cet endroit. De même, si vous voulez exporter des graphs, par défaut, ils seront également enregistrés à la racine du dossier. L’encapsulage permet également d’avoir un fichier “history” (l’historique des commandes) et un “workspace” (data importées, modèles créés etc..) spécifiques au projet. Pour plus de détail vos pouvez consulter cet article “Importer facilement vos données dans le logiciel R

projet R encapsuler

 

 

 

 

2. Organiser son projet R

Maintenant que vous avez un projet R spécifique à votre projet d’analyse (que vous allez bientôt commencer), je vous recommande de le structurer en y ajoutant quelques dossiers qui vous permettrons de ranger efficacement vos documents, et évitez qu’ils se retrouvent tous à la racine du projet

Par exemple vous pouvez créer :

  • un dossier “data” : dans lequel vous mettrez les fichiers de données que vous allez importer dans R,
  • un dossier “plot” : qui recevra les visualisations que vous allez faire,
  • un dossier “img” : qui contiendra les images que vous voudrez éventuellement incorporer dans votre rapport d’analyse (par exemple, une image du plan expérimental).

structuration projet R

D’après : https://talesofr.wordpress.com/2017/12/12/a-minimal-project-tree-in-r/

 

C’est cette organisation que j’utilise généralement, elle me convient bien.

Pour aller chercher les données dans le dossier “data”, ou les images dans le dossier “img”, ou encore sauvegarder les visualisations dans le dossier “plot” j’utilise le package “here” , qui permet de créer les chemins d’accès relatifs. Par exemple, pour importer un fichier de données nommé “mydata.csv” placé dans le dossier “data”, on peut utiliser la commande suivante, qui est très simple :

 

Le premier “here” correspond au nom du package, et le deuxième au nom de la fonction !

De même pour insérer dans un script en R markdown, une image stockée le dossier “data”, il suffit d’utiliser la commande :

Et pour sauvegarder des visualisations dans le dossier “plot”, par exemple:

 

D’autres structurations du projet R sont possibles. A long terme c’est à vous de trouver celle qui vous convient le plus. En attendant vous pouvez vous inspirer de celle là :

structuration projet R

D’après https://www.britishecologicalsociety.org/wp-content/uploads/2017/12/guide-to-reproducible-code.pdf

Ou encore de celles là :

workflow R project

D’après https://learn.r-journalism.com/en/publishing/workflow/r-projects/

 

3. Utiliser le format R markdown pour écrire son analyse

R markdown est un format de fichier R qui permet de faire co-exister dans un même document :

  • du code
  • des résultats de code
  • du texte

C’est un format qui fonctionne avec des balises, un peu comme le langage html, et qui permet de générer automatiquement des rapports d’analyse.

Je vous recommande d’utiliser systématiquement ce format, et pas uniquement en fin d’analyse pour éditer le rapport d’analyse statistique.

C’est beaucoup plus efficace de mener une analyse de données sous ce format puisque vous pouvez faire figurer les commandes utilisées, les résultats obtenus, et commenter ces derniers. Ainsi, vous gardez toujours une trace de votre cheminement, des décisions que vous avez prises etc…Et à la fin vous pourrez simplement choisir de faire apparaître ou pas certaines partie de l’analyse dans le rapport final.

L’apprentissage de ce format est très simple, il y a seulement quelques éléments à connaître pour débuter. Cela vous demandera moins de 10 minutes d’investissement.

Pour vous aider à franchir le pas, j’ai écrit ce guide de démarrage :

Rmardown logiciel R

 

 

 

 

Ainsi que ces 10 astuces pour aller encore plus loin :

 mardown logiciel R rapport automatisés

 

 

 

De plus le format R markdown permet également de générer des diapositives ou encore de créer un dashboard. Pour plus d’infos consulter le livre “R Markdown: The Definitive Guide”.

Avec ce format, non seulement vous réalisez votre analyse (avec le code R) mais en plus vous préparer aussi, dans le même temps, vos livrables (rapports) et vos supports de communications (slides, dashboard).

 

r markdown

 

 

4. Organiser efficacement les données dans un tableur

Maintenant que vous êtes bien organisé pour mener vos analyses de données, il reste tout de même une étape : celle de la création du fichier de données !

C’est une étape essentielle, et en adoptant quelques règles simples, vous vous éviterez de perdre un temps précieux au moment de l’importation, ou encore de vous arracher les cheveux pour reformater les données sous R.

Les deux points principaux de ces règles simples sont :

  • L’utilisation du format tidy. Il s’agit d’organiser vos données avec :
    •  une ligne par observation
    • une colonne par variable
    • la valeur numérique au croisement des lignes et des colonnes.

organisation des données dans Excel

D’après Wickham, H., & Grolemund, G. (2016). R for data science: import,tidy, transform, visualize, and model data.

  • Le stockage des  données sous un format csv.

 

Le format csv est recommandé parce qu’il ne dépend pas d’un logiciel en particulier, contrairement au format xlsx qui est propre à Excel. Ainsi, en cas de perte de votre licence Excel, vous pourrez toujours accéder à vos données. Et de même, en cas de collaboration, tout le monde sera en mesure d’ouvrir un fichier csv en utilisant un logiciel libre, comme open office par exemple.

Vous trouverez d’autres conseils, par exemple pour gérer les données manquantes, ou encore les dates,  dans mon article “12 conseils pour organiser efficacement vos données dans un tableur “.

organiser les données dans un fichier

 

 

 

Bien sûr, certain type de données, comme des chaînes de caractères ou des textes ne peuvent pas se structurer comme cela.

A mes yeux, ces quatre étapes (projet R, structuration du projet R, utilisation de R markdown et mise en forme des données) représentent le noyau minimal des éléments à mettre en place avant toute analyse de données.

Mais si vous voulez être encore plus efficace, je vous propose de suivre trois étapes supplémentaires.

 

 

5. Modifier les options par défaut de R Studio

Il s’agit simplement de vous rendre l’utilisation de R Studio plus agréable. Par exemple, de nombreuses personnes (dont je fais partie) préfèrent travailler avec un fond d’écran sombre plutôt que clair. Certains encore préfèrent augmenter la taille de la police.

Pour faire ces modifications : Tools –> Global options –> Appearance

écran noir R Studio

 

 

 

6. Installer git pour versionner les scripts en R markdown

Pour s’organiser davantage, et ne pas avoir un dossier de travail saturé de différentes versions d’un même script (en R markdown !) il est possible de faire du versionnage depuis R Studio, avec git.

 

versionnage avec git

 

En pratique cela veut dire que vous allez pouvoir faire comme un cliché de votre script, à n’importe quel moment ( à la fin de votre séance de travail, ou avant une grosse modification par exemple). Vous devez accompagner ce “cliché”, que l’on appelle “commit” d’un message explicatif (destiné à vous même).

versionnage logicile R R studio

 

git avec R

La version du script va alors être archivée, vous pourrez y avoir accès, depuis l’interface de R Studio, et vous repérer parmi les différentes versions grâce au message que vous aurez ajouté.

Et puis surtout, vous pourrez visualiser très rapidement les modifications que vous avez réalisé entre deux versions :

visualisation des modifications de code

Pour plus de détails sur l’installation de git et le versionnage de vosvscripts, consultez l’articleVersionnage de vos scripts avec RStudio + Git

 

 

 

7. Utiliser un outil de références bibliographiques

C’est un processus que je ne fais pas toujours, loin de là, mais dans certaines situations, c’est vraiment chouette, et professionnel de pouvoir insérer des références bibliographiques propres dans un rapport d’analyse.

Pour cela, vous pouvez utiliser Mendeley. L’approche est assez simple à mettre en oeuvre, elle consiste à :

  • Créer, dans Mendeley, un dossier spécifique à votre étude qui contiendra les références bibliographiques que vous souhaitez utiliser.
  • Exporter ces références bibliographique dans un fichier au format .bib.
  • Utiliser ce fichier .bib dans l’entête de votre script en R markdown.

 

reférences bibliographiques avec R

 

  • Citer la référence bibliographique souhaitée en utilisant la synthaxe [@Citation Key]. Par exemple, si dans le champs Citation Key de Mendeley, votre référence est notée Ritz2015, il faudra utiliser [@Ritz2015]

mendeley logiciel R

 

ref biblio

 

Voici ce que ça donne :

 

ref biblio R Mendeley citation

 

Pour plus de détails, vous pouvez consulter mon article ” Comment insérer des références bibliographiques dans un document R markdown

références bibliographique dans r mardown

 

Excepté l’étape des références bibliographiques, j’utilise les sept autres au quotidien pour organiser mon flux de travail sous R. Dites moi en commentaire ce que vous en pensez. Et si vous avez d’autres habitudes, ou d’autres astuces qui vous aide à organiser votre travail d’analyse ou de développement de code sous R, partagez les avec les autres lecteurs du blog 😉

 

Crédits photos : 3dman_eu

 

Partager l'article
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

3 commentaires

  1. Yimbi Mvuka Adam Répondre

    ces fiches d’organisations ont ete tres importantes pour moi et je vous en remercie.

    • AGBOKPANZO Répondre

      Bonjour. Merci beaucoup pour cet article. C’est très édifiant. Cependant, j’ai un problème d’importation de mes données sous Rstudio. Je veux l’importer par l’environnent (import Database) fichier excel mais il refuse. Veuillez m’aider.

      • Claire Della Vedova Auteur de l’articleRépondre

        Bonsoir,

        essayer de passer par un fichier csv.
        Bonne continuation.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *