A la découverte des statistiques européennes d’Eurostat

logiciel R

La semaine dernière, j’ai découvert la base de données de l’office statistique de l’Union Européenne : Eurostat. Cette agence a pour mission de fournir, en accès libre, des statistiques validées et harmonisées (autrement dit comparables d’un pays à l’autre) sur l’Europe. Je connaissais cette agence de nom, mais je n’avais encore jamais consulté sa base de données.Et j’ai trouvé ça vraiment intéressant !

D’autant plus, que j’ai aussi découvert qu’il existe un package, également nommé “eurostat” (développé par Leo Lahti et al.), qui propose un certain nombre d’outils pour faciliter l’analyse de ces données statistiques.

Je vous propose donc de découvrir la base de données Eurostat et comment l’analyser avec le package eurostat.

1. La base de données Eurostat

La base de données est accessible gratuitement ici :

On retrouve alors un arbre de navigation organisé sous la forme de Tableaux et d’une base de données. Les tableaux contiennent seulement une sélection des données présentent dans la base, qui elle contient l’ensemble des données rendues publiques par Eurostats.

data eurostat R

 

En allant dans le détail de l’arbre de navigation, on a alors accès aux fichiers de données disponibles ( en cliquant sur l’icône zip).

logiciel r statistiques européennes

 

En cliquant sur le premier icône, on a accès à une représentation des données sous la forme d’un tableau. Ici par exemple pour la ligne “Captures dans toutes les régions de pêche
(tag00076) ” :

stat européennes R logiciel

 

D’autres infos sont disponibles à partir des onglets graphiques et carte.

 

Comme mentionné précédemment, en cliquant sur l‘icone Zip, il est possible de télécharger les données. Celle-ci sont au format.tsv. Pour celles et ceux que ce format inquiéterait, pas de panique, on peut charger directement les fichiers dans R à l’aide du package eurostat (sans se soucier du format) !

 

2. Le package eurostat

Le package eurostat dispose d’une feuille aide mémoire disponible sur la page cheatsheet de R Studio .

 

2.1 Installation

Le package s’installe à partir de CRAN, en utilisant l’outil d’installation de R Studio :

package eurostat

 

 

2.2 Recherche des jeux de données par mot-clé

Le package eurostat permet de chercher des jeux de données dans la base d’Eurostat en employant la fonction search_eurostat(). Ici nous allons chercher les jeux de données correspondant au mot-clé “fish”

 

Trois fichiers sont disponibles. Pour avoir une meilleure visibilité, je vous conseille de visualiser le data frame contenant la recherche en double cliquant sur l’objet crée, dans la partie Data de la fenêtre en haut à droite :

statistiques et logiciel r

 

Cela permet d’ouvrir un tableur, comme dans Excel ! Vous pourrez d’ailleurs appliquer un filtre, ou trier les variables par ordre alphabétique, ou par ordre croissant :

logiciel r statistiques européennes eurostat

 

 

2.3 Charger un jeu de données :

Pour charger un jeu de données, il suffit alors d’utiliser la fonction get_eurostat(), en spécifiant dans l’argument id, le code du fichier désiré. Par exemple, pour le fichier “Catches in all fishing regions” :

 

Le jeu de données est alors chargé en format long. Sur le site d’Eurostat, il y avait une colonne par année. Dans le jeu de données chargé, les données des différentes années sont les unes sous les autres, et une nouvelle colonne “time” a été créée. Pur plus d’info sur le format long, vous pouvez consulter cet article :

Pourquoi en format long ? Parce que c’est plus pratique pour manipuler les données avec le package dplyr et les visualiser avec le package ggplot2.

2.4 Ajouter des labels :

Grace à la fonction label_eurostat(), vous pouvez rendre certaines modalités de variables plus intelligibles :

Ici par exemple la variable geo contient à présent les noms entier des pays.

 

2.5 Manipulation avec le package dplyr

Par exemple, si je veux calculer la moyenne des pêches pour chaque pays, entre 2006 et 2017, et les ordonner de la plus grande à la plus petite:

 

Ou encore, si je veux conserver uniquement les données de la France :

 

Pour plus d’exemples de manipulation avec le package dplyr, consultez cet article.

2.6 : Visualisation

Par exemple, pour représenter l’évolution, dans le temps, des prises des 5 pays estimés comme étant les plus gros pécheurs :

 

visualisation eurostat

2.7 Cartographie

Le package propose également des fonctions pour réaliser des cartographies. Voici un exemple tiré de la vignette du package :

 

 

cartographie logiciel R

3.Pour aller plus loin :

Vous trouverez d’autres informations, pour aller plus loin dans l’exploitation des données d’Eurostat avec le package eurostat, en consultant :

 

J’espère que cet article vous donnera envie d’aller jeter un coup d’œil sur les données européennes disponibles dans la base de données d’Eurostat. Mais aussi que la simplicité d’utilisation du package eurostat vous donnera envie de les regarder d’encore plus près !

Et si cet article vous a plu, n’oubliez pas de le partager 😉

 

Crédit photo : openclipart.

Prolongez votre lecture :

 

Partager l'article
  •  
  •  
  •  
  •  
  •  
    16
    Partages
  • 16
  •  
  •  
  •  
  •  

1 Commentaire

  1. Dany OTRON Répondre

    Bonjour Claire,
    Merci de nous permettre d’enrichir nos connaissance. Article très informatif.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *