Connexion

Connexion à votre compte

Identifiant
Mot de passe
Maintenir la connexion active sur ce site

Dataviz & Open Data

Créer de belles visualisations avec des données ouvertes.

phases OpenData petit

       La Collecte               le Traitement                     la Présentation

Les tableaux de bord présentés ci-dessous ont été conçus avec des chiffres publics sur le chômage et l'emploi en France. Ils se veulent représentatifs de la situation de l'emploi en Europe et en France sur la dernière décennie. Cet article vous présente les étapes nécessaires pour produire ces visualisations.

Le processus général pour arriver à ce type de réalisation se découpe en trois étapes : la collecte et le traitement des données puis la conception des formats de visualisation. Le cœur du travail consiste à structurer la donnée pour en tirer des représentations porteuses de sens.


La collecte des données

La première étape consiste à identifier les jeux de données pertinents puis à collecter les données elles-mêmes. Dans notre cas, les données utilisées sont des données publiques issues d’organismes nationaux (INSEE et Ministère du Travail) et indexées par des sites tels que Data Publica et data.gouv.fr. Les extraits disponibles sur ces sites permettent de juger de la pertinence et du format de ces jeux de données. La plupart sont récupérées soit sous forme de fichier Excel, soit sous forme de fichiers texte. Lors de cette étape, il est important de trier : quelles données sont réellement pertinentes, lesquelles sont des doublons, etc.

Le traitement des données

Après avoir identifié, collecté et trié les données, une phase de traitement intervient afin de fournir des données nettoyées et prêtes à être utilisées à des fins analytiques. Cette phase de traitement est importante car elle permet de tirer le maximum d’information des données en jeu. La plupart des traitements peuvent être réalisé « à la main » avec des outils bureautiques type Excel mais, grâce à des applications performantes tel que l’ETL Talend, le travail est automatisé et peut donc être répliqué et optimisé.

La visualisation des données

Une fois le traitement des données réalisé, la phase de représentation intervient. Pour cela, le logiciel Tableau Public (Tableau Software) est très performant et très ergonomique, bénéficiant d’une prise en main instinctive et intuitive. Les tableaux de bord ci-dessous ont été réalisé en moins de 5 jours. Cette estimation de temps comprend les phases précédemment citées : la sélection, la collecte et le traitement des données. La constitution du dashboard à proprement parler peut être réalisée une journée voire une demi-journée pour un nombre d’indicateurs inférieur à 6.

Ressources

Producteurs de données

Indexeurs de données

  • Data Publica : http://www.data-publica.com/ - Il s’agit à la fois d’un annuaire référençant les données publiques françaises (en service aujourd’hui) et d’un portail de vente des données (disponible au quatrième trimestre 2011)
  • data.gouv.fr : http://www.data.gouv.fr Ce portail unique interministériel est destiné à rassembler et à mettre à disposition librement l'ensemble des informations publiques de l'Etat, de ses établissements publics administratifs et, si elles le souhaitent, des collectivités territoriales et des personnes de droit public ou de droit privé chargées d'une mission de service public.

Solutions décisionnelles