Après avoir vu des troncs d’arbre dans notre dernier article, allons visiter des entrepôts et des lacs.
Vous avez une idée de ce dont je vais vous parler ?
Il s’agit des concepts de « data lake » et de « data warehouse », signifiant « lac de données » et « entrepôt de données » respectivement. Ces concepts ont été créés pour imager le stockage de vos données dans un système de business intelligence.
Mise en application
Vous avez déjà en tête les rapports que vous voulez mettre en place, et vous avez déjà une idée fixe (wouaf !) d’où se trouvent les données nécessaires à la réalisation de ces rapports. Maintenant que vous avez décidé de votre port d’arrivée, il vous faut préparer votre vaisseau (le logiciel de business intelligence) et amener la cargaison (les données) à bon port.
Vous pouvez réaliser votre voyage en plusieurs étapes :
- transporter de la canne à sucre ;
- faire un premier arrêt pour échanger cette denrée contre un ou plusieurs produits transformés comme le sucre roux / blond / blanc ;
- amener cette marchandise à un autre point pour à nouveau l’échanger contre un produit fini comme du soda ;
- pour enfin arriver à destination et livrer un produit entièrement fini.

Il en va de même pour vos rapports : vous pouvez directement réaliser vos rapports avec vos données brutes en augmentant au fur et à mesure la quantité d’informations, et réaliser le même travail en plusieurs étapes. Ces étapes nécessitent, après chaque groupe de transformation, d’être stockées pour les utiliser ultérieurement.
Le stockage de l’information se fait toujours de la même façon : cela se trouvera sur un disque dur, que ce soit une base de données ou des fichiers. Les concepts que je vais utiliser se baseront sur la manière de les enregistrer, et non de leur support d’utilisation.
Des lacs ? Des entrepôts ? Non, du stockage d’informations !
L’utilité de connaître ces concepts est de vous faciliter le travail pour la préparation des données en amont de vos rapports d’analyse de données. Ces deux concepts sont relativement différents, mais peuvent être coexistant.
Tout d’abord, le « data lake » ou lac de données :
- Etat de l’information : brute
- Objectif du stockage : maquettage de nouveaux rapports
- Utilisateurs de la donnée : expert en données
- Accessibilité : facile, mises à jour rapide

Le but de ce principe est de réaliser le stockage d’une copie brute des données d’une partie de vos SI. En agissant de cette manière, vous réaliserez d’une part que vous déchargerez vos logiciels des accès trop nombreux qui peuvent polluer / ralentir vos SI. D’autre part, en ayant une copie des données de plusieurs SI accessibles directement au même endroit, il vous sera plus simple de détecter des liens possibles entre vos Systèmes d’Informations.
Et enfin le « data warehouse » ou l’entrepôt de données :
- Etat de l’information : transformée
- Objectif du stockage : utiliser des données en self-service
- Utilisateurs de la donnée : utilisateurs métier, spécialistes
- Accessibilité : modification plus lente et plus coûteuse

Ce principe a pour objectif le stockage des données de façon à ce qu’elles soient directement utilisables et compréhensibles par les utilisateurs métiers. Cette façon de faire facilite beaucoup l’utilisation des données, qui dans leur état brut, peuvent en rebuter plus d’un car leur nom technique, leur manière d’être stocker dans un SI change selon les développeurs en charge de l’application.
Quel principe choisir ?
Après la lecture du précédent paragraphe, vous devez faire un choix : lequel des 2 concepts mettre en place ?
La réponse est simple : Quelque part à mi-chemin entre les deux.
Je m’explique :
- Tant pour les développeurs, il est utile d’avoir une pile d’informations brutes dans laquelle ils peuvent piocher à loisir, sans avoir à demander l’accès à de nouvelles informations provenant des SI.
- Tant à partir de cette pile (le data lake), les développeurs d’outils de business intelligence construiront au fur et à mesure des data warehouse pour permettre aux utilisateurs métier d’avoir accès à une donnée de qualité, vérifiée et dénuée d’erreur au possible.
Le stockage de l’information est tout aussi important que son affichage : on perd plus souvent du temps à récupérer et à transformer de l’information qu’à l’analyser.
Il vaut mieux avoir des données facilement accessibles et n’afficher qu’un simple tableau, que de chercher ces informations à 3 endroits différents et passer plusieurs heures à les rassembler pour afficher les plus beaux visuels du monde.
Ou retrouvez nos autres articles de la série La BI dans tous ses états.

Ensemble, mettons les données au coeur de votre stratégie, pour des politiques durables et performantes.