« Avec l’avènement du Cloud, le concept de data warehouse évolue pour devenir une solution qui cumule ses avantages avec ceux du data lake : le data lakehouse »
Les termes « data lake » et « data warehouse » sont fréquemment confondus, pourtant ils n’ont pas le même usage :
- Un data lake est un vaste réservoir dans lequel sont déversées des données brutes dont l’utilisation n’a pas encore été définie. Il prend aujourd’hui la forme d’un conteneur logique dans le Cloud à prix avantageux, dans lequel il est très facile de manipuler l’information.
- En revanche, même si des données y sont stockées, un data warehouse répond à une logique de transformation, de manipulation et de modélisation de données. Il vise donc des données structurées et filtrées, transformées dans un objectif de reporting.
Ces deux types de stockage de données présentent donc bien plus de différences que de ressemblances, leur seule véritable similitude réside dans leur capacité à stocker des données. Mais il faut noter que la notion de data warehouse est historiquement basée sur des technologies On Premise, avec d’abord un déversement des données puis un traitement à postériori. Avec l’avènement du Cloud, le concept de data warehouse évolue pour devenir une solution qui cumule ses avantages avec ceux du data lake : le data lakehouse. De fait, l’opposition data lake vs data warehouse n’a plus lieu d’être.
Sur quoi repose le principe de data lakehouse ?
Imaginez un système qui combine la flexibilité économique d’un data lake et la puissance analytique d’un data warehouse. C’est la promesse du data lakehouse, une architecture qui repose sur une conception ouverte, en intégrant directement les structures et fonctionnalités de gestion des données dans un stockage économique de type data lake. Cette architecture est dite « en médaillon », et se compose de plusieurs niveaux : bronze pour les données brutes, argent pour les données nettoyées et normalisées, et or pour les données agrégées, recettées et validées.
En résumé, le principe de data lakehouse revient à déverser et stocker les données, à les traiter, les agréger et les présenter, le tout au même endroit. C’est l’approche la plus efficiente aujourd’hui, notamment pour deux raisons :
- La première est le stockage et son coût avec une approche Saas, il s’agit donc d’un service et plus d’une infrastructure. Si nous prenons l’exemple de Snowflake, les manipulations de données deviennent très faciles car il n’y a que des conteneurs logiques, avec une latence quasi nulle.
- La seconde raison est la scalabilité offerte par le Cloud, ce qui permet d’avoir à disposition un très grand nombre d’informations, il ne reste plus qu’à les combiner. Il n’y a de fait plus de frein à la récupération de la donnée.
Quels sont les avantages spécifiques apportés par la data lakehouse ?
Il ne faut pas voir dans le data lakehouse une technologie de remplacement du data warehouse, mais plutôt une évolution ou une transformation de ce dernier, appliquée à une architecture « data Cloud » flexible et moderne. Avec une approche data lakehouse, il devient ainsi possible de se connecter directement sur les données brutes (niveau bronze) pour faire du contrôle et de l’échantillonnage, sur les données normalisées (niveau argent) pour visualiser des tendances et gérer des indicateurs, et enfin sur les données agrégées (niveau or) pour obtenir des tableaux de bord et faire du reporting décisionnel. A n’importe quel moment et dans n’importe quel ordre. Cette approche est totalement agnostique au type d’ERP utilisé, aux solutions connectées, à la quantité et à la complexité des données, aux types de flux… Qui plus est, avec cette démarche de services (solutions Saas et Cloud), les avantages apportés par un data lakehouse peuvent profiter à toutes les typologies d’entreprises, même les plus modestes.
Les solutions sont ici très faciles à déployer, très flexibles et agiles. Mettre en œuvre un PoC (Proof of Concept) devient alors très aisé, et permet de réduire grandement les temps de projet : comptez 5 jours avec un data lakehouse contre 6 mois avec un data warehouse !
Comment mettre en œuvre un data lakehouse ?
Un data lakehouse s’appuie sur deux solutions qui sont essentielles.
La première solution est un data lake du type Snowflake qui permet un stockage rapide et efficace, le partitionnage, le système logique, des coûts d’exploitation faibles… Pour rappel, Snowflake est une solution data entièrement basée sur le Cloud. A travers un entrepôt de données en mode SaaS, Snowflake propose d’éliminer la gestion manuelle, le déploiement et la configuration d’un logiciel ou de matériels. Les tarifs sont basés sur la consommation des utilisateurs, les clients payent donc la quantité de données et de capacités de calcul qu’ils utilisent.
La deuxième solution est représentée par un middleware de gestion et de traitement de données qui va permettre d’initier une stratégie de gouvernance. Ainsi tous les flux sont gérés par un seul et même middleware, qu’il s’agisse de gestion et de transformation, y compris pour les flux d’interfaces inter-applicatifs. C’est ce que propose Talend, avec notamment Talend Cloud, une plateforme logicielle unifiée qui permet de piloter la qualité, la préparation, l’intégration ou encore la gouvernance des données. Elle vise donc un large panel de professionnels : de la DSI jusqu’à l’utilisateur non spécialiste, notamment grâce à une console web conviviale et Low Code.
TVH Consulting a développé un partenariat stratégique avec Talend depuis déjà plus de 10 ans. Nous sommes d’ailleurs Gold Partner et comptons à ce jour des dizaines d’implémentations.
Expert de la Data, je dirige la BU Data pour aider nos clients à relever les challenges modernes de la gestion de leurs données. Je participe aux projets que nous menons pour garantir le succès d’une bonne stratégie Data.
TVH Consulting
Partenaire de référénce des éditeurs Microsoft, SAP et Talend, le groupe TVH Consulting est intégrateur expert de solutions ERP, Data, BI, CRM et Cybersécurité avec plus de 400 collaborateurs qui s’engagent sur 100% de réussite des projets IT.
Ces contenus pourraient vous intéresser :
Pour en savoir plus sur les contenus et outils de Business Intelligence, visitez le site :
Contact
22, rue Guynemer – B.P. 112
78 601 Maisons-Laffitte Cedex
- +33 (0)1 34 93 17 27
- +33 (0)1 34 93 49 49
- infos@tvhconsulting.com