Les trois raisons pour lesquelles vous ne devriez effectuer vos transformations de données qu'après leur chargement.
Par Juliette Guin, Experte en data integration chez Fivetran
Historiquement, le processus ETL (Extract-Transform-Load) était le plus logique pour la transformation des données, car les coûts de stockage des calculs et de la bande passante étaient tous deux élevés - et transformer vos données avant de les charger dans le data warehouse permettait de réduire ces deux coûts. Cependant, au cours des 10 dernières années, les data warehouses en cloud, tels que Snowflake, Amazon Redshift et Google BigQuery, sont devenus omniprésents, réduisant les coûts de stockage et augmentant la puissance de traitement de manière exponentielle. Le stockage des données brutes dans les data warehouse n'est donc plus une préoccupation majeure, et il est possible de transformer les données après leur chargement, plutôt qu'avant. Connu sous le nom d'ELT (Extract-Load-Transform), ce processus de transformation des données après chargement présente un certain nombre d'avantages par rapport à l'ETL traditionnel.
- Des temps de transformation plus rapides
Dans une enquête récente, les professionnels des données ont indiqué qu'ils consacraient en moyenne 45% de leur temps à la préparation des données (chargement et nettoyage) avant de pouvoir les utiliser pour développer des modèles et des visualisations. Non seulement cela demande énormément de temps et de ressources aux ingénieurs de l'équipe data d'une entreprise, mais cela signifie également qu'il faut plus de temps pour tirer profit des données. L'ELT peut aider les entreprises à devenir plus efficaces dans leurs processus de données et à réduire le temps nécessaire à la transformation des données en transformant les données dans un data warehouse en cloud après leur chargement. Parmi les gains d'efficacité réalisés : des temps de chargement et de transformation plus rapides, des délais d'exécution plus courts et moins de demandes de la part des ingénieurs.
- Un accès permanent aux données brutes
L'une des principales différences entre l'ETL et l'ELT est l'endroit où les données brutes sont stockées. Dans l'ETL, les données brutes restent stockées dans le système de production d'où elles proviennent. Les données brutes copiées à partir de cette source de production sont ensuite transformées d'un schéma normalisé en un schéma dimensionnel. Ainsi, les données chargées dans le système de destination ne sont plus les mêmes que les données brutes initialement copiées à partir du système de production. Dans le cadre des ELT, les données brutes du système de production sont copiées et chargées directement dans le système de destination avant d'être transformées. Ceci est important pour un certain nombre de raisons : une source de vérité vérifiable, la réduction du temps nécessaire à l'exploitation des données pour obtenir des informations et l’élimination de la nécessité de réapprovisionner les données.
- Une plus grande flexibilité
L'un des aspects de l'analyse des données est qu'il est souvent nécessaire d'exploiter la même source de données à des fins différentes. Cependant, en ce qui concerne l'ETL, lorsque vos besoins en matière de requêtes changent, vous devez reconstruire vos pipelines ETL. Cela peut être coûteux, prendre du temps et nécessiter une expertise en ingénierie des données. Avec l'ELT, les données brutes étant déjà chargées dans le système de destination, un analyste de données peut créer les requêtes en temps réel sans ressources d'ingénierie. Cela vous permet d'économiser du temps et des coûts de réingénierie et vous donne plus de flexibilité pour interroger les données brutes autant de fois que vous le souhaitez. En outre, le processus ELT permet d'automatiser les pipelines de données. Cela permet non seulement de réduire le temps consacré à l'ingénierie des données pour créer des pipelines personnalisés, mais aussi pour les maintenir. De plus, l'ensemble du processus - de l'extraction à la transformation en passant par le chargement - peut être réalisé par un analyste de données plutôt que par un ingénieur.
Les ELT est l'avenir des données
Les ELT simplifient l'intégration des données, réduisent les taux d'échec, permettent une mise à l'échelle flexible et déplacent le processus de transformation vers la base de données, où il est possible d'appliquer des compétences telles que le langage SQL pour réaliser la transformation des données. Tout cela pour dire que les ELT sont un processus de pipeline de données plus simple, plus rapide et plus abordable - et la meilleure option pour la grande majorité des organisations qui cherchent à obtenir plus rapidement des informations plus précieuses et exploitables à partir de leurs données.