Par Irina Slavitch, Experte en data integration chez Fivetran
Les data marts, des data warehouses miniatures et spécialisés ?
Nous entendons de plus en plus souvent le terme de « data mart », mais qu’est-ce ? Il s’agit de sous-ensembles des data warehouses, destinés à être consultés par des utilisateurs de secteurs d'activité ou d'équipes spécifiques. Comme les data warehouses, les data marts soutiennent les décisions prises par les utilisateurs. Les data marts sont également conçus pour s'intégrer facilement aux plateformes de business intelligence, permettant aux analystes de créer rapidement des rapports et des tableaux de bord. Contrairement aux data warehouses, les data marts ne sont pas exhaustifs. Ils n'incluent pas toutes les données d'une organisation. Ils incluent une combinaison de modèles de données finis, prêts à être analysés, et de sélections de données brutes.
Traditionnellement, les data marts étaient physiquement séparés des data warehouses. Ils pouvaient être construits de manière descendante, en transférant les modèles de données d'un data warehouse d'entreprise unique vers des machines distinctes auxquelles des secteurs d'activité spécifiques pouvaient accéder. Ils pouvaient également être construits de manière ascendante en combinant les data warehouses des différentes unités commerciales en un seul data warehouse à l'échelle de l'entreprise. Cette définition prévalait avant l'émergence du cloud et est aujourd'hui dépassée.
Comment utiliser un data mart
Le concept moderne de data mart est une structure organisationnelle au sein d'un data warehouse. L'objectif d'un data mart est de compartimenter les analyses pour faciliter la tâche d'équipes et d'unités commerciales spécifiques. À mesure que les organisations se développent, que les modèles de données deviennent plus complexes et que les équipes se spécialisent, il devient plus important de conserver les données pour des utilisateurs spécifiques. Plus précisément, la conservation et la compartimentation des données permettent à une organisation de gérer les accès et les permissions, d'éviter de surcharger les analystes et autres utilisateurs finaux en proposant un ensemble de modèles de données plus faciles à rechercher et à parcourir, de faciliter la gestion des modèles de données en les organisant de manière hiérarchique.
Traditionnellement, les data marts étaient des machines distinctes qui contenaient de petites tables de moins de 100 000 lignes et étaient complètement cloisonnées. L'approche moderne se déroule sur un data warehouse unique basé sur le cloud et implique la construction de modèles de données logiques, tels que des vues matérialisées. Associée à des pratiques rigoureuses de gouvernance des données, cette approche plus simple et plus flexible ne nécessite pas de machines distinctes, permet des niveaux d'accès distincts selon les besoins et tire parti de l'évolutivité d'un data warehouse basé sur le cloud.
Selon la façon dont une organisation met en œuvre sa technologie et organise son équipe d'analystes, les spécificités de la propriété et de l'accès à un data mart peuvent varier. Dans certains cas, les équipes et les unités commerciales peuvent être entièrement responsables de leurs propres data marts, et les data marts peuvent effectivement être cloisonnés. Dans d'autres cas, les frontières et l'accès peuvent être plus lâches.
Combiner un data mart avec un data warehouse
Bien que les data marts tels que définis traditionnellement soient obsolètes, l'approche moderne consistant à utiliser des vues matérialisées pour diviser vos données en modèles destinés à des équipes et des unités commerciales spécifiques reste précieuse. Un data stack simple combinant des data marts et un data warehouse pourrait ressembler les sources, le pipeline de données, les data warehouses, les data marts et l’outil de veille stratégique. Votre configuration exacte dépendra de votre cas d'utilisation précis, de la taille et de la composition de votre entreprise, ainsi que des compétences de vos analystes et ingénieurs.
Les data warehouse, les data marts et les data lakes sont tous des destinations pour la centralisation des données. Ils constituent le pilier du modern data stack, un ensemble d'outils et de technologies utilisés pour mettre à disposition des données provenant de sources disparates sur une plateforme unique. Ces activités sont collectivement connues sous le nom d'intégration de données.