Connexion
/ Inscription
Mon espace
Tribunes & Témoignages
ABONNÉS
Partager par Linked-In
Partager par Xing
Partager par Facebook
Partager par email
Suivez-nous sur feedly

[Tribune] Défis liés aux données : des mainframes au Modern Data Stack

La quantité et la diversité des sources de données rendent le paysage actuel étonnamment hétérogène, ce qui nécessite un nouvel ensemble d'outils.

Par Juliette Guin, Experte en data integration, chez Fivetran

Les sceptiques et les critiques du cloud sont souvent prompts à noter que le cloud computing n'est pas nouveau. Dans les années 1970, les entreprises accédaient couramment aux ordinateurs centraux via des lignes téléphoniques pour partager à distance des ressources informatiques gérées - de la même manière que les services cloud sont partagés aujourd'hui. Mais la surabondance actuelle de données disponibles est unique dans l'histoire de l'humanité, et la gestion des quantités d'informations sans précédent présente des problèmes radicalement différents de ceux rencontrés dans les années 1970.

Pour comprendre le déluge de mégadonnées, considérons qu'en 2020, le Forum économique mondial a estimé que la quantité existante de données équivalait à 44 zettaoctets (ZB). Le WEF a rapporté que les octets dans l'univers numérique étaient plus nombreux que les étoiles dans l'univers observable. La montée en puissance des appareils IoT et d'énormes quantités de données de suivi des consommateurs ont généré une part importante de cette croissance et continueront de contribuer des flots de données dans un avenir prévisible.

Pour que les entreprises découvrent des informations enfouies dans des ensembles de données gargantuesques, puis les partagent entre différentes unités commerciales, elles doivent déplacer ces données vers un emplacement central, les transformer en un état adapté à l'analyse, puis rendre les outils d'analyse disponibles à travers l’entreprise. En bref, ils ont besoin d'un Modern Data Stack (MDS) - un ensemble de technologies natives du cloud pour gérer des ensembles de données importantes et hétérogènes. Bien que les serveurs sur site ne disparaitront pas de sitôt, le cloud et le Modern Data Stack ont le pouvoir de simplifier fondamentalement leur approche de l'analyse de grands ensembles de données.

Ci-dessous, quelques-uns des principaux composants MDS qui aident les Chiefs Data Officer à obtenir des résultats rapidement.

Pipeline de données ELT entièrement géré : Le Modern Data Stack commence par une solution ELT entièrement gérée. La technologie devrait pouvoir centraliser et transformer les données de centaines de sources de données SaaS et sur site vers une destination basée sur le cloud. Les ingénieurs data peuvent connecter de nouvelles sources de données en quelques minutes. Toute modification des schémas de source de données ou des API est gérée automatiquement, en arrière-plan, sans affecter le data flow. Cela permet aux ingénieurs de se concentrer sur des travaux plus percutants, comme la création de nouveaux outils ou modèles d'analyse de données, et permet au CDO de démontrer des résultats significatifs bien plus tôt.

Data warehouse : Ce composant MDS est une plate-forme de données basée sur le cloud qui permet aux organisations de stocker des données de manière cohérente et d'analyser des ensembles de données provenant d'une grande variété de sources en un seul endroit. Certains des meilleurs acteurs incluent Snowflake, Amazon Redshift et Google Big Query. Avant d'en choisir un, vous devez déterminer le type de données, les capacités de sécurité des données, les capacités de gestion et le prix impliqué.
Dans certains cas, lorsque vous avez beaucoup de données non structurées à gérer, un data lake peut être un meilleur choix qu'un data warehouse. À considérer également : un référentiel de données qui présente à la fois les caractéristiques d'un data lake et d'un data warehouse, connu sous le nom de data lakehouse.

Transformation des données : La transformation des données décrit la conversion de données brutes dans des formats qui facilitent leur analyse et leur interprétation. Un choix populaire ici est dbt . Vous aurez besoin d'une solution qui fournit une image claire de la façon dont une transformation affecte les tables et offre également la possibilité de suivre le lignage des données. Les fonctionnalités de contrôle de version et une documentation claire sont essentielles.

Visualisation des données : L'époque où les experts en bases de données étaient les seules personnes responsables de l'interprétation puis de la distribution des données au reste de l'entreprise est révolue depuis longtemps. Les outils modernes de Business Intelligence et de visualisation doivent être accessibles et suffisamment faciles à comprendre pour que les membres de n'importe quel groupe au sein de l'entreprise puissent les utiliser en libre-service.


Le cloud promet une extension infinie et la capacité de gérer des quantités illimitées de données.
Mais pour gérer efficacement ces données et les transformer en informations qui font la différence pour les entreprises, les CDO ont besoin d'une plate-forme capable de gérer l'échelle et la vitesse de ces data flow. Cela signifie utiliser un Modern Data Stack pour raccourcir radicalement le délai de valorisation des données et commencer à utiliser les données pour faire avancer l'entreprise.

 

Lire la suite...


Articles en relation