Le nouvelle enquête mondiale "State of Data Management Report" menée par Wakefield Research auprès de 300 dirigeants dans le domaine des données et de l'analyse, présente un résultat de premier plan frappant : les Data Engineers en entreprise passent près de la moitié de leur temps à construire et à maintenir des pipelines de données. Il s'agit d'un investissement substantiel, les répondants faisant état d'une médiane de 12 Data Engineers qui consacrent 44% de leur temps à l'ETL (Extraction, transformation, chargement). Le coût total moyen ? 520 000 dollars par entreprise et par an.
Cette allocation de ressources pourrait avoir du sens si :
- Les résultats de la gestion des données et de l'analyse étaient optimaux
- C'était le seul moyen pour les Data Engineers de créer de la valeur
Cependant, comme l'a constaté Wakefield Research dans son enquête, aucune de ces conditions ne se vérifie.
Données problématiques, mauvaises décisions
De nombreux responsables des données et de l'analyse ont indiqué à Wakefield que leurs pipelines de données gérés manuellement n'étaient pas fiables et produisaient des données sujettes à erreur, et que ces problèmes entraînaient de mauvaises décisions. Plus précisément :
- 71% des personnes interrogées ont déclaré que les utilisateurs finaux prenaient des décisions commerciales sur la base de données anciennes ou sujettes à erreur.
- 85% ont déclaré que leurs entreprises avaient pris de mauvaises décisions coûteuses.
- 66% ont déclaré que la direction de leur entreprise n'était pas au fait de cette situation.
« Ce serait une chose si les processus utilisés par les entreprises pour construire et gérer manuellement les pipelines étaient optimisés », note George Fraser, PDG de Fivetran, mais 80% des personnes interrogées admettent devoir reconstruire les pipelines de données après le déploiement - en raison d'un changement d'interface de programmation (API), par exemple ».
Pour les équipes Data en entreprise, les problèmes ne s'arrêtent pas à l'état douteux des données fournies - les personnes interrogées ont également eu du mal à tirer parti de ces données en temps voulu :
- Seulement 13% ont déclaré être en mesure de retirer de la valeur des données nouvellement collectées en quelques minutes ou quelques heures.
- 76% ont déclaré qu'il fallait plusieurs jours et jusqu'à une semaine pour préparer les données en vue d'une prise de décision impactant le chiffre d'affaires, dont 74% des entreprises ayant un chiffre d'affaires supérieur à 500 millions de dollars.
Le coût d'opportunité élevé des pipelines DIY
Les responsables des données et de l'analytique comprennent aussi clairement le coût d'opportunité élevé des pipelines - les construire et les maintenir en interne signifie que les Data Engineers ont beaucoup moins de temps pour créer des modèles de données avancés ou permettre des analyses sophistiquées.
Cela peut signifier que les décisions de l'entreprise ne sont pas basées sur les informations les plus puissantes ou les plus pertinentes, et que les résultats de l'entreprise en souffrent. En effet, le rapport "The State of Data Management Report" note que :
- 69% des responsables des données et de l'analytique ont déclaré que les résultats commerciaux s'amélioreraient si leurs équipes de données pouvaient contribuer davantage aux décisions commerciales et passer moins de temps à la gestion manuelle du pipeline.
- 97% ont déclaré que les résultats commerciaux s'amélioreraient si leurs équipes chargées des données pouvaient consacrer plus de temps à l'analyse des décisions commerciales fondées sur les données.
Envisagez les ETL (Extraction, transformation, chargement) automatisés
Le rapport Fivetran sur l'état de la gestion des données vaut la peine d'être lu dans son intégralité. Il comprend des informations sur l'impact des pipelines de données bricolés sur l'agilité de l'entreprise, le défi de la formation de nouveaux ingénieurs et la difficulté d'augmenter la production de pipelines de données à un coût raisonnable.