Le Data Engineering est un maillon clé des projets Data : on peut observer aujourd’hui dans la tech que le métier de Data Engineer a supplanté le très prisé métier de Data Scientist.
Il est établi que la donnée est l’or noir du 21e siècle, mais avant de le raffiner il faut l’extraire, le transporter et l’acheminer jusqu’à son usine de traitement. C’est là qu’intervient le Data Engineer : sans les étapes essentielles de Data Engineering, les projets ne peuvent se concrétiser.
En 2017, Maxime Beauchemin, l’un des premiers Data Engineer chez Facebook et Airbnb, publiait un article, The rise of the Data Engineer, sur l’émergence de ce nouveau métier. Il mettait en lumière ce travail de l’ombre indispensable à la bonne réalisation des initiatives data.
Une transformation progressive s’appuyant sur les services cloud et Modern Data Platforms
Aujourd’hui, l’émergence et la maturité des services cloud a profondément transformé le paysage IT et contribué à la disparition du traditionnel DBA (administrateur de base de données). Avec des services full SaaS, élastiques et gérés directement par les cloud providers (Snowflake, Google Big Query, Azure Synapse, Databricks…), le paramétrage, le tuning et les développements sont aujourd’hui gérés par les Data Engineers.
Cette profonde mutation a été rendue possible par la montée en puissance des services cloud. L’apparition de nouvelles solutions totalement ou partiellement automatisées a facilité la mise en œuvre des chaines de traitements et agilisé la production de données. Le besoin d’accessibilité et de fraicheur de l’information étant devenus des éléments essentiels, la modernisation des infrastructures IT est devenue une priorité pour répondre aux besoins métiers. Le déploiement de nouvelles plateformes de données, les Modern Data Stack, est le sujet stratégique IT du moment.
Modern Data Stack
Ces Modern Data Platform sont caractérisées par 3 principales briques :
Une plateforme cloud, datawarehouse/datalake pour bénéficier des performances, de la flexibilité et des capacités de stockage étendu ;
Une solution de traitement et transformation des données pour mettre à disposition des datasets qualifiés ;
Une solution analytics orientée self-service pour donner une plus grande autonomie aux utilisateurs métiers.
Auxquelles se rajoutent une couche transverse de gouvernance de l’information essentielle pour gérer le patrimoine informationnel.
L’un des points de transformation majeure de ces architectures modernes est la possibilité de traiter les données quelle que soit leur origine – aussi bien on-premise que dans le cloud – et de gérer des flux de données au sein d’architectures hybrides.
Grâce au renforcement des services managés et la migration des bases de données et datawarehouse dans le cloud, la problématique de stockage n’est plus un sujet. Les capacités de calcul sont potentiellement devenues illimitées. Il n‘est donc plus nécessaire de retraiter la donnée en amont.
La majorité des processus de traitement de données est passée du mode ETL (Extract-Transform-Load) au mode ELT. D’une part, ce changement permet de s’affranchir des problématiques business avant la phase d’extraction et chargement en base ; d’autre part, de ne pas limiter les cas d’usages qui pourraient voir le jour. Les données brutes étant à disposition, il est alors possible de les exploiter, de les combiner à des données tierces et de les croiser pour en tirer un maximum de valeur business.
Vers l’émergence de l’Analytics Engineer
Ce besoin de vitesse et d’adaptation rapide aux besoins métiers met en lumière ce travail de l’ombre faisant du profil de Data Engineer l’un des plus prisés actuellement. Il a la capacité de gérer les flux de données, jusqu’à la production d’insights exploitables par les utilisateurs métiers avec un rôle étendu d’Analytics Engineer.
À ce titre, l’Analytics Engineer est une évolution naturelle du Data Engineer, due à la multiplicité des rôles et responsabilités prises par ces derniers, drivée par le développement des Data Platform, services managés et besoins de vitesse demandés par le business. Les Data Engineers ne peuvent plus se cantonner au développement de pipelines de données et la préparation des datasets pour les équipes analytiques.
Désormais intégrés au sein de Data Factories, ils œuvrent dans des squads multidisciplinaires responsables des données qu’ils traitent et produisent. Ces squads sont souvent organisés par domaines métiers – à l’inverse d’une équipe centrale en charge de l’ensemble des données de l’entreprise. Lorsque les données sont partagées entre les entités de l’entreprise et exposées à une plus grande échelle, il est nécessaire d’avoir une bonne connaissance des données manipulées. Cela nécessite une rigueur et méthodologie propres à la fourniture d’APIs, mais aussi d’accompagnement au changement et de structuration des organisations pour mieux répondre aux besoins de fourniture de services data.
En conclusion
Traiter la donnée comme un produit (data as product) est donc devenu une cible de plus en plus recherchée. Cette transformation data-driven devient un enjeu stratégique de nos clients. Comment accompagner le passage à l’échelle et l’industrialisation des processus de Data Engineering et servir les besoins d’informations pour l’ensemble de l’entreprise ? Comment déployer et opérer une Data Factory pour servir les besoins business ? Ces questions auxquelles nous sommes régulièrement confrontés sont cruciales ; nous aurons l’occasion de vous en reparler prochainement à travers nos retours d’expériences.
Vous souhaitez en savoir plus ?
Rédigé par Julien Ayral, Directeur département Data Driven