Ici archive

Le Data Engineering est un maillon clé des projets Data : on peut observer aujourd’hui dans la tech que le métier de Data Engineer a supplanté le très prisé métier de Data Scientist.

Il est établi que la donnée est l’or noir du 21e siècle, mais avant de le raffiner il faut l’extraire, le transporter et l’acheminer jusqu’à son usine de traitement. C’est là qu’intervient le Data Engineer : sans les étapes essentielles de Data Engineering, les projets ne peuvent se concrétiser.

En 2017, Maxime Beauchemin, l’un des premiers Data Engineer chez Facebook et Airbnb, publiait un article, The rise of the Data Engineer, sur l’émergence de ce nouveau métier. Il mettait en lumière ce travail de l’ombre indispensable à la bonne réalisation des initiatives data.

Une transformation progressive s’appuyant sur les services cloud et Modern Data Platforms

Aujourd’hui, l’émergence et la maturité des services cloud a profondément transformé le paysage IT et contribué à la disparition du traditionnel DBA (administrateur de base de données). Avec des services full SaaS, élastiques et gérés directement par les cloud providers (Snowflake, Google Big Query, Azure Synapse, Databricks…), le paramétrage, le tuning et les développements sont aujourd’hui gérés par les Data Engineers.

Cette profonde mutation a été rendue possible par la montée en puissance des services cloud. L’apparition de nouvelles solutions totalement ou partiellement automatisées a facilité la mise en œuvre des chaines de traitements et agilisé la production de données. Le besoin d’accessibilité et de fraicheur de l’information étant devenus des éléments essentiels, la modernisation des infrastructures IT est devenue une priorité pour répondre aux besoins métiers. Le déploiement de nouvelles plateformes de données, les Modern Data Stack, est le sujet stratégique IT du moment.

Modern Data Stack

Ces Modern Data Platform sont caractérisées par 3 principales briques :

  • Une plateforme cloud, datawarehouse/datalake pour bénéficier des performances, de la flexibilité et des capacités de stockage étendu ;
  • Une solution de traitement et transformation des données pour mettre à disposition des datasets qualifiés ;
  • Une solution analytics orientée self-service pour donner une plus grande autonomie aux utilisateurs métiers.

Auxquelles se rajoutent une couche transverse de gouvernance de l’information essentielle pour gérer le patrimoine informationnel.

L’un des points de transformation majeure de ces architectures modernes est la possibilité de traiter les données quelle que soit leur origine – aussi bien on-premise que dans le cloud – et de gérer des flux de données au sein d’architectures hybrides.

Grâce au renforcement des services managés et la migration des bases de données et datawarehouse dans le cloud, la problématique de stockage n’est plus un sujet. Les capacités de calcul sont potentiellement devenues illimitées. Il n‘est donc plus nécessaire de retraiter la donnée en amont.

La majorité des processus de traitement de données est passée du mode ETL (Extract-Transform-Load) au mode ELT. D’une part, ce changement permet de s’affranchir des problématiques business avant la phase d’extraction et chargement en base ; d’autre part, de ne pas limiter les cas d’usages qui pourraient voir le jour. Les données brutes étant à disposition, il est alors possible de les exploiter, de les combiner à des données tierces et de les croiser pour en tirer un maximum de valeur business.

Vers l’émergence de l’Analytics Engineer

Ce besoin de vitesse et d’adaptation rapide aux besoins métiers met en lumière ce travail de l’ombre faisant du profil de Data Engineer l’un des plus prisés actuellement. Il a la capacité de gérer les flux de données, jusqu’à la production d’insights exploitables par les utilisateurs métiers avec un rôle étendu d’Analytics Engineer.

À ce titre, l’Analytics Engineer est une évolution naturelle du Data Engineer, due à la multiplicité des rôles et responsabilités prises par ces derniers, drivée par le développement des Data Platform, services managés et besoins de vitesse demandés par le business. Les Data Engineers ne peuvent plus se cantonner au développement de pipelines de données et la préparation des datasets pour les équipes analytiques.

Désormais intégrés au sein de Data Factories, ils œuvrent dans des squads multidisciplinaires responsables des données qu’ils traitent et produisent. Ces squads sont souvent organisés par domaines métiers – à l’inverse d’une équipe centrale en charge de l’ensemble des données de l’entreprise. Lorsque les données sont partagées entre les entités de l’entreprise et exposées à une plus grande échelle, il est nécessaire d’avoir une bonne connaissance des données manipulées. Cela nécessite une rigueur et méthodologie propres à la fourniture d’APIs, mais aussi d’accompagnement au changement et de structuration des organisations pour mieux répondre aux besoins de fourniture de services data.

En conclusion

Traiter la donnée comme un produit (data as product) est donc devenu une cible de plus en plus recherchée. Cette transformation data-driven devient un enjeu stratégique de nos clients. Comment accompagner le passage à l’échelle et l’industrialisation des processus de Data Engineering et servir les besoins d’informations pour l’ensemble de l’entreprise ? Comment déployer et opérer une Data Factory pour servir les besoins business ? Ces questions auxquelles nous sommes régulièrement confrontés sont cruciales ; nous aurons l’occasion de vous en reparler prochainement à travers nos retours d’expériences.

Vous souhaitez en savoir plus ?

Rédigé par Julien Ayral, Directeur département Data Driven

Presque 6 ans après l’entrée en vigueur de l’accord de Paris sur le climat à la fin de l’année 2016, il reste beaucoup à faire pour que les engagements pris se traduisent en actions concrètes pour limiter le réchauffement climatique et atteindre le “Net Zero” (la neutralité Carbone) en 2050.

Les pays engagés sur cet accord ont décliné leurs engagements en plan d’investissements et réglementations pour mettre la société en mouvement. En Europe, et plus particulièrement en France, cela se traduit par exemple par le décret tertiaire imposant aux entreprises de faire des économies d’énergie dans certains types de bâtiments.

La collecte et valorisation des données est un levier majeur pour identifier, mettre en œuvre et piloter les projets visant à accompagner ces initiatives.

Martin Alteirac, Senior Manager au sein de l’équipe Data Driven chez Saegus, nous éclaire sur la façon dont les données peuvent être mise au service de la transition énergétique.

Comment la data peut-elle contribuer à faciliter et accélérer la transition énergétique ?

William Edwards Deming, célèbre statisticien à l’origine des principes fondateurs de l’amélioration continue, avait pour coutume de dire : “ce qui ne se mesure pas ne s’améliore pas”. Il me semble que cette phrase résume tout. La data a d’abord été un levier utilisé par les scientifiques pour produire les rapports et études ayant provoqué une prise de conscience sociétale et politique. Grâce à ces travaux, le climato-scepticisme a reculé, donnant vie à des initiatives comme celles prises à la suite de l’accord de Paris.

Je suis également persuadé que des initiatives comme Our World in Data contribuent à propager la prise de conscience sur l’urgence écologique. En facilitant l’accès à l’information claire et intelligemment représentée, c’est un véritable levier de mise en mouvement de la société.

Des techniques de visualisation de données avancées ont été utilisées par des organismes comme la NASA pour faciliter l’accès et la compréhension des données rendant compte du réchauffement climatique.

Néanmoins, l’apport de la data dans le domaine de la transition énergétique ne se limite pas à la caractérisation du réchauffement climatique. De nombreuses initiatives y participent en s’appuyant sur l’utilisation et la valorisation des données grâce à des technologies comme l’intelligence artificielle.

Peux-tu nous citer des exemples concrets d’utilisation de la data et/ou de l’intelligence artificielle pour lutter contre le réchauffement climatique ?

Les exemples sont nombreux, que nous pouvons classer en deux catégories.

D’abord, les cas d’usages à “impact direct”, par exemple dans la gestion énergétique. Les grands opérateurs de réseau de transport d’électricité conçoivent les réseaux de demain qui passeront d’un mode distributif (quelques lieux de production, de nombreux lieux de consommation) à collaboratif (l’électricité est produite par de multiples producteurs répartis sur le réseau – installations éoliennes, panneaux photovoltaïques privés – qui sont aussi consommateurs). Il faudra donc être capable de prévoir la production et consommation des points du réseau pour prendre les décisions adaptées pour assurer la répartition de l’énergie. Le pilotage de ces réseaux intelligents ou smart grids sera fait par des algorithmes d’intelligence artificielle intégrant le processus de prise de décision des données externes, comme la météo par exemple.

Ces cas d’usages à impact direct seront cruciaux. Ils devront être complétés par une myriade de cas d’usages à impact indirect qui représenteront des leviers importants.

Celui qui me parait incontournable, car emblématique, est l’optimisation de la Supply Chain. Le transport des biens de consommation, ou des composants nécessaires à leur production, est une source de pollution majeure. Les initiatives innovantes pour réduire les émissions liées à ces activités sont en plein boom : par exemple, la réintroduction de la voile pour propulser les navires de transport de marchandises par des opérateurs maritimes innovants comme Néoline. Pour définir et mettre en œuvre des plans de réduction des émissions polluantes liées à ces activités, la récolte et valorisation des données des entreprises est un impératif.

C’est un chantier d’envergure, les réseaux de production et distribution des biens de consommation s’étant complexifiés et mondialisés. Acquérir une vision fiable des opérations réalisées et émissions liées à ces opérations est donc un challenge. Une fois ce challenge relevé, les techniques de valorisation de données permettront d’optimiser cette logistique.

Quelques exemples :

  • L’optimisation des circuits et tournées de livraison, évitant la consommation inutile de carburants en maximisant le taux de chargement des moyens de transports ou optimisant les distances parcourues ;
  • La fiabilisation de la prévision de la demande, pour produire et stocker le juste niveau de produits nécessaires et éviter les gaspillages ;
  • La gestion et optimisation du trafic sur les réseaux de transports routiers, ferroviaires ou maritimes, conduisant à une meilleure fluidité et efficience globale. À ce titre, la réintroduction de la voile comme moyen de propulsion des navires de transport maritime présentée ci-dessus nécessitera l’inclusion de nouveaux paramètres (direction et force du vent) dans les algorithmes pour proposer de meilleures trajectoires aux navires.

Que peut apporter un cabinet de conseil comme Saegus aux entreprises souhaitant se saisir de leurs données pour contribuer à leur stratégie de décarbonation ?

Projets transversaux par essence, les projets de décarbonation doivent impliquer toutes les strates et fonctions de l’entreprise.

Nous pouvons contribuer de plusieurs manières à leur réussite chez nos clients :

  • La première expertise que notre cabinet met au service de ses clients est sa capacité à cadrer rapidement, en lien avec les fonctions de l’entreprise, des projets complexes nécessitant d’interagir avec les collaborateurs de terrain et décideurs stratégiques. Ces travaux seront nécessaires pour identifier les domaines ou fonctions sur lesquels l’entreprise doit se focaliser, ainsi que son périmètre de responsabilité ;
  • Nous accompagnons nos clients dans la récupération des données leur permettant d’acquérir une vision fiabilisée de leurs émissions. Cette étape est complexe : certaines données internes ne sont pas toujours collectées ou accessibles, d’autres externes nécessitent des modifications de relation contractuelle ou la construction de partenariats avec des sociétés tierces pour être récupérées. La construction d’une data platform regroupant ces données représente à elle seule un projet à part entière ;
  • Nous les assistons également dans la gestion et gouvernance de ces données pour que cet actif stratégique soit exploité à sa juste valeur et que les processus garantissant leur fiabilité et qualité soient robustes. Cette gouvernance inclut la mise en place de process d’échanges des données de ces entreprises avec des tiers, pour étendre l’impact des actions menées aux processus en interactions avec ses fournisseurs ou clients ;
  • Nous les aidons enfin à valoriser ces données : par exemple, en construisant des cockpits digitaux de monitoring de consommation énergétique identifiant les points de progrès sur lesquels se focaliser, mesurant l’impact des actions menées ou aidant à concevoir, déployer et maintenir les algorithmes d’intelligence artificielle réalisant les optimisations précédemment décrites (supervision de la qualité industrielle, maintenance prédictive ou optimisations logistiques). Notre capacité à concevoir des solutions sur mesure et adaptées aux spécificités de nos clients est un atout majeur.

De manière globale, nous avons la capacité de solliciter des expertises complémentaires à celles de la data pour nous adapter aux phases du projet. Par exemple, en sollicitant nos départements Acceleration Tactics sur les phases de cadrage ou Employee Experience sur la mise en place d’outils digitaux à destination des frontline workers.

Vous êtes intéressé de découvrir comment la data peut servir votre ambition en matière de décarbonation ? Restez connectés pour une table ronde sur ce sujet !

Rédigé par Martin Alteirac, Responsable Intelligence artificielle, Département Data Driven

Le concept de limite planétaire, théorisé au début des années 2000, définit l’espace dans lequel la vie humaine peut se développer de manière sûre et juste. À l’inverse du concept de jour de dépassement, qui est une comparaison entre le niveau de ressources naturelles produites par la terre en un an et le niveau de ressources consommées par les activités humaines, le concept de limite planétaire illustre l’impact des activités humaines sur 9 composantes essentielles à la vie sur Terre.

Sur les 9 limites planétaires définies, 6 sont déjà franchies…

Ces limites planétaires sont aujourd’hui au nombre de neuf :

  • Le changement climatique
  • L’érosion de la biodiversité
  • La perturbation des cycles biogéochimiques de l’azote et du phosphore
  • Les changements d’utilisation des sols
  • L’acidification des océans
  • L’utilisation mondiale de l’eau
  • L’appauvrissement de l’ozone stratosphérique
  • L’augmentation des aérosols dans l’atmosphère
  • L’introduction d’entités nouvelles dans la biosphère

Sur ces neuf limites, six sont franchies, dont deux l’ont été sur l’année 2022 – la limite concernant l’acidification des océans en janvier 2022 et celle concernant l’utilisation mondiale de l’eau en avril 2022. Vous trouverez plus d’informations sur le concept de limite planétaire sur le site du ministère de l’Environnement.

Le digital, menace ou atout pour la sauvegarde des limites planétaires ?

Bien que consommateur de ressources, le digital doit être un atout pour favoriser l’évolution de la société vers un modèle plus responsable et respectueux de l’environnement. Tout d’abord en limitant sur son impact en intensifiant les efforts pour que le stockage, le traitement et la circulation de l’information se fasse avec des infrastructures plus efficientes. Mais aussi en développant les technologies qui permettront de lutter concrètement contre les dégradations de l’environnement, illustrées par les limites planétaires :

  • Limiter le besoin en déplacements de courte, moyenne et longue distance grâce aux outils collaboratifs en ligne ;
  • Permettre l’étude précise des phénomènes physiques causant la dégradation des écosystèmes naturels grâce au big data ;
  • Rendre accessibles à chacun et chacune des pistes concrètes de réduction de son impact sur l’environnement, grâce à la valorisation intelligente des données de consommation d’énergie électrique ou fossile ;
  • Optimiser l’efficience des systèmes de production et de transport des biens de consommation grâce à l’intelligence artificielle.

Ces leviers doivent permettre de mieux caractériser, comprendre et lutter contre les sources de pollution à l’origine des phénomènes mesurés par les limites planétaires et parvenir au “Net Zero 2050”, l’objectif de la neutralité carbone introduit lors des négociations ayant mené à la mise en place de l’Accord de Paris, réaffirmé par les récents rapports du GIEC comme la priorité numéro une.

Vous souhaitez étudier les leviers digitaux que vous pouvez mettre au service de votre ambition en matière de changement climatique ?

Rédigé par Martin Alteirac, Responsable Intelligence artificielle