Ici archive

Le Data Engineering est un maillon clé des projets Data : on peut observer aujourd’hui dans la tech que le métier de Data Engineer a supplanté le très prisé métier de Data Scientist.

Il est établi que la donnée est l’or noir du 21e siècle, mais avant de le raffiner il faut l’extraire, le transporter et l’acheminer jusqu’à son usine de traitement. C’est là qu’intervient le Data Engineer : sans les étapes essentielles de Data Engineering, les projets ne peuvent se concrétiser.

En 2017, Maxime Beauchemin, l’un des premiers Data Engineer chez Facebook et Airbnb, publiait un article, The rise of the Data Engineer, sur l’émergence de ce nouveau métier. Il mettait en lumière ce travail de l’ombre indispensable à la bonne réalisation des initiatives data.

Une transformation progressive s’appuyant sur les services cloud et Modern Data Platforms

Aujourd’hui, l’émergence et la maturité des services cloud a profondément transformé le paysage IT et contribué à la disparition du traditionnel DBA (administrateur de base de données). Avec des services full SaaS, élastiques et gérés directement par les cloud providers (Snowflake, Google Big Query, Azure Synapse, Databricks…), le paramétrage, le tuning et les développements sont aujourd’hui gérés par les Data Engineers.

Cette profonde mutation a été rendue possible par la montée en puissance des services cloud. L’apparition de nouvelles solutions totalement ou partiellement automatisées a facilité la mise en œuvre des chaines de traitements et agilisé la production de données. Le besoin d’accessibilité et de fraicheur de l’information étant devenus des éléments essentiels, la modernisation des infrastructures IT est devenue une priorité pour répondre aux besoins métiers. Le déploiement de nouvelles plateformes de données, les Modern Data Stack, est le sujet stratégique IT du moment.

Modern Data Stack

Ces Modern Data Platform sont caractérisées par 3 principales briques :

  • Une plateforme cloud, datawarehouse/datalake pour bénéficier des performances, de la flexibilité et des capacités de stockage étendu ;
  • Une solution de traitement et transformation des données pour mettre à disposition des datasets qualifiés ;
  • Une solution analytics orientée self-service pour donner une plus grande autonomie aux utilisateurs métiers.

Auxquelles se rajoutent une couche transverse de gouvernance de l’information essentielle pour gérer le patrimoine informationnel.

L’un des points de transformation majeure de ces architectures modernes est la possibilité de traiter les données quelle que soit leur origine – aussi bien on-premise que dans le cloud – et de gérer des flux de données au sein d’architectures hybrides.

Grâce au renforcement des services managés et la migration des bases de données et datawarehouse dans le cloud, la problématique de stockage n’est plus un sujet. Les capacités de calcul sont potentiellement devenues illimitées. Il n‘est donc plus nécessaire de retraiter la donnée en amont.

La majorité des processus de traitement de données est passée du mode ETL (Extract-Transform-Load) au mode ELT. D’une part, ce changement permet de s’affranchir des problématiques business avant la phase d’extraction et chargement en base ; d’autre part, de ne pas limiter les cas d’usages qui pourraient voir le jour. Les données brutes étant à disposition, il est alors possible de les exploiter, de les combiner à des données tierces et de les croiser pour en tirer un maximum de valeur business.

Vers l’émergence de l’Analytics Engineer

Ce besoin de vitesse et d’adaptation rapide aux besoins métiers met en lumière ce travail de l’ombre faisant du profil de Data Engineer l’un des plus prisés actuellement. Il a la capacité de gérer les flux de données, jusqu’à la production d’insights exploitables par les utilisateurs métiers avec un rôle étendu d’Analytics Engineer.

À ce titre, l’Analytics Engineer est une évolution naturelle du Data Engineer, due à la multiplicité des rôles et responsabilités prises par ces derniers, drivée par le développement des Data Platform, services managés et besoins de vitesse demandés par le business. Les Data Engineers ne peuvent plus se cantonner au développement de pipelines de données et la préparation des datasets pour les équipes analytiques.

Désormais intégrés au sein de Data Factories, ils œuvrent dans des squads multidisciplinaires responsables des données qu’ils traitent et produisent. Ces squads sont souvent organisés par domaines métiers – à l’inverse d’une équipe centrale en charge de l’ensemble des données de l’entreprise. Lorsque les données sont partagées entre les entités de l’entreprise et exposées à une plus grande échelle, il est nécessaire d’avoir une bonne connaissance des données manipulées. Cela nécessite une rigueur et méthodologie propres à la fourniture d’APIs, mais aussi d’accompagnement au changement et de structuration des organisations pour mieux répondre aux besoins de fourniture de services data.

En conclusion

Traiter la donnée comme un produit (data as product) est donc devenu une cible de plus en plus recherchée. Cette transformation data-driven devient un enjeu stratégique de nos clients. Comment accompagner le passage à l’échelle et l’industrialisation des processus de Data Engineering et servir les besoins d’informations pour l’ensemble de l’entreprise ? Comment déployer et opérer une Data Factory pour servir les besoins business ? Ces questions auxquelles nous sommes régulièrement confrontés sont cruciales ; nous aurons l’occasion de vous en reparler prochainement à travers nos retours d’expériences.

Vous souhaitez en savoir plus ?

Rédigé par Julien Ayral, Directeur département Data Driven

Presque 6 ans après l’entrée en vigueur de l’accord de Paris sur le climat à la fin de l’année 2016, il reste beaucoup à faire pour que les engagements pris se traduisent en actions concrètes pour limiter le réchauffement climatique et atteindre le “Net Zero” (la neutralité Carbone) en 2050.

Les pays engagés sur cet accord ont décliné leurs engagements en plan d’investissements et réglementations pour mettre la société en mouvement. En Europe, et plus particulièrement en France, cela se traduit par exemple par le décret tertiaire imposant aux entreprises de faire des économies d’énergie dans certains types de bâtiments.

La collecte et valorisation des données est un levier majeur pour identifier, mettre en œuvre et piloter les projets visant à accompagner ces initiatives.

Martin Alteirac, Senior Manager au sein de l’équipe Data Driven chez Saegus, nous éclaire sur la façon dont les données peuvent être mise au service de la transition énergétique.

Comment la data peut-elle contribuer à faciliter et accélérer la transition énergétique ?

William Edwards Deming, célèbre statisticien à l’origine des principes fondateurs de l’amélioration continue, avait pour coutume de dire : “ce qui ne se mesure pas ne s’améliore pas”. Il me semble que cette phrase résume tout. La data a d’abord été un levier utilisé par les scientifiques pour produire les rapports et études ayant provoqué une prise de conscience sociétale et politique. Grâce à ces travaux, le climato-scepticisme a reculé, donnant vie à des initiatives comme celles prises à la suite de l’accord de Paris.

Je suis également persuadé que des initiatives comme Our World in Data contribuent à propager la prise de conscience sur l’urgence écologique. En facilitant l’accès à l’information claire et intelligemment représentée, c’est un véritable levier de mise en mouvement de la société.

Des techniques de visualisation de données avancées ont été utilisées par des organismes comme la NASA pour faciliter l’accès et la compréhension des données rendant compte du réchauffement climatique.

Néanmoins, l’apport de la data dans le domaine de la transition énergétique ne se limite pas à la caractérisation du réchauffement climatique. De nombreuses initiatives y participent en s’appuyant sur l’utilisation et la valorisation des données grâce à des technologies comme l’intelligence artificielle.

Peux-tu nous citer des exemples concrets d’utilisation de la data et/ou de l’intelligence artificielle pour lutter contre le réchauffement climatique ?

Les exemples sont nombreux, que nous pouvons classer en deux catégories.

D’abord, les cas d’usages à “impact direct”, par exemple dans la gestion énergétique. Les grands opérateurs de réseau de transport d’électricité conçoivent les réseaux de demain qui passeront d’un mode distributif (quelques lieux de production, de nombreux lieux de consommation) à collaboratif (l’électricité est produite par de multiples producteurs répartis sur le réseau – installations éoliennes, panneaux photovoltaïques privés – qui sont aussi consommateurs). Il faudra donc être capable de prévoir la production et consommation des points du réseau pour prendre les décisions adaptées pour assurer la répartition de l’énergie. Le pilotage de ces réseaux intelligents ou smart grids sera fait par des algorithmes d’intelligence artificielle intégrant le processus de prise de décision des données externes, comme la météo par exemple.

Ces cas d’usages à impact direct seront cruciaux. Ils devront être complétés par une myriade de cas d’usages à impact indirect qui représenteront des leviers importants.

Celui qui me parait incontournable, car emblématique, est l’optimisation de la Supply Chain. Le transport des biens de consommation, ou des composants nécessaires à leur production, est une source de pollution majeure. Les initiatives innovantes pour réduire les émissions liées à ces activités sont en plein boom : par exemple, la réintroduction de la voile pour propulser les navires de transport de marchandises par des opérateurs maritimes innovants comme Néoline. Pour définir et mettre en œuvre des plans de réduction des émissions polluantes liées à ces activités, la récolte et valorisation des données des entreprises est un impératif.

C’est un chantier d’envergure, les réseaux de production et distribution des biens de consommation s’étant complexifiés et mondialisés. Acquérir une vision fiable des opérations réalisées et émissions liées à ces opérations est donc un challenge. Une fois ce challenge relevé, les techniques de valorisation de données permettront d’optimiser cette logistique.

Quelques exemples :

  • L’optimisation des circuits et tournées de livraison, évitant la consommation inutile de carburants en maximisant le taux de chargement des moyens de transports ou optimisant les distances parcourues ;
  • La fiabilisation de la prévision de la demande, pour produire et stocker le juste niveau de produits nécessaires et éviter les gaspillages ;
  • La gestion et optimisation du trafic sur les réseaux de transports routiers, ferroviaires ou maritimes, conduisant à une meilleure fluidité et efficience globale. À ce titre, la réintroduction de la voile comme moyen de propulsion des navires de transport maritime présentée ci-dessus nécessitera l’inclusion de nouveaux paramètres (direction et force du vent) dans les algorithmes pour proposer de meilleures trajectoires aux navires.

Que peut apporter un cabinet de conseil comme Saegus aux entreprises souhaitant se saisir de leurs données pour contribuer à leur stratégie de décarbonation ?

Projets transversaux par essence, les projets de décarbonation doivent impliquer toutes les strates et fonctions de l’entreprise.

Nous pouvons contribuer de plusieurs manières à leur réussite chez nos clients :

  • La première expertise que notre cabinet met au service de ses clients est sa capacité à cadrer rapidement, en lien avec les fonctions de l’entreprise, des projets complexes nécessitant d’interagir avec les collaborateurs de terrain et décideurs stratégiques. Ces travaux seront nécessaires pour identifier les domaines ou fonctions sur lesquels l’entreprise doit se focaliser, ainsi que son périmètre de responsabilité ;
  • Nous accompagnons nos clients dans la récupération des données leur permettant d’acquérir une vision fiabilisée de leurs émissions. Cette étape est complexe : certaines données internes ne sont pas toujours collectées ou accessibles, d’autres externes nécessitent des modifications de relation contractuelle ou la construction de partenariats avec des sociétés tierces pour être récupérées. La construction d’une data platform regroupant ces données représente à elle seule un projet à part entière ;
  • Nous les assistons également dans la gestion et gouvernance de ces données pour que cet actif stratégique soit exploité à sa juste valeur et que les processus garantissant leur fiabilité et qualité soient robustes. Cette gouvernance inclut la mise en place de process d’échanges des données de ces entreprises avec des tiers, pour étendre l’impact des actions menées aux processus en interactions avec ses fournisseurs ou clients ;
  • Nous les aidons enfin à valoriser ces données : par exemple, en construisant des cockpits digitaux de monitoring de consommation énergétique identifiant les points de progrès sur lesquels se focaliser, mesurant l’impact des actions menées ou aidant à concevoir, déployer et maintenir les algorithmes d’intelligence artificielle réalisant les optimisations précédemment décrites (supervision de la qualité industrielle, maintenance prédictive ou optimisations logistiques). Notre capacité à concevoir des solutions sur mesure et adaptées aux spécificités de nos clients est un atout majeur.

De manière globale, nous avons la capacité de solliciter des expertises complémentaires à celles de la data pour nous adapter aux phases du projet. Par exemple, en sollicitant nos départements Acceleration Tactics sur les phases de cadrage ou Employee Experience sur la mise en place d’outils digitaux à destination des frontline workers.

Vous êtes intéressé de découvrir comment la data peut servir votre ambition en matière de décarbonation ? Restez connectés pour une table ronde sur ce sujet !

Rédigé par Martin Alteirac, Responsable Intelligence artificielle, Département Data Driven

Le concept de limite planétaire, théorisé au début des années 2000, définit l’espace dans lequel la vie humaine peut se développer de manière sûre et juste. À l’inverse du concept de jour de dépassement, qui est une comparaison entre le niveau de ressources naturelles produites par la terre en un an et le niveau de ressources consommées par les activités humaines, le concept de limite planétaire illustre l’impact des activités humaines sur 9 composantes essentielles à la vie sur Terre.

Sur les 9 limites planétaires définies, 6 sont déjà franchies…

Ces limites planétaires sont aujourd’hui au nombre de neuf :

  • Le changement climatique
  • L’érosion de la biodiversité
  • La perturbation des cycles biogéochimiques de l’azote et du phosphore
  • Les changements d’utilisation des sols
  • L’acidification des océans
  • L’utilisation mondiale de l’eau
  • L’appauvrissement de l’ozone stratosphérique
  • L’augmentation des aérosols dans l’atmosphère
  • L’introduction d’entités nouvelles dans la biosphère

Sur ces neuf limites, six sont franchies, dont deux l’ont été sur l’année 2022 – la limite concernant l’acidification des océans en janvier 2022 et celle concernant l’utilisation mondiale de l’eau en avril 2022. Vous trouverez plus d’informations sur le concept de limite planétaire sur le site du ministère de l’Environnement.

Le digital, menace ou atout pour la sauvegarde des limites planétaires ?

Bien que consommateur de ressources, le digital doit être un atout pour favoriser l’évolution de la société vers un modèle plus responsable et respectueux de l’environnement. Tout d’abord en limitant sur son impact en intensifiant les efforts pour que le stockage, le traitement et la circulation de l’information se fasse avec des infrastructures plus efficientes. Mais aussi en développant les technologies qui permettront de lutter concrètement contre les dégradations de l’environnement, illustrées par les limites planétaires :

  • Limiter le besoin en déplacements de courte, moyenne et longue distance grâce aux outils collaboratifs en ligne ;
  • Permettre l’étude précise des phénomènes physiques causant la dégradation des écosystèmes naturels grâce au big data ;
  • Rendre accessibles à chacun et chacune des pistes concrètes de réduction de son impact sur l’environnement, grâce à la valorisation intelligente des données de consommation d’énergie électrique ou fossile ;
  • Optimiser l’efficience des systèmes de production et de transport des biens de consommation grâce à l’intelligence artificielle.

Ces leviers doivent permettre de mieux caractériser, comprendre et lutter contre les sources de pollution à l’origine des phénomènes mesurés par les limites planétaires et parvenir au “Net Zero 2050”, l’objectif de la neutralité carbone introduit lors des négociations ayant mené à la mise en place de l’Accord de Paris, réaffirmé par les récents rapports du GIEC comme la priorité numéro une.

Vous souhaitez étudier les leviers digitaux que vous pouvez mettre au service de votre ambition en matière de changement climatique ?

Rédigé par Martin Alteirac, Responsable Intelligence artificielle

En décembre 2021 avait lieu NeurIPS, l’une des conférences majeures dans le domaine de l’intelligence artificielle et du Machine Learning. Cette édition a mis en lumière une nouvelle tendance : le focus sur les données utilisées pour l’apprentissage, plutôt que sur les modèles d’intelligence artificielle permettant de valoriser ces données, est de plus en plus important – c’est la Data-centric AI. Découvrons ensemble ses tenants et aboutissants.

Une tendance qui émerge

La progression des performances des modèles d’intelligence artificielle au cours des dernières années est fascinante. Les nouveaux modèles comme BERT, DALL-E ou GPT-3 montrent des progrès significatifs, notamment grâce à leur capacité à être entrainés sur des vastes volumes de données. Néanmoins, cet entrainement massif a un coût que peu d’entreprises peuvent soutenir. La plupart des cas d’usages réalisés en entreprise ont recours aux méthodes de Transfer Learning. Ces méthodes se basent sur des modèles pré-entrainés pour réduire le temps d’apprentissage, et donc son coût. Ce Transfer Learning permet de profiter d’un haut niveau de performance, rendu possible par l’apprentissage massif, tout en étant peu coûteux à entraîner et utiliser sur des données réelles.

L’expérience prouve néanmoins qu’il est souvent plus simple d’augmenter la performance des modèles les plus répandus en améliorant la qualité des données utilisées lors de l’apprentissage – plutôt que par l’optimisation du modèle lui-même. Andrew NG en donne un très bon exemple dans sa dernière interview pour IEEE Spectrum : “dans de nombreux secteurs où les grands ensembles de données n’existent tout simplement pas, je pense que l’accent doit être déplacé du Big Data vers le Good Data. Avoir 50 exemples bien pensés peut suffire à expliquer au réseau de neurones ce que vous voulez qu’il apprenne.

Cela implique de construire des jeux de données spécifiques pour qu’ils soient consommés par des modèles de Machine Learning. Si dans le monde scientifique les jeux de données sont souvent bien explorés et leurs limitations et spécificités bien connues, c’est une activité qui reste à développer pour la plupart des acteurs de l’industrie.

Comment améliorer la qualité des données présentes dans l’industrie ?

La première étape consiste à s’assurer que le phénomène ciblé est bien présent dans les données. Par exemple, si l’objectif est de détecter les anomalies, il faut vérifier qu’il y a suffisamment d’observations présentes dans l’échantillon. Si l’on travaille sur un problème de classification par exemple, il est intéressant de calculer la classe sous-échantillonnée. Une fois que l’on sait qu’il est théoriquement possible d’avoir un modèle opérationnel, on peut passer à l’étape d’évaluation de la qualité du Dataset.

Avant de vouloir améliorer la qualité des données, il est nécessaire de la mesurer. Plusieurs critères communs sont traduisibles en métriques numériques : on peut par exemple compter le pourcentage de lignes dupliquées ou le pourcentage de lignes aux valeurs nulles. Il faut également penser aux paramètres business : par exemple, sur une base de données manufacturing, une date de commande doit toujours antérieure à une date de livraison. À partir de ces critères, il est possible de mesurer la précision, intégrité, fiabilité et cohérence des données. La difficulté est qu’assurer la qualité des données est une activité qui doit s’exercer lors de toutes les phases d’un projet : dès la phase de cadrage et ce, jusqu’à la phase de monitoring et d’exécution.

La redondance est un levier clé pour mesurer la qualité des données : elle permet de détecter les problèmes potentiels et d’assurer la cohérence des indicateurs mesurés par différents moyens. Il est ensuite possible d’agir sur la qualité des données et d’avoir un feedback sur la pertinence des actions réalisées. La standardisation et l’automatisation sont deux outils bien connus pour contribuer à la qualité de données.

Cet effort de construire un bon Dataset a plusieurs avantages, notamment sur les coûts indirects. Par ailleurs, les Data Analysts et Data Scientists passent moins de temps à nettoyer le Dataset et à adapter les analyses et modèles à cause de l’imperfection des données, favorisant ainsi un gain de temps. Un Dataset propre augmente la confiance des utilisateurs au sein d’une démarche Data-driven, facilitant à terme son adoption. Si l’on pousse plus loin cette approche, on pourrait imaginer un label “AI-ready” comme le fait Kaggle avec son indice d’utilisabilité.

Il est possible d’introduire de nouveaux rôles contribuant à l’amélioration de la qualité de données, comme ceux de Data Steward ou Data Quality Manager. Ces activités peuvent s’intégrer dans le cadre plus large de la Data Governance ; on parle alors de Master Data Management. Pour en savoir plus, retrouvez notre article sur le sujet : https://saegus.com/deployer-la-gouvernance-de-la-donnee-en-agile/.

En conclusion

La Data-centric AI se propage rapidement dans le monde de la Data Science. La qualité des données devient un impératif car elle reflète l’organisation d’une entreprise autour des sujets data, ainsi que sa capacité à adresser de nouveaux cas d’usage. Il est important d’adopter les best practices et surtout de les intégrer à la structure existante.

Notre cabinet a confirmé sa capacité à accompagner ses clients leaders de l’industrie pour réussir leurs projets Data et ce, à travers des réalisations concrètes. Vous souhaitez être accompagnés à votre tour par nos équipes Data ?

Rédigé par Alexander Mikheev, Manager Data

Le métavers est un réseau d’environnements graphiques virtuels en ligne, accessible grâce à des équipements de réalité virtuelle ou augmentée. Les utilisateurs sont plongés dans une expérience immersive au sein de laquelle ils ont la liberté d’être qui ils souhaitent et d’aller et de faire ce qu’ils veulent sans limite. Le film “Ready Player One” est un bon exemple pour illustrer le métavers – les personnages vivent dans l’Oasis, une société virtuelle accessible grâce aux mêmes technologies. La réalité a donc rattrapé la science-fiction : il est aujourd’hui possible de basculer dans ce monde parallèle…

L’intention de Mark Zuckerberg de transformer l’entreprise Facebook en un métavers est devenu un sujet incontournable pour les entrepreneurs, et plus particulièrement les acteurs du marketing. En effet, le monde virtuel offre des opportunités commerciales générant de la valeur : il est essentiel de s’y adapter rapidement ! L’exposition des marques et des produits dans le métavers est aujourd’hui la clé pour se positionner sur ce nouveau champ de bataille. Mais comment procéder ?

La publicité OOH virtuelle

L’espace de publicité est le modèle principal de sources de revenus du métavers (ex-Facebook, donc). Les designers et ingénieurs qui créent ces mondes virtuels travaillent ensemble pour permettre aux marketers et publicitaires de diffuser leurs annonces dans des espaces dédiés. À l’image des publicités out-of-home (OOH) que l’on retrouve sur les immeubles, les panneaux publicitaires ou dans les transports en commun, les annonces sont exposées sous des formats multiples non-contraints par les lois de la physique.

Les événements virtuels

En 2019, Marshmello réalisait pour la première fois un concert de musique électronique dans le jeu vidéo Fornite, rassemblant ainsi les joueurs autour d’une expérience musicale immersive. Ce concert a levé les contraintes logistiques et de capacité d’accueil pour laisser place à la créativité. Il a ouvert la porte à de nouvelles opportunités événementielles pour les marques comme l’organisation de défilés de mode, de premières de films ou d’évènements sportifs. Les possibilités sont infinies… sky is the limit !

Le placement de produit virtuel

Le métavers n’est pas qu’un lieu de jeu : il est possible d’y créer son avatar en lui donnant l’apparence et le style que l’on souhaite. Certaines marques de luxes comme Balenciaga et Gucci se sont déjà positionnées sur ce marché en intégrant leurs produits dans le monde virtuel : des boutiques offrent aux clients une nouvelle expérience, ayant pour objectif d’accroitre à terme les ventes dans la réalité.

L’avenir du placement de produit dans le métavers

Notre conviction est que les marques et organisations seront une partie intégrante du métavers dès lors que son usage sera mainstream. Ainsi, nous pouvons imaginer que les entreprises et marques loueront des espaces virtuels pour déployer leurs activités. Mercedes y lancera des véhicules virtuels, Starbucks offrira des espaces virtuels où se retrouver…

Saegus saisit l’opportunité de valoriser les données marketing du métavers pour augmenter les insights consommateur en fournissant un conseil en stratégie. Nos experts du data marketing vous accompagnent sur l’analyse des données du métavers (comportement utilisateur et médias digitaux), la mise en place de stratégie marketing dans le métavers et la réalisation de contenus créatifs digitaux. Le futur est déjà le présent : nous sommes prêts, et vous ?

Vous souhaitez en savoir plus ou être accompagnés par nos équipes Data ?

Rédigé par Tanasit Mahakittikun, Consultant Data

Maximiser l’efficience et l’efficacité opérationnelle dans un monde en constante évolution est un défi pour toutes les entreprises aujourd’hui, quel que soit leur secteur d’activité. Les challenges opérationnels sont de plus en plus nombreux et complexes : perturbation des chaînes d’approvisionnement, numérisation massive des modes de consommation, augmentation ininterrompue des exigences qualité et guerre concurrentielle pour offrir les meilleurs prix ne sont que quelques-uns d’entre eux. Dans ce contexte, les données de l’entreprise sont un asset qu’il n’est plus possible de ne pas exploiter et valoriser à sa juste valeur.

Martin Alteirac, Senior Manager en charge du secteur Industriel au sein de l’équipe Data Driven Business chez Saegus, répond à nos questions.

Comment les nouveaux usages de la data peuvent-ils contribuer à l’excellence opérationnelle ?

Avant d’être une démarche, l’excellence opérationnelle est un état d’esprit. Un des piliers de cet état d’esprit est à mon sens la faculté à objectiver les problèmes, à être pragmatique, à raisonner sur des faits et pas sur des idées préconçues ou des préjugés.

La data est donc un atout majeur dans la quête de cette excellence car elle permet de mettre en évidence de manière factuelle les points de faiblesses d’une organisation. Deux grands usages peuvent contribuer à l’excellence opérationnelle des entreprises :

  • L’analytics, par sa faculté à apporter à chaque collaborateur·rice une information personnalisée et actionnable et à faire rayonner dans l’entreprise une culture de la mesure de la performance ;
  • La data science, par sa capacité à optimiser et/ou automatiser certains processus métier complexes ou à aider à la conception de nouveaux produits ou services.

Le premier enjeu est d’identifier les fonctions d’une entreprise les plus à même de bénéficier de ces nouveaux usages de la data.

Quelles sont les fonctions de l’entreprises les plus propices au déploiement de ce type de démarche ?

Toutes les fonctions de l’entreprise peuvent bénéficier d’une démarche Data Driven Ops :

  • La production ou les opérations pour délivrer des produits ou services d’une qualité irréprochable tout en optimisant leur coût de production ;
  • La Supply Chain pour servir ses clients toujours plus vite en sollicitant le minimum de ressources ;
  • La maintenance pour garantir que les moyens de production soient les plus productifs possible ;
  • Le procurement où la transformation digitale permet d’acheter toujours mieux et au meilleur prix ;
  • Les ressources humaines pour booster l’efficacité des équipes ;
  • La recherche et le développement pour développer les produits et services de demain.

Bien évidemment l’intérêt de ces différentes fonctions dépend généralement du secteur d’activité concerné :

  • Le secteur du manufacturing sera intéressé par les cas d’usages autour de la valorisation des données issues des équipements ou des systèmes d’information liés à la production : optimisation des rendements, qualité ou maintenance prédictive, optimisation de la planification… ;
  • Le secteur de la distribution B2B ou B2C sera friand de cas d’usages autour de la supply chain, du procurement ou du pricing ;
  • Enfin le secteur énergétique sera concerné par la récupération et l’exploitation de données physiques mesurées par des capteurs posés au niveau des équipements de production et de consommation d’énergie pour prévoir la demande ou la production en temps réel.

D’autres cas d’usages existent (gestion des ressources humaines, des achats) ; chaque entreprise pourra également imaginer des cas d’usages spécifiques sur les problématiques qui lui sont propres. C’est souvent le cas lorsqu’on touche à des sujets de R&D ou d’innovation ayant pour objectif le développement de produits ou services visant à développer son activité.

Comment mettre en place une démarche Data Driven Ops ?

Les données de l’entreprise sont une mine d’or mais, comme pour l’or, les obstacles à franchir sont nombreux pour passer de leur découverte à leur valorisation.

Pour qu’une démarche Data Driven aboutisse il faut donc fédérer des acteurs à même d’apporter les expertises nécessaires :

  • Une expertise métier pour s’assurer que la démarche soit menée par la recherche de valeur ajoutée concrète, qu’elle soit technique, économique ou opérationnelle ;
  • Une expertise technique qui permette de sélectionner les bons outils et les bonnes technologies à mettre au service des métiers ;
  • Une expertise méthodologique sans laquelle les chances de voir la démarche aboutir s’amenuisent à cause des freins techniques, organisationnels ou culturels que ce type de démarche rencontrera à un moment ou à un autre.

Qu’est-ce qui fait de Saegus un partenaire de choix pour ce type de projet ?

Saegus est capable d’apporter à ses clients l’expertise et les ressources nécessaires pour initier, conduire et pérenniser une démarche Data Driven. D’une part, les directeurs et managers du cabinet ont conduit de vastes programmes de transformation au sein des plus grandes entreprises françaises ; d’autre part, ses consultant·e·s possèdent les expertises sectorielles, fonctionnelles et technologiques requises et sont continuellement formé·e·s aux nouvelles technologies et solutions du marché.

Mais plus que tout, nos équipes placent les utilisateurs et les usages au centre de la démarche Data Driven. Cela garantit la meilleure adéquation possible entre les choix technologiques et les besoins de l’entreprise et surtout l’adoption la plus large et durable possible des outils développés.

J’aurai l’occasion de vous parler de nos cas d’usages les plus emblématiques dans de futurs articles. Stay tuned !

Envie d’en savoir plus ou d’être accompagné·e·s par nos équipes Data ?

La business intelligence est aujourd’hui “drivée” par plusieurs éditeurs de logiciels – les principaux étant Microsoft avec Power BI, Tableau et Domo :

Ces outils fournissent des tableaux de bord opérationnels sur différents domaines à plusieurs niveaux hiérarchiques pouvant aller jusqu’au CODIR. Conscients des enjeux de cyber sécurité qu’implique ce type de projets, les architectes groupes réfléchissent aux solutions les plus adaptées.

Comment ces outils fonctionnent-ils ? Concrètement, dans une première démarche, un outil de BI stocke la donnée collectée dans ses propres bases de données dont le client ne peut souvent pas choisir le fournisseur et la localisation. Par exemple, un Power BI récupère de la donnée dans une base de données client chez Google Cloud et la stocke dans sa base de données Azure.

C’est ainsi que la plupart des outils de BI proposent à présent au moins deux modes de connexion : l’Import Query et le Direct Query.

Plusieurs défis se posent alors :

  • Est-ce un problème que ma donnée soit stockée dans deux bases de données différentes ? On pense par exemple à une donnée très sensible telle que la donnée financière ;
  • Les connecteurs Live Query sont-ils assez robustes pour interroger un très gros volume de données ?
  • Quels sont les coûts engendrés par le choix de l’architecture ?

Définition : Import Query et Direct Query

Tout d’abord, quelle est la différence entre ces deux notions, qui peuvent varier selon les outils de BI ?

Import Query : le fait de collecter la donnée stockée dans une database dédiée et qui appartient à l’outil de BI.

Direct Query : le fait de lire de la donnée en direct dans la database source sans la stocker ailleurs.

Import Query

La majorité des outils de BI propose ce mode de collecte de la donnée et ce, pour plusieurs raisons.

Mindset

Cela crée de la valeur pour l’outil en question. Évidemment, l’outil de BI garantit la sécurité de la donnée collectée (elle ne la diffusera ou ne la vendra pas), mais elle possède bien une donnée qui ne lui appartient pas et qui est importante aux yeux d’une entreprise. Cette dernière aura donc tendance à se fidéliser auprès de cet éditeur.

Bénéfices pour l’utilisateur

Une fois que la donnée est stockée, l’outil de BI propose aux éditeurs qui la traitent d’y apporter des transformations, comme des jointures avec d’autres bases de données. Il s’agit ici de transformer la donnée brute en une donnée qui répond parfaitement aux besoins de la visualisation dans un tableau de bord.

En matière de performance, la donnée étant stockée chez l’éditeur, les requêtes permettant d’afficher les visualisations lors d’un changement de page seront plus rapides.

Coût

Enfin, un dernier aspect non négligeable, le coût du tableau de bord. Généralement, lorsque vous souscrivez à un outil de BI, vous payez une licence qui vous donne le droit à un certain volume de stockage. Power BI est par exemple gratuit jusqu’à 1 go par jeu de données. Il faut passer sur une licence premium pour augmenter ce volume de stockage à 10 go ou plus. Vous payez donc un volume maximum.

Ainsi, vos frais relatifs à la donnée s’arrêtent là (exceptés donc les autres coûts liés par exemple aux accès utilisateurs). Peu importe le nombre de fois qu’un utilisateur requête une visualisation, votre coût sera fixe. À noter que l’entreprise paiera donc deux fois le stockage de sa donnée, une fois via l’outil de BI et une fois via le serveur où est stockée sa donnée source.

Direct Query

Une entreprise souhaitant stocker sa donnée à un seul endroit n’aura donc pas d’autre choix que d’utiliser ce mode de collecte. Le Direct Query est moins avantageux pour un éditeur d’outils de BI car il perd les points expliqués ci-dessus.

Mindset

La seule valeur ajoutée de l’outil de BI devient la visualisation.

Bénéfices pour l’utilisateur

  • Afficher la donnée la plus fraîche provenant de la base de données ;
  • Un seul point de stockage de la donnée (préférable si la donnée est sensible).

Inconvénients pour l’utilisateur

  • Avec le Direct Query, la majorité des outils de BI ne proposent plus la possibilité de faire des transformations. La donnée devra donc être traitée avant d’être collectée par l’outil de BI dans un BigQuery ou un Snowflake par exemple ;
  • La performance sera impactée en fonction du temps de réponse entre le serveur source et l’outil de BI, qui sera généralement plus long que la méthode Import. Sur un très gros volume de données, le temps d’affichage des visualisations sera trop long et deviendra un frein à l’adoption et la navigation.

Coût

En matière de coût, l’éditeur de l’outil de BI est le grand perdant. Le grand gagnant est en fait le fournisseur de base de données qui contient la donnée source. Par exemple, GCP facture à la requête, même dans un data studio qui appartient à Google, chaque nouvelle requête sur ce tableau de bord engendre des coûts d’utilisation au client. Plus la volumétrie est importante, plus les coûts le seront. Une architecture mal optimisée au sein de GCP sera vraiment coûteuse au quotidien, comme un Direct Query sur une vue classique faisant la jointure entre deux tables très volumineuses. Il sera important de porter une attention particulière à la performance et au nombre de requêtes effectuées. C’est le prix à payer pour avoir la main totale sur sa donnée et être maître de sa localisation.

Bonus : Hybrid Query

Chez certains éditeurs, notamment Power BI, il existe un troisième type nommé “Hybride”. Ce mode combine les modes import Query et Direct Query au sein d’une même table.

Concrètement, vous pouvez cibler une partie de votre table pour qu’elle vous renvoie la donnée en live query – comme les données du mois précédent, tandis que la donnée antérieure à ce mois sera récupérée via l’import Query.

Bénéfice pour l’utilisateur

Dans le cas où l’utilisateur requête une base de données avec une très grosse volumétrie, cela améliorera le temps d’affichage de son tableau de bord en lisant la plus grosse partie de la base (la donnée historique par exemple) via l’Import Query. Il pourra tout de même avoir de la donnée en temps réel (la donnée la plus fraîche par exemple) via le Direct Query sur une partie ciblée de la base de données.

Conclusion

La sensibilité de la donnée et le coût à terme sont deux points essentiels à considérer pour choisir une approche adaptée afin d’ingérer de la donnée dans des outils de BI pour réaliser un tableau de bord.

D’un point de vue relatif à la sécurité, une entreprise n’a pas intérêt à stocker sa donnée dans plusieurs base de données.

Cependant, un connecteur Direct Query n’est pas assez robuste sur des très gros volumes de données : nous l’avons vu, le temps de chargement sur une page sera un frein à la navigation sur le tableau de bord. En revanche, il est très efficace sur des petits volumes de données, si les tables alimentant les visualisations ont été factorisées en amont au sein de l’entrepôt de données. Il pourra également répondre au besoin d’afficher de la donnée en temps réel.

À ce jour, la solution la plus pertinente, notamment pour de gros volumes de données, est de choisir un même fournisseur pour stocker et lire la donnée. Par exemple, un Power BI ingérant de la donnée en Import Query depuis Azure la stocke également dans Azure – si le serveur est différent, il s’agit bien du même fournisseur.

Pour résumer :

Vous souhaitez en savoir plus ou être accompagné·e·s par nos équipes Data ?

Rédigé par Maxime Rousseau, Consultant Senior Data

Sources
(1) https://www.qlik.com/fr-fr/gartner-magic-quadrant-business-intelligence

Depuis ces dernières années, les solutions low-code se multiplient : accessible à un plus large nombre de personnes appelées “citizen developers”, le low-code atténue la barrière entre IT et métiers.

Qu’est-ce que le low-code ?

Le low-code est un environnement qui permet de développer des applications avec peu de code, contrairement au développement traditionnel. Les solutions low-code mettent ainsi en avant une interface graphique user-friendly souvent accompagnée de modèles prédéfinis pour accélérer et faciliter les développements. On estime que les lignes “low-code” représentent 20% du nombre moyen de celles créées dans les process classiques de développement.

Il est souvent fait mention de “no-code”. Il s’agit ni plus ni moins d’une sous branche du low-code qui pousse le concept jusqu’au point où coder n’est plus nécessaire pour développer.

Le contexte

Ces dernières années ont été marquées par l’accélération de la transformation numérique au sein des entreprises, renforcée et précipitée par la pandémie du Covid-19. Face à cette situation, les Directions des Systèmes d’information (DSI) ont vu une augmentation des demandes et des besoins qu’elle n’arrive souvent pas à prendre en charge face à la multiplication des projets et du fait de ressources financières et humaines limitées. La pénurie de développeurs sur le marché renforce d’autant plus ce constat.

La mise en place de solutions low-code a été l’une des réponses à cette situation.

Parce qu’ils requièrent moins de compétences techniques, ces outils permettent aux utilisateurs métiers de gagner en indépendance en créant rapidement leurs propres applications (interface de saisie, requêtes métiers, rapports de pilotage simple…). Un nouveau profil a alors émergé dans les entreprises, le “citizen developer” : généralement un profil métier avec une forte appétence pour le digital qui devient le pont entre la DSI, les solutions low-code et les équipes métiers.

Le citizen developer facilite ainsi la création d’applications au plus proche des besoins métiers. De ce fait, le time to market se voit réduit. Mendix, un des acteurs clés du marché low-code, considère que le temps de développement est divisé par deux ou plus par rapport à un développement traditionnel. À noter que la mise en place de ces solutions est accompagnée par les DSI dont le rôle évolue, devenant de véritables partenaires des métiers.

Le marché du low-code

D’après une étude réalisée par Forrester, cabinet d’étude et de conseil, le marché des solutions low-code est estimé à 21,2 milliards de dollars en 2022, contre 3,8 milliards de dollars en 2017.

Gartner, société américaine de conseil et recherche, prédit quant à elle que le low-code représentera 65 % des applications développées en 2024. La société a également publié en août 2021 un magic quadrant positionnant les différents acteurs du low-code actuels selon 4 axes : les challengers, les leaders, les solutions de niches et les visionnaires.

Parmi les leaders du low-code, on remarque Mendix, ServiceNow, Salesforce ou encore Microsoft, dont l’offre Power Platform propose 4 solutions low-code complètes :

  • Power Apps : transformez vos idées en solutions professionnelles, en permettant à chacun de créer des applications personnalisées destinées à relever les défis de l’entreprise ;
  • Power BI : prenez des décisions professionnelles fiables et avisées en fournissant à chacun des informations exploitables fondées sur des données ;
  • Power Automate : dopez la productivité et l’efficacité de votre entreprise en donnant à chacun les moyens d’automatiser les processus organisationnels ;
  • Power Agent : créez facilement des chatbots pour converser avec vos clients et vos employés, sans aucun codage requis.

Le low-code a donc un bel avenir devant lui avec des acteurs et des offres en plein essor !

Plus que de révolutionner le développement, c’est une invitation à réfléchir aux rôles et interactions des différents services dans les organisations et aux avantages concurrentiels qu’ils peuvent procurer.

L’enjeu est de déterminer la bonne solution et les cas d’usages avec une gouvernance associée, permettant ainsi de rassurer aussi bien les métiers que l’IT et offrir ainsi une alternative au shadow IT.

Vous souhaitez en savoir plus ou être accompagné·e·s par nos équipes Data ?

Rédigé par Claudio Anfuso, Consultant Senior Data

Le déploiement de la gouvernance des données est indispensable pour assurer une transformation vers des modèles davantage centrés sur la donnée.

Si les organisations ont pris conscience de cet enjeu, nous constatons qu’elles font face à de grands challenges lorsqu’il s’agit de déployer la gouvernance de la donnée : une forte disparité des niveaux de maturité dans l’entreprise, des difficultés à identifier les cas d’usages prioritaires, à démontrer de la valeur à court terme et à maintenir la démarche dans le temps, une faible disponibilité des parties prenantes…

Comment vous est venue l’idée d’introduire l’agilité à la gouvernance de la donnée ?

Chez Saegus, nous avons dans notre ADN de centrer nos projets sur une vision axée sur l’usage et la valeur. Ce besoin se fait davantage ressentir lorsque l’on parle de data gouvernance, où les résultats ne sont pas toujours identifiés par tous ni partagés en amont lors des phases de déploiement.

Un des enjeux majeurs des initiatives de gouvernance de la donnée réside donc dans la capacité à montrer rapidement un retour sur investissement et à illustrer les premiers résultats de manière concrète. Cette preuve de valeur permet de communiquer les premiers résultats à travers l’organisation rapidement, tout en les inscrivant dans une démarche globale.

C’est dans ce contexte que nous avons fait progressivement évoluer notre approche vers une méthodologie reposant sur les concepts de l’agilité. L’objectif ? Offrir à nos clients des résultats rapides et cohérents garantis par une forte implication des utilisateurs. De plus, la mise en place d’un framework agile permet de faire face et de s’adapter aux évolutions structurelles et organisationnelles inhérentes au déploiement d’une gouvernance de la donnée à l’échelle de l’organisation.

Comment mettez-vous en place ce genre d’approche chez vos clients ?

Mettre en place un projet de gouvernance en se positionnant sur l’ensemble des axes organisation, processus et outils nécessite un effort initial considérable de l’ensemble des parties prenantes. En conséquence, les résultats tardent souvent à apparaître. Il est donc nécessaire d’impliquer les utilisateurs métiers en leur offrant des résultats concrets. La création d’un catalogue de données est un bon levier pour générer cet engagement.

Maitriser son patrimoine de données, c’est d’abord le connaitre. Pour construire un catalogue centré sur l’usage et la valeur, il est indispensable d’identifier et prioriser les cas d’usages à fort impact, ayant un retour sur investissement démontrable. Cette démarche s’oppose aux approches par fonctions, entités ou zones géographiques. La volumétrie d’information rend leur mise en place longue, et les bénéfices qu’elles génèrent sont souvent difficilement mesurables. La démarche de gouvernance de la donnée ne doit pas être calquée sur l’organigramme mais sur la valeur. Pour atteindre ce résultat, Il est indispensable de collaborer avec les métiers. Ce sont eux qui disposent de la connaissance de leur périmètre et qui ont donc la capacité de structurer la donnée avec le plus de valeur ajoutée.

Nous avons constaté que la capitalisation de cette connaissance est difficile et souvent chronophage, nécessitant de longues sessions d’ateliers. En conséquence, nous apportons un support significatif dans la consolidation du catalogue de données pour minimiser l’effort des métiers, tout en maximisant la valeur apportée au travail de cartographie.

Quels sont les bénéfices d’une telle démarche ?

Pour optimiser l’exercice de cartographie des données, nous avons mis en place une approche de travail agile fonctionnant par courtes itérations. Celles-ci permettent aux métiers de décrire de petits périmètres de données préalablement identifiés, puis modélisés dans l’outil de data cataloging.

Les longues sessions de travail en réunion ont ainsi laissé place à des points de partage fréquents, mais courts, qui garantissent l’alignement des acteurs sur la méthodologie. Elles génèrent également des échanges sur les points de divergence, permettent la validation en continu des informations du glossaire de termes métiers et assurent l’application des standards établis à l’échelle du groupe.

L’objectif de cette approche est d’implémenter l’information en quasi-temps réel dans le catalogue de données pour permettre à chacun de la visualiser et d’y accéder dès les premiers résultats.

Une telle approche présente un second bénéfice majeur : elle fait monter en maturité et en compétence les équipes métiers sur les sujets data. Une étape indispensable pour commencer à déployer une culture data dans l’organisation et pour préparer les acteurs de demain à leur futur rôle dans l’organisation (data owner, data steward, data custodian…).

Comment cette approche permet-elle d’adresser l’ensemble des composantes de la gouvernance de la donnée ?

Les travaux de cartographie permettent l’identification des référents métiers et IT et leur montée en compétence avant la formalisation de leur rôle dans l’organisation data de l’entreprise.

Cette phase amont permet l’identification des référents métiers avant la formalisation de leur rôle et également d’auditer l’architecture data sur différents axes (fiabilité, sécurité, accès). Un plan de progrès peut alors être établi avec une liste de projets associés.

Enfin, le déploiement d’initiatives localisées de cartographie de données étend le tissu de la gouvernance dans l’organisation, par et pour les métiers pour couvrir l’ensemble des périmètres prioritaires en accord avec l’ambition stratégique data de l’entreprise.

Grâce à notre savoir-faire et nos partenaires privilégiés, notre équipe Data Driven Business est en mesure de proposer des démarches de gouvernance de l’information tant organisationnelles qu’opérationnelles.

Retrouvez le replay notre table ronde exceptionnelle sur l’introduction de l’Agilité dans les processus de Data Gouvernance : https://bit.ly/3HzEvz9

Vous souhaitez être accompagnés par nos équipes Data ? Contactez-nous !

Rédigé par Marc Gabet, Consultant Data

Ces dernières années, de nombreuses entreprises ont décidé de mieux utiliser leurs données pour en faire un véritable atout concurrentiel. Cette culture Data Driven doit favoriser la maîtrise des cycles de décisions, de production, et d’approvisionnement, permettant la conception de produits plus en phase avec les attentes du marché…

Ce constat fait, plusieurs défis restent à relever :

  • L’identification et l’organisation des données ;
  • La captation de nouvelles sources ;
  • La priorisation des cas d’usage ;
  • Les choix de solutions, ou modernisation des socles existants ;
  • La création d’assets ou accélérateurs technologiques ;
  • La conformité règlementaire ;
  • La diffusion d’une culture « Data Driven » et la bonne utilisation des solutions mises à disposition.

Cette liste est non exhaustive, mais donne une indication d’un nombre conséquent de chantiers sensibles à mettre en œuvre.

À cela s’ajoute les particularités liées au niveau de maturité (des entreprises ou services) et au modèle d’organisation. Sans rentrer dans l’ensemble des cas, nous pouvons distinguer 2 typologies bien distinctes :

  • Les organisations centralisées, dont les fonctions IT ont la plupart du temps pour mission de gérer la donnée, de recueillir les besoins des directions métiers et d’offrir des « services » d’accès à l’information ; 
  • Les organisations décentralisées, dont les filiales ont plus d’autonomie et pour lesquelles les fonctions corporate ont un pouvoir de recommandation et de négociation face aux tierces parties, ainsi qu’un pouvoir de diffusion de bonnes pratiques.

Ce dernier cas est particulièrement intéressant en termes d’adoption car les filiales ont « le choix » : de fait, les techniques et bonnes pratiques utilisées dans ce contexte sont applicables à tout type d’organisation.

Diffuser une culture Data Driven

Notre conviction profonde est que plus la personne est proche du métier, plus elle sera efficace pour formaliser des indicateurs pertinents, manipuler l’information et itérer rapidement sur des analyses fonctionnelles. 

Encore faut-il lui donner les solutions, les bonnes pratiques, un accès à l’information simple et, si possible, des accélérateurs ou templates. 

Le message « Faites reposer vos décisions sur la data » reste souvent obscur pour les utilisateurs : comment puis-je accéder à la donnée ? Comment puis-je la retravailler ? Qu’est-ce qui de mon périmètre de responsabilité ou de celui de mon service IT ? 

Diffuser une culture Data Driven avec succès nécessite d’accomplir quelques devoirs :

  • La communication : diffuser des messages clairs expliquant la volonté et la stratégie de l’entreprise en termes d’accès à l’information ;
  • L’acculturation : sous forme de Data Literacy, de sessions de formation, de démonstrateurs, de showroom… permettant de faire découvrir l’étendu du possible et de diffuser un langage commun dans l’entreprise. Par exemple : qu’est-ce qu’un cycle de vie de la donnée, comment définir la data quality, proposer des ateliers de modélisation… ;
  • La présentation du « patrimoine » : elle peut se faire sous forme de cartographie des données accessibles par domaine métier, processus ou cas d’usage. Le but est de faire prendre conscience de la matière disponible et accessible, sinon d’identifier les manques et sources potentielles ;
  • Le coaching, ou la diffusion de bonne pratiques ou d’assets prêts à l’emploi : capitaliser sur les réussites, partager des retours d’expériences, des blocs techniques ;
  • Un processus de collaboration et d’échange : sous forme de communauté d’expertise/business ou de relais locaux pour les entreprises étendues ;
  • Un processus de gouvernance efficace : cela permettra de contrôler les assets partagés, de s’assurer de la bonne application des guidelines et d’identifier par la suite les réussites.

L’ordre d’application de ces « devoirs » peut être revu en fonction de la maturité des entreprises.

Quelle cible atteindre demain ?

L’objectif pour les directions business est de « libérer le potentiel des utilisateurs ».  Cette nouvelle catégorie d’utilisateurs, « éclairés » sur l’usage de la donnée, sont des « Business Scientist » ou « Business Analyst ». Il est alors nécessaire que chaque direction dispose d’un nombre suffisant de ces Data Leaders/Data Champions.

L’objectif pour les directions IT/Data est en effet de créer et d’offrir des services adaptés au cadre définit précédemment.

Ce bouquet de services peut être à géométrie variable en fonction des entreprises, mais l’on retrouve généralement :

  • Des services de stockages (cloud, solution de bases de données) ;
  • Des services d’extraction des données brutes et/ou de mise en qualité ;
  • Des services de transformation/préparation des data set (plus ou moins aboutis en fonction de l’autonomisation des utilisateurs) ;
  • Des services de monitoring et d’industrialisation des pipelines ;
  • Des services de gestion de référentiel ;
  • Des assets techniques (librairies d’algorithmes, d’api…).

Comment s’appuyer sur les instances de type « Data Factory/Data Lab » ?

Depuis plusieurs années, on assiste à une recrudescence de services : Data Factory, Data Lab, Data Foundry… Mais des questions reviennent souvent : faut-il scinder ces activités ? Si oui, comment les coordonner de manière efficace et agile ? Lesquelles dépendent de l’IT et du métier ? Lesquelles sont des entités autonomes ? 

Là encore, il n’existe pas de réponse absolue – il faut adapter la définition en fonction de la maturité des organisations. 

Par exemple, une organisation centralisée aura tendance à positionner la Factory sur les activités de Data Engineering et d’industrialisation, en gouvernant un ou plusieurs Data Lake/Data Store. Le Data Lab est dans ce cas souvent centralisé : les Domain Owners, en charge de la préparation des données et de leur valorisation, sont ici spécialisés par fonction Business. C’est dans cette structure que l’on retrouve les Data Scientists. 

Au contraire, une organisation décentralisée aura tendance à simplement fournir les outils et les assets, mais à reporter les processus d’engineering et d’analyses dans ses filiales ou divisions. Suivant leur taille, ces structures peuvent scinder leurs activités de Factory et de Lab, ou à l’inverse les regrouper dans une même instance. 

Proposer un modèle de capitalisation et de partage efficace

Pour que le système soit durable, il est indispensable de définir un processus de gouvernance partagé. Ce processus, lien entre les différentes parties prenantes, est l’un des moyens les plus sûrs d’atteindre un ROI rapide. Plus un asset ou un service sera partagé et réutilisé, plus son coût de création sera amorti et donc, la valeur dégagée élevée.

Repenser l’accès

L’accès à ces assets/informations doit lui aussi être repensé. Le contenu doit être adapté au profil de l’utilisateur (information, news, habilitation sur le contenu), puis mis à jour régulièrement avec des nouveautés afin de susciter un engagement croissant des utilisateurs.

Passer à l’action !

Comme souvent sur les projets de transformation, nous conseillons d’avancer par itération. Il est inutile d’avoir finalisé l’ensemble des éléments pour se lancer. 

Il est par contre indispensable d’avoir cadré la démarche, établi une vision claire de la trajectoire et de préparé une communication adaptée. La richesse de contenu sera ainsi auto-alimentée par la communauté adhérant au processus. 

Enfin, il faut surtout rester agile. L’équipe supervisant ce process « Data Driven » doit adopter une posture d’équipe produit : écouter les feedbacks et savoir pivoter si nécessaire selon son marché interne, en fonction du succès de l’adoption, de l’élévation de la maturité et de la prise d’autonomie.

Pour en savoir plus…

Notre équipe Data se tient à votre disposition pour partager ses retours d’expérience et vous aider à cadrer et développer votre modèle Data Driven.

Rédigé par Frédéric Brajon, Associé Co-fondateur de Saegus et Directeur du département Data