Ici archive

En décembre 2021 avait lieu NeurIPS, l’une des conférences majeures dans le domaine de l’intelligence artificielle et du Machine Learning. Cette édition a mis en lumière une nouvelle tendance : le focus sur les données utilisées pour l’apprentissage, plutôt que sur les modèles d’intelligence artificielle permettant de valoriser ces données, est de plus en plus important – c’est la Data-centric AI. Découvrons ensemble ses tenants et aboutissants.

Une tendance qui émerge

La progression des performances des modèles d’intelligence artificielle au cours des dernières années est fascinante. Les nouveaux modèles comme BERT, DALL-E ou GPT-3 montrent des progrès significatifs, notamment grâce à leur capacité à être entrainés sur des vastes volumes de données. Néanmoins, cet entrainement massif a un coût que peu d’entreprises peuvent soutenir. La plupart des cas d’usages réalisés en entreprise ont recours aux méthodes de Transfer Learning. Ces méthodes se basent sur des modèles pré-entrainés pour réduire le temps d’apprentissage, et donc son coût. Ce Transfer Learning permet de profiter d’un haut niveau de performance, rendu possible par l’apprentissage massif, tout en étant peu coûteux à entraîner et utiliser sur des données réelles.

L’expérience prouve néanmoins qu’il est souvent plus simple d’augmenter la performance des modèles les plus répandus en améliorant la qualité des données utilisées lors de l’apprentissage – plutôt que par l’optimisation du modèle lui-même. Andrew NG en donne un très bon exemple dans sa dernière interview pour IEEE Spectrum : “dans de nombreux secteurs où les grands ensembles de données n’existent tout simplement pas, je pense que l’accent doit être déplacé du Big Data vers le Good Data. Avoir 50 exemples bien pensés peut suffire à expliquer au réseau de neurones ce que vous voulez qu’il apprenne.

Cela implique de construire des jeux de données spécifiques pour qu’ils soient consommés par des modèles de Machine Learning. Si dans le monde scientifique les jeux de données sont souvent bien explorés et leurs limitations et spécificités bien connues, c’est une activité qui reste à développer pour la plupart des acteurs de l’industrie.

Comment améliorer la qualité des données présentes dans l’industrie ?

La première étape consiste à s’assurer que le phénomène ciblé est bien présent dans les données. Par exemple, si l’objectif est de détecter les anomalies, il faut vérifier qu’il y a suffisamment d’observations présentes dans l’échantillon. Si l’on travaille sur un problème de classification par exemple, il est intéressant de calculer la classe sous-échantillonnée. Une fois que l’on sait qu’il est théoriquement possible d’avoir un modèle opérationnel, on peut passer à l’étape d’évaluation de la qualité du Dataset.

Avant de vouloir améliorer la qualité des données, il est nécessaire de la mesurer. Plusieurs critères communs sont traduisibles en métriques numériques : on peut par exemple compter le pourcentage de lignes dupliquées ou le pourcentage de lignes aux valeurs nulles. Il faut également penser aux paramètres business : par exemple, sur une base de données manufacturing, une date de commande doit toujours antérieure à une date de livraison. À partir de ces critères, il est possible de mesurer la précision, intégrité, fiabilité et cohérence des données. La difficulté est qu’assurer la qualité des données est une activité qui doit s’exercer lors de toutes les phases d’un projet : dès la phase de cadrage et ce, jusqu’à la phase de monitoring et d’exécution.

La redondance est un levier clé pour mesurer la qualité des données : elle permet de détecter les problèmes potentiels et d’assurer la cohérence des indicateurs mesurés par différents moyens. Il est ensuite possible d’agir sur la qualité des données et d’avoir un feedback sur la pertinence des actions réalisées. La standardisation et l’automatisation sont deux outils bien connus pour contribuer à la qualité de données.

Cet effort de construire un bon Dataset a plusieurs avantages, notamment sur les coûts indirects. Par ailleurs, les Data Analysts et Data Scientists passent moins de temps à nettoyer le Dataset et à adapter les analyses et modèles à cause de l’imperfection des données, favorisant ainsi un gain de temps. Un Dataset propre augmente la confiance des utilisateurs au sein d’une démarche Data-driven, facilitant à terme son adoption. Si l’on pousse plus loin cette approche, on pourrait imaginer un label “AI-ready” comme le fait Kaggle avec son indice d’utilisabilité.

Il est possible d’introduire de nouveaux rôles contribuant à l’amélioration de la qualité de données, comme ceux de Data Steward ou Data Quality Manager. Ces activités peuvent s’intégrer dans le cadre plus large de la Data Governance ; on parle alors de Master Data Management. Pour en savoir plus, retrouvez notre article sur le sujet : https://saegus.com/deployer-la-gouvernance-de-la-donnee-en-agile/.

En conclusion

La Data-centric AI se propage rapidement dans le monde de la Data Science. La qualité des données devient un impératif car elle reflète l’organisation d’une entreprise autour des sujets data, ainsi que sa capacité à adresser de nouveaux cas d’usage. Il est important d’adopter les best practices et surtout de les intégrer à la structure existante.

Notre cabinet a confirmé sa capacité à accompagner ses clients leaders de l’industrie pour réussir leurs projets Data et ce, à travers des réalisations concrètes. Vous souhaitez être accompagnés à votre tour par nos équipes Data ?

Rédigé par Alexander Mikheev, Manager Data

L’impact de la transformation digitale

La consommation de services numériques (particuliers et entreprises confondus) est en augmentation constante depuis plusieurs décennies. La crise sanitaire actuelle a favorisé et accéléré ce phénomène. Les entreprises ont massivement déployé des solutions de collaboration, accru leur consommation de données dans toutes leurs formes, et font appel à des solutions de traitement et de calculs toujours plus puissantes, notamment d’intelligence artificielle.

Il est vrai que l’enseignement de l’année 2020 a été qu’une utilisation massive du digital permet de réduire les déplacements physiques, y compris transcontinentaux ; reste à savoir si ce phénomène sera durable ou si la reprise d’une vie “normale” ne viendra pas juste s’ajouter à l’intensification de ces usages numériques maintenant “acquis”.

Plusieurs études montrent que l’empreinte du numérique est estimée, à l’horizon 2025, à 10% (contre 4% actuellement (1)) de la consommation électrique mondiale, soit celle d’un pays faisant 2 à 3 fois la taille de la France. La consommation d’énergie liée aux cryptomonnaies dans le monde équivaut à la consommation d’un pays tel que l’Égypte (2). Plus à notre échelle, une box internet de particulier consomme autant d’énergie qu’un grand réfrigérateur.

Il est extrêmement difficile de savoir si l’innovation technologique aura à terme un impact environnemental positif et négatif. Cet article n’a d’ailleurs pas l’ambition d’adresser ce problème de manière holistique, mais de s’intéresser plus particulièrement à l’impact (positif) que pourrait avoir le développement de services d’intelligence artificielle dédiés à l’optimisation d’une consommation énergétique plus environnementale.

L’IA ne résoudra pas la problématique de production d’une électricité décarbonnée : il s’agit là d’un enjeu planétaire, complexe, dont la résolution ne peut se faire qu’en alignant progrès technologique, volonté politique et équilibre économique.

Toutefois, nous pouvons envisager à court terme des impacts positifs pour l’environnement. Cela se traduirait notamment par l’utilisation de l’IA sur des cas d’usages appropriés, via une méthode de gestion de l’IA raisonnée.

Quels cas d’usage pour une IA vertueuse ?

L’utilisation d’algorithmes (base de machine learning ou deep learning) est efficace dans un très grand nombre de cas d’utilisation. Initialement éprouvés sur des axes marketing (segmentation, scoring, recommandation), bancaire (risques, fraudes, optimisations), recherche (élaboration de molécules, traitement d’image, diagnostics médicaux), industrie (opérations de maintenances, logistique), ces programmes peuvent également être “entraînés” sur des tâches à impact positif.

À titre d’exemple, nous pouvons citer de manière générale :

  • La lutte contre l’obsolescence programmée (recommandation d’utilisation de produits, détection de dysfonctionnement, maintenance prédictive) ;
  • La maîtrise de la consommation d’énergie (optimisation domotique : gestion de la lumière, de la chaleur), pour le particulier mais également à l’échelle d’une entreprise, d’une ville, d’un pays ;
  • La gestion des ressources naturelles (supervision de parcelles agricoles, détection de maladie sur base d’images, gestion des espaces forestiers, analyse de l’air, de l’eau, impact du réchauffement, érosion des côtes) ;
  • Les impacts de phénomènes climatiques extrêmes (prédictions de dégâts, inondations) ;
  • L’optimisation de la supply chain – les traitements sont actuellement orientés sur le rendement, mais ils pourraient inclurent une composante “impact environnemental” dans le calcul d’optimisation.

Cette liste n’est évidemment pas exhaustive, mais illustre qu’il existe énormément de possibilités, peu ou pas explorées à date.

Une gouvernance mondiale “raisonnée” est-elle possible ?

Comme indiqué précédemment, la consommation énergétique liée aux services numériques est très élevée. Il en est bien sûr de même pour l’IA qui nécessite de très grand volumes de données et de fortes puissances de calcul.

La gestion des infrastructures et de l’énergie sous-jacente n’est évidemment pas un levier à la main des équipes de développement, et ne l’est qu’en partie pour les grandes entreprises.

Il existe cependant d’autres leviers de rationalisation :

  • La gestion et le partage de l’information : pour répondre aux besoins applicatifs la donnée a toujours été dupliquée, copiée, redondée, que ce soit dans des bases de données, systèmes de fichiers ou applications. Les facilités offertes par le Cloud et la baisse du coût de stockage ont encore accéléré ce phénomène. Le premier levier à l’échelle de l’entreprise est de gérer cette information comme un capital, de limiter les duplications en gérant mieux la description et le partage. Cela s’opère par une gouvernance adaptée mais également par des modèles d’architecture et d’urbanisation des données (gestion des méta-données, apisation, industrialisation des datalayers) ;
  • La gestion des algorithmes : c’est un sujet encore assez neuf, dont peu d’entreprises se sont saisies. La première vague a visé à démultiplier les initiatives et les expérimentations pour en prouver la valeur. La seconde vague, actuelle, a pour objectif l’automatisation et l’industrialisation. La troisième vague pourrait être celle de la réutilisation et du partage ;
  • À l’échelle de l’entreprise, cela signifie la mise en place d’une gouvernance algorithmique, permettant de cartographier les assets existants, de mutualiser les phases d’entraînement et de mise au point, et de démultiplier l’usage des algorithmes (sans repasser par de la recréation, de la duplication de données, de la multiplication fastidieuse de phase d’optimisation). L’objectif final serait la création d’une librairie d’algorithmes prêts à l’emploi ;
  • Au-delà du cadre de l’entreprise, cela pourrait prendre la forme d’une “Algo Market Place” au sein de laquelle les entreprises pourraient monétiser la mise à disposition d’algorithmes performants et pré-entraînés – sur le même modèle que les Data Market Place.

Enfin, il convient de faire appel à ces technologies de manière raisonnée. Dans de nombreux cas, des traitements plus simples, statistiques ou règles donnent des résultats tout aussi fiables avec un bilan efficacité/consommation de ressources beaucoup plus efficient.

Notre mission, au sein du cabinet Saegus, est autant d’identifier et de mettre en œuvre des services d’IA sur des cas d’usages à impact sociaux-environnemental positifs, que d’aider les entreprises à renforcer ou établir des règles de gouvernance efficaces et responsables.

Rédigé par Frédéric Brajon, Associé et Co-fondateur, et Clément Moutard, Manager Data

Sources :
(1) Agence de la Transition Écologique : https://bit.ly/3waPB7V
(2) Cambridge Bitcoin Electricity Consumption Index : https://cbeci.org

Les solutions d’intelligence artificielle se démocratisent depuis quelques années. Utilisées initialement à des fins marketing ou d’optimisation (production, supply chain…), de plus en plus de fonctions régaliennes y trouvent un intérêt, notamment les directions des ressources humaines.

En effet, les solutions d’aide au recrutement faisant usage de l’IA et de la donnée se sont massivement développées au cours de la dernière décennie – le profiling, la recherche par mots-clés ou l’utilisation d’un réseau comme LinkedIn en sont les exemples. La première étape d’un processus de recrutement est principalement basée sur l’utilisation de données caractérisant le candidat (diplôme, expérience, compétences, ancienneté dans un poste, etc). Toutes ces informations, accessible sur un CV ou un profil, permettent d’effectuer efficacement des recherches, des filtrages, et aboutissent à une pré-sélection de candidats à rencontrer. L’utilisation des technologies permet d’automatiser tout ou partie de cette première phase avec une grande efficacité. Dans ce cadre, les outils d’IA établissent des scores de pertinence sur les profils, en fonction des fiches de poste (rapprochement par similarité par exemple).

Cependant, la crise sanitaire a été un accélérateur de nouveaux cas d’utilisation, jusque-là confidentiels. Dès mars 2020, 89% des employeurs américains ont commencé à réaliser des entretiens en ligne (source journal du net, mars 2021). Pour pallier l’impossibilité de se rencontrer, et puisque l’enregistrement vidéo était quasi-systématique, les méthodes d’analyse par intelligence artificielle post-entretien ont été massivement utilisées. L’éditeur HireVue, spécialiste de l’analyse de video « comportementales » a communiqué sur une hausse de 80% de sa technologie par rapport à l’année précédente (en nombre de video analysées). Si cette adoption s’est majoritairement faite aux États-Unis, ce mouvement est nettement engagé en Europe.

Les ressources humaines sont un domaine par nature profondément humain, et donc variant. L’intelligence artificielle, a contrario, est systématique et analytique. Dans l’usage, quelles problématiques techniques et éthiques cela pose-t-il ? Quelles sont les limites ?

Interprétabilité et variables : les biais possibles de l’intelligence artificielle

Pour réaliser une prédiction (par exemple recommandation d’embauche ou non), l’intelligence artificielle va apprendre à faire sa prédiction sur l’analyse de différentes variables descriptives du phénomène observé. Ces variables sont déterminées par les data scientists, ou directement par l’IA (on parle alors d’approche non supervisée), en fonction du jeu de donnée d’apprentissage soumis.

Comme le souligne Frédéric Brajon, Co-fondateur de Saegus en charge de la Data et de l’IA, cette phase critique est souvent sous-estimée : “l’attention est trop souvent portée sur la performance des modèles mathématiques ; mais les premiers biais, absolument majeurs, apparaissent dans les phases préparatoires. La pertinence des variables descriptives retenues bien-sûr, mais également la nature même des données d’apprentissage ; les données sont-elles représentatives du phénomène observé ? Y a-t-il un risque de discrimination dans l’échantillonnage retenu ? Un risque éthique ? Ces questions fondamentales sont souvent négligées, par manque de temps, limite de budget ou inexpérience. Or, le meilleur modèle mathématique produira toujours des recommandations biaisées s’il n’a pas appris sur une base solide. Par exemple, dans le cas de recrutements, si ma base d’apprentissage a une sur-représentation d’un genre ou d’une tranche d’âge, il y a fort à parier que l’algorithme “pénalise” les candidatures différentes (pas parce qu’elles sont moins pertinentes pour le poste, mais parce que l’apprentissage a montré que celles-ci étaient moins fréquemment recrutées dans le jeu de données).”

L’apprentissage des modèles est donc essentiel, et le champ des possibles est large : quelles caractéristiques définir pour recruter ou non un candidat ? Quel poids leur donner les unes par rapport aux autres ? Comment prendre en compte des notions subjectives (le feeling), ou non liées directement à la personne (un candidat possédant un peu moins d’expertise qu’un autre, peut-être meilleur pour le poste, en raison d’une compatibilité de caractère avec le personnel en poste). En ce sens, l’intelligence artificielle aura tendance à reproduire les mêmes recommandations, or la richesse humaine d’une entreprise tient également à sa multidisciplinarité et sa multiculturalité ; comment prendre en compte ces paramètres ?

Julien Cotte, Directeur des Talents de Saegus, appuie ce point : “l’essence même d’une entreprise est représentée par ses salariés dans toutes leurs singularités. Les idées viennent parce que nous sommes différents, parce que nous avons des expériences différentes et une vision qui nous est propre sur les sujets à adresser dans notre domaine de compétences. Si l’intelligence artificielle suit à la lettre les critères de sélection, deux biais peuvent apparaître : l’impossibilité de recruter car personne ne pourra répondre totalement aux exigences du poste et l’homogénéisation des salariés ce qui, au final, appauvrirait les compétences de l’entreprise. Certes, il s’agit d’une vision très négative de l’utilisation de l’intelligence artificielle mais c’est le risque que je vois si nous souhaitons aller vers le tout IA pour le recrutement. L’IA doit être un outil d’aide, pas la seule décisionnaire. Le manager doit prendre en compte son envie de travailler avec le candidat, le recruteur doit pouvoir identifier si la personne s’intègrera bien à la culture de l’entreprise. Tout cela, en prenant en compte que l’IA n’est pas infaillible et que l’homme non plus.”

Par ailleurs, les exigences de recrutement peuvent varier d’un pays à l’autre et d’une entreprise à l’autre. Il est donc légitime de se poser la question de savoir si un traitement d’IA mis au point au US sera pertinent en France ? Faut-il ré-entrainer les algorithmes en fonction du pays ? Du secteur ? De la culture d’entreprise ?

Enfin, l’expérience du candidat est également à prendre en compte. L’usage de l’intelligence artificielle, invisible, peut être déstabilisante. En Europe, tout candidat doit être informé de l’usage de l’intelligence artificielle dans le cadre de son entretien d’embauche, et donner son accord. On peut s’interroger sur la liberté d’accepter ou de refuser dont dispose réellement le candidat, et sur l’impact de sa décision sur sa candidature.

Un cadre légal qui s’impose

Face à ces possibles discriminations, un cadre légal est nécessaire et commence à se dessiner.

Face à ce phénomène, une proposition de loi a été déposée aux États-Unis, l’Algorithmic Accountability Act, mais n’a finalement pas été adoptée. Toutefois le débat est ouvert.

L’Europe est quant-à elle précurseur de la préservation des droits à l’usage des données personnelles avec la réglementation RGPD. Mais cette règlementation ne protège pas d’une potentielle dérive éthique. En effet, dans le cas cité en exemple (recrutement), l’analyse des données personnelles du candidat peuvent être totalement anonymisées et détruites post traitement (donc en conformité avec la loi), n’en reste pas moins le problème éthique.

En France, certaines commissions parlementaires se sont emparées de ce sujet, et proposeront à l’avenir des recommandations législatives pour encadrer l’éthique non pas de l’IA, mais des usages que l’on en fait.

Car c’est certainement là que se trouve la clé de la solution. Encadrer les usages plutôt que la technologie brute.

“Comme toute nouvelle technologie, il y a du bon et du moins bon. Il est donc essentiel que les pouvoirs publics se saisissent de ce sujet pour encadrer la pratique et permettre une utilisation saine et efficace. Que ce soit le recruteur ou le candidat, je reste persuadé que les nouvelles technologies comme l’Intelligence Artificielle vont permettre de renforcer la relation candidat/recruteur. La technologie avançant très vite, la législation se doit d’être agile et en veille permanent sur ce sujet”, souligne Julien Cotte.

L’intelligence artificielle, une voix décisionnelle ou secondaire ?

Quel poids faut-il donc donner à la recommandation de l’algorithme ? Sa voix doit-elle être décisionnelle ou secondaire ?

L’exhaustivité de l’Intelligence Artificielle la place en dehors de la logique et des spécificités humaines. Les possibilités qu’elle offre sont intéressantes et challengeantes, mais l’IA doit rester une aide. La décision finale doit être humaine, dans toutes les finesses que cela comprend. A minima, une action humaine sera toujours nécessaire à certaines étapes du processus, par exemple par le manager qui travaillera en lien étroit avec la personne recrutée.

Et inversement, l’objectivité de l’intelligence artificielle peut avoir un impact positif : si le recruteur dispose d’un biais négatif ou discriminant, l’IA peut au contraire le contre-balancer.

L’idéal serait de trouver une complémentarité entre l’Intelligence Artificielle et l’humain. La vision de remplacer l’humain par l’Intelligence Artificielle dans le domaine des ressources humaines ne semble pas être la bonne voie. Par contre, identifier les écueils de l’humain dans le domaine du recrutement (lecture trop rapide des CV, non prise en compte des lettres de motivation, fatigue lors d’un entretien, biais culturel…) reste une piste d’innovation et d’optimisation qui pourrait être bénéfique à tous.

Une autre évolution semble nécessaire à explorer : si les recruteurs se dotent de cette technologie, ne serait-il pas intéressant que le candidat puisse avoir le même outil à sa disposition ? Le candidat pourrait alors obtenir une recommandation de l’IA pour identifier si le manager qu’il rencontre semble correspondre à ses attentes, si la présentation de l’entreprise rentre dans ses critères…

Ainsi, toutes les parties prenantes pourraient avoir le même outillage pour mener leurs entretiens. N’est-ce pas ça la véritable innovation ?

Conclusion

Quelles perspectives donner à la place de l’intelligence artificielle dans les processus de recrutement ?  

Comme dans quasiment toutes les fonctions, l’IA a une utilité certaine dans le cadre des ressources humaines et doit être intégrée aux réflexions.

Le paradoxe est que pour rendre une IA réellement efficace… Il faut l’utiliser. On voit bien ce phénomène avec les services de reconnaissance vocale ou visuelle proposés par les GAFA (notamment avec les assistants personnels). Les commandes vocales étaient très succinctes il y a 10 ans, alors que maintenant l’on peut parler et dicter des messages en langage naturel avec son smartphone.

Le phénomène d’apprentissage sera le même avec le domaine RH, plus l’on soumettra des vidéos de recrutement à l’IA, plus son analyse sera pertinente dans la durée.

Par contre, il convient que le législateur harmonise un cadre éthique d’utilisation de ces outils (opt-in du candidat, sans qu’un refus de sa part n’élimine la candidature par exemple), et que chaque entreprise place l’utilisation de ces technologies à la place qui convient, en assistance et en complémentarité à l’humain, et non en remplacement total, particulièrement pour ces domaines ou l’informel, le « bien-être ensemble » et la confiance ont tant de valeur pour construire des équipes performantes et durables. Il est également souhaitable que les candidats puissent également bénéficier des avantages de l’IA afin de rendre l’exercice du recrutement le plus équitable possible.

Envie d’en savoir plus ? Retrouvez notre table ronde sur les enjeux de la reconnaissance faciale par l’intelligence artificielle avec comme invité d’honneur Didier Baichère, Député et Vice-Président de l’Office parlementaire d’évaluation des choix scientifiques et technologiques. Pour vous inscrire , c’est ici !

Rédigé par Frédéric Brajon, Associé et Co-fondateur, et Julien Cotte, Directeur des talents

L’intelligence artificielle vaut des milliards ! C’est International Data Corporation (IDC), qui prévoit que les dépenses mondiales consacrées à l’IA pourraient atteindre plus de 50 milliards de dollars d’ici à fin 2021.

 

Outre les chiffres qui font tourner la tête, cela montre la prise de conscience des entreprises à investir dès aujourd’hui dans ce domaine et qu’il ne s’agit plus d’un secret : l’intelligence artificielle arrive à grand pas sur le lieu de travail !

 

Cette évolution technologique soulève ainsi des questions concernant son utilisation au sein des entreprises et des salariés : quels en sont les bénéfices attendus ? Comment pouvons-nous s’y préparer ? Quelles sont les conséquences sur l’organisation et sa performance ?

 

Découvrez la place que pourra prendre l’intelligence artifielle au sein de vos équipes. Ainsi, dirigeant ou manager, à la lecture de ces dernières lignes, seriez-vous prêts à présenter HAL à vos collaborateurs ?

 

 

Le EGG Paris, un événement Dataiku consacré à l’IA d’entreprise, revient le 7 novembre prochain. Au programme de cette journée, des témoignages et retours d’expériences concrets de clients Dataiku, des ateliers de travail et des discussions autour de la Data Science et de l’Enterprise AI.

Notre équipe Data Driven Business, représentée par Frédéric Brajon Cofondateur et Responsable des activités Data Driven chez Saegus et Urszula Czerwinska, PhD Experte IA, interviendront sur le sujet du “Named Entity Recognition : la personnalisation de suggestions d’articles tech”. 

 

 

Inspirée d’une solution développée pour un client dans l’industrie Pharma, cette année nous allons présenter une application de la technologie NLP (Natural Language Processing). Plus précisément, nous avons entrainé un modèle deep learning à reconnaitre les mots clés d’un article de blog (technologie, business, cloud) 

 

A titre d’exemple, un article tagué : “Data Science, IA, Machine Learning, Python” peut concerner des technologies très différentes. Notre algorithme est capable de détecter une technologie précise, par exemple “GAN” ou “reinforcement learning, les noms des librairies python ou autre. Il garde également la capacité d’un modèle de base à reconnaitre les lieux, les noms d’organisations et les noms de personnes.  

 

Ce type d’approche nommé NER (Named Entity Recognition) est dotée d’une haute précision (>0.95 situé sur une échelle de 0 à 1). Optimisé, il permet le traitement de milliers de documents par seconde. Il est aussi très flexible et apprend des nouvelles catégories de mots assez rapidement. D’où son intérêt pour différentes industries permettant de détecter les noms de produits, les noms de substances ou bien plusieurs catégories en même temps.  

 

Cette solution appliquée aux articles de blog peut servir à générer automatiquement des tags et/ ou des mots-clés afin que les contenus proposés par les plateformes soient personnalisés et répondent aux attentes des lecteurs, tenant ainsi compte de leurs centres d’intérêts. Au sens large, la détection des entités permet une analyse automatisée et intelligente d’un texte, utile surtout pour les documents longs et complexes comme les documents scientifiques ou juridiques.  

 

En ce qui concerne la partie technique, lors de la conférence, nous allons présenter notre approche et son fonctionnement sur la plate-forme DSS de DataikuDSS permet de gérer tout le cycle de vie d’un projet data, d’une partie gestion de données vers une interface utilisateur. Grâce à Dataiku nos experts data ont pu collaborer en temps réel avec les développeurs et les managers d’une manière simple et efficace. 

 

Nous allons partager avec les participants le « flow Dataiku », les « recettes python » et les fonctionnalités natives DSS que nous avons employées. Notre intervention sera illustrée par une “live demo” d’une application web à l’aide de cette plate-forme qui permet, à partir d’une requête dans le langage naturel, d’obtenir une sélection d’articles Medium personnalisée.   

 

 

L’intelligence artificielle peut contribuer formidablement aux enjeux socio-économiques, environnementaux, politiques, culturels,… de notre ère. Cependant, il est indispensable d’accompagner ce changement de paradigme sans angélisme et avec lucidité, en soulevant la question de l’éthique concernant ces nouvelles technologies. Comme disait Rabelais :

“Science sans Conscience, n’est que ruine de l’âme.”

Les aspects éthiques du “Deep Learning” se situent à deux niveaux : une bonne compréhension des limites de cette technologie pour en rester maître, et une utilisation au service du bien commun – autrement dit ne pas en faire mauvais usage. Ces deux idées sont présentées et discutées ci-dessous.

#1 Les limites du Deep Learning

Les algorithmes de deep learning, bien que très performants dans l’ensemble, sont tout comme les humains sensibles à différents biais. Or ces biais non-intentionnels peuvent être perçus très négativement par les humains, surtout s’ils entretiennent des inégalités, des souffrances, et entraînent la machine à commettre des erreurs aux conséquences possiblement dramatiques.

Un exemple regrettable a beaucoup choqué lorsque l’algorithme de classification d’images de Google Photos a confondu des humains avec des animaux (voir photo ci-dessous, dont la nature outrageante interdit tout silence). De tels biais pourraient être d’autant plus dommageables s’ils s’insinuaient par exemple dans des décisions de justice, d’octroi de prêt, de santé ou de carrière. Identifier ces biais, et plus encore les corriger, n’est pas chose aisée, puisque cela impose de comprendre comment fonctionne l’algorithme. Cela introduit une deuxième limite du deep learning discutée par la suite : l’explicabilité.

Alors que certains algorithmes d’apprentissage machine (Machine Learning) sont facilement interprétables (régression linéaire, arbre de décision), les mécanismes d’encodage et de traitement de l’information employés par le deep learning sont très difficiles à comprendre. À cet égard, ces derniers sont d’ailleurs qualifiés de « boîte noire ».

L’enjeu est crucial car il n’est pas convenable de laisser les machines prendre des décisions importantes sans comprendre les raisons qui justifient le choix, telles que : faut-il débrancher un patient végétatif, faut-il geler tous les avoirs d’un citoyen identifié à tort ou à raison comme suspect, faut-il empêcher tel étudiant d’avoir accès à tel cursus, etc. ? Il est impérieux de mieux comprendre le fonctionnement des modèles du deep learning pour les intégrer aux processus de décisions humaines. Différentes méthodologies ont été développées afin d’expliquer l’algorithme dans son ensemble ainsi que sur chaque prise de décision, et ce même pour des modèles de deep learning.

Une autre limite du deep learning touche aux limites de l’éthique humaine, lorsqu’un choix se présente sans issues favorables. Comment prendre une décision lorsqu’aucune alternative ne paraît bonne ou lorsqu’elles ne sont pas comparables ?

Cette question a été illustrée par le dilemme du tramway, où schématiquement l’opérateur doit choisir à qui il doit accidentellement ôter la vie, aucune alternative d’itinéraire immédiat ne pouvant éviter une collision avec des passants (voir illustration ci-dessus).

Dans le cas du deep learning, et notamment de la conduite autonome de véhicule, l’opérateur est une machine. Cette machine suppose un algorithme de prise de décisions. Or, dans ce cas, il est très délicat d’expliciter une politique de choix, à la fois d’un point de vue technique – il faudrait couvrir exhaustivement toutes les situations et leurs choix associés –, et d’un point de vue éthique – par exemple aussi horrible qu’est cette question sans bonne réponse : « comment choisir entre l’alternative d’écraser une femme enceinte ou un groupe de 5 retraités ? ». Cette double difficulté n’a pas encore été solutionnée.

#2 Du mauvais usage de l’Intelligence Artificielle

Les nouveaux outils de l’IA permettent de grands progrès dans de nombreux secteurs mais apportent également leurs lots de questionnements concernant leur bon usage. Certains penseurs renommés comme Stephen Hawking, voient en l’intelligence artificielle une invention à la fois brillante et menaçante. Selon eux, l’intelligence artificielle pourrait remplacer à terme l’homme du fait de sa puissance en constante amélioration, surpassant déjà l’homme sur de nombreuses tâches (des jeux de stratégie à la conduite automobile en passant par le diagnostic médical).

Sans en venir à d’apocalyptiques scénarios, des utilisations de l’IA peuvent se révéler dégradantes, malveillantes et nocives pour les individus. Par exemple, les GANs ont été utilisés pour substituer aux visages et aux voix d’actrices de films pour adultes des visages et des voix de célébrités. Selon l’une d’entre elle, la bataille contre ces détournements est déjà perdue. Au-delà de l’intégrité des personnes, c’est l’intégrité des faits qui est mise à mal par ces possibles usages. En effet, pouvoir faire dire faussement via cette technologie (DeepFake) n’importe quoi à n’importe qui avec un très grand réalisme pourrait se révéler très dangereux, a fortiori dans une actualité où les relations géopolitiques sont particulièrement tendues. C’est d’autant plus vrai que ces technologies sont accessibles à tous, par exemple via l’application FakeApp.

Pour prévenir ces mauvais usages et combattre les « fake news », il est prioritaire de développer un cadre garantissant la véracité des contenus. La blockchain aurait-elle un rôle à jouer ?

Au niveau étatique, il est observé une multiplication des tentatives d’employer ces nouvelles technologies à des fins militaires (dont l’encapsulation d’IA dans des robots soldats, voir photo ci-dessus) ou à des fins de contrôle des populations (par exemple reconnaissance et suivi des piétons grâce au deep learning appliqué aux caméras de vidéo-surveillance en Chine, voir photo ci-dessous).

Ces démarches soulèvent des inquiétudes voire des levées de boucliers. Les employés de Google ont par deux fois manifesté leur désaccord concernant l’engagement de leur firme dans ce type de projet : en premier lieu le projet Maven entre le Pentagone et Google impliquant du deep learning pour améliorer l’identification des cibles de drones ; en second lieu, le projet DragonFly pour le compte de la Chine afin de développer un moteur de recherche conforme aux positionnements des censeurs. Dans ces deux cas, les protestations internes ont mené à l’annulation de la participation de Google.

Ces mobilisations internes contre des engagements militaro-industriels s’observent identiquement chez les autres géants du numérique, comme Amazon et Microsoft. Le monde académique réagit également avec plus de 3000 chercheurs en IA et en robotique ayant signé une lettre ouverte demandant l’interdiction des armes offensives autonomes.

Cependant, certains pays s’y sont opposés, et le débat reste entier. Concernant la surveillance des individus et ses possibles dérives, des initiatives sont prises par certains états pour garantir la protection des données des citoyens, comme en Europe avec la RGPD.

Ainsi, même si ces réactions de la part des employés ou au niveau de la gouvernance sont des signaux de confiance quant à la conscience collective nécessaire, la vigilance demeure indispensable. La communauté de la data a de grandes responsabilités et chacun de ses membres devrait faire preuve d’une grande prudence sur les limites de leurs outils et l’usage de leurs réalisations. À cet égard, les intéressés ont la possibilité de signer l’équivalent du serment d’Hippocrate pour la Data. De mon côté, c’est chose faite. Et vous ?

Rédigé par Clément Moutard, Consultant Data Driven Business.

Thanks to Eliot Moll.

Notes
[1] Source
[2] Source
[3] Source

Ces derniers jours, différentes réalisations de deep learning (apprentissage profond) ont été massivement relayées sur les réseaux sociaux. Vous avez peut-être découvert notamment des algorithmes permettant de générer des visages et des annonces de location de logement entre particuliers n’ayant jamais existé. Ces applications reposent sur une technologie toute récente – 2014 –, dénommée Generative Adversarial Network (GAN). Comme tout modèle de Deep Learning, elle exploite en empilement de nombreuses couches de neurones artificiels (d’où les termes « deep »/« profond »), qui permet l’extraction et la manipulation de représentations complexes issues de modalités variées (images, sons, données numériques, etc.). La particularité de cette technologie est sa capacité à générer des exemplaires fictifs d’une classe d’éléments : en quelque sorte, la machine se dote d’une imagination.

Saegus n’a pas attendu ces buzz pour développer une expertise sur ce sujet novateur garantissant de nombreux leviers de croissance. Ce dossier vise à présenter notre vision sur cette nouvelle technologie, notamment en l’inscrivant dans son contexte et en la comparant aux modèles discriminants (et non-génératifs) qui l’ont précédée dans un premier article. Nous présentons dans un second article plus en détails le fonctionnement des GANs ainsi que certaines de nos réalisations. Pour finir, un troisième article prend du recul sur ces innovations pour considérer les portées éthiques cruciales de ces changements de paradigme. Si vous voulez savoir à quoi ressembleront vos enfants, ou comment vieillira votre peau, nous vous invitons à plonger dans l’univers passionnant du deep learning et des GANs.

 

Téléchargez notre dossier pour découvrir l’intégralité de l’étude !

 


 
 

Découvrez l’intégralité des expertises de nos experts Data sur médium !