Le EGG Paris, un événement Dataiku consacré à l’IA d’entreprise, revient le 7 novembre prochain. Au programme de cette journée, des témoignages et retours d’expériences concrets de clients Dataiku, des ateliers de travail et des discussions autour de la Data Science et de l’Enterprise AI.
Notre équipe Data Driven Business, représentée par Frédéric Brajon Cofondateur et Responsable des activités Data Driven chez Saegus et Urszula Czerwinska, PhD Experte IA, interviendront sur le sujet du “Named Entity Recognition : la personnalisation de suggestions d’articles tech”.
Inspirée d’une solution développée pour un client dans l’industrie Pharma, cette année nous allons présenter une application de la technologie NLP (Natural Language Processing). Plus précisément, nous avons entrainé un modèle deep learning à reconnaitre les mots clés d’un article de blog (technologie, business, cloud).
A titre d’exemple, un article tagué : “Data Science, IA, Machine Learning, Python” peut concerner des technologies très différentes. Notre algorithme est capable de détecter une technologie précise, par exemple “GAN” ou “reinforcement learning”, les noms des librairies python ou autre. Il garde également la capacité d’un modèle de base à reconnaitre les lieux, les noms d’organisations et les noms de personnes.
Ce type d’approche nommé NER (Named Entity Recognition) est dotée d’une haute précision (>0.95 situé sur une échelle de 0 à 1). Optimisé, il permet le traitement de milliers de documents par seconde. Il est aussi très flexible et apprend des nouvelles catégories de mots assez rapidement. D’où son intérêt pour différentes industries permettant de détecter les noms de produits, les noms de substances ou bien plusieurs catégories en même temps.
Cette solution appliquée aux articles de blog peut servir à générer automatiquement des tags et/ ou des mots-clés afin que les contenus proposés par les plateformes soient personnalisés et répondent aux attentes des lecteurs, tenant ainsi compte de leurs centres d’intérêts. Au sens large, la détection des entités permet une analyse automatisée et intelligente d’un texte, utile surtout pour les documents longs et complexes comme les documents scientifiques ou juridiques.
En ce qui concerne la partie technique, lors de la conférence, nous allons présenter notre approche et son fonctionnement sur la plate-forme DSS de Dataiku. DSS permet de gérer tout le cycle de vie d’un projet data, d’une partie gestion de données vers une interface utilisateur. Grâce à Dataiku nos experts data ont pu collaborer en temps réel avec les développeurs et les managers d’une manière simple et efficace.
Nous allons partager avec les participants le « flow Dataiku », les « recettes python » et les fonctionnalités natives DSS que nous avons employées. Notre intervention sera illustrée par une “live demo” d’une application web à l’aide de cette plate-forme qui permet, à partir d’une requête dans le langage naturel, d’obtenir une sélection d’articles Medium personnalisée.