L’article de Clément Christophe, chercheur à la R&D d’EDF, a été sélectionné pour être présenté à la conférence EMNLP, une conférence de premier plan dans le domaine du traitement du langage naturel et de l'intelligence artificielle. Mi-novembre, direction donc la République Dominicaine pour Clément qui a eu l’honneur de présenter son article traitant de la détection de nouvelles thématiques à émergence lente dans les flux de données textuelles, travaux qu’il mène au sein du projet TILT (Traitements et Innovations pour la vaLorisation des données non sTructurées) pour la Direction Commerce.
Quelques mots pour te présenter ?
Je suis ingénieur chercheur – data scientist au sein de la R&D d’EDF où j'ai effectué ma thèse, défendue en mars 2021 en partenariat avec le laboratoire ERIC de l’Université Lyon 2.
Ma thèse portait sur « La détection de nouveauté au plus tôt dans des flux de données textuelles ». Je travaille désormais sur les problématiques de text-mining pour l’amélioration de la relation client mais aussi sur le traitement de données de séries temporelles pour les marchés électriques.
Peux-tu nous résumer ton article ?
Le papier présenté au EMNLP 2021 s’intitule « Monitoring geometrical properties of word embeddings for detecting the emergence of new topics ».
Il porte sur la détection de thématiques émergeant doucement dans des flux de données textuelles.
Pour résoudre ce problème, nous avons analysé les données au niveau des mots et nous avons proposé une méthode pour surveiller l’évolution de leur représentation dans des espaces en grande dimension. Nous utilisons des propriétés géométriques spécifiques de ce type d’espace pour caractériser le type de dynamique des thématiques. Comme la tâche d’évaluation est difficile pour ce type de problématique, nous présentons un processus qui permet une évaluation quantitative. Nous montrons des résultats positifs qui améliorent les performances de l’état de l’art sur deux jeux de données d’articles de presse et scientifique.
Vous pouvez retrouver l’intégralité de l’article « Monitoring geometrical properties of word embeddings for detecting the emergence of new topics » ici.
Cet article a été co-écrit par Julien Velcin et Jairo Cugliari de l’Université de Lyon 2 et Manel Boumghar et Philippe Suignard de la R&D d’EDF.
Domaine de publication : data-science, traitement naturel de langage, text-mining
Comment s'est passée ta présentation à la conférence EMNLP ?
Mon travail a été bien accueilli par le public (en présentiel et à distance) et a suscité plusieurs questions pendant et après la session de présentation. Plusieurs participants ont été surpris de voir qu’une entreprise dont le cœur de métier n’est pas l’IA investissait les sujets de recherche amonts. Le fait d’être présent physiquement a permis d’entamer des discussions scientifiques et, si possible, de futurs partenariats !
La conférence EMNLP (Empirical Methods in Natural Language Processing) est la référence mondiale dans le domaine du text-mining avec des sponsors comme Google, Apple, Facebook. L’acceptation de cet article marque l’engagement d’excellence d’EDF et participera au rayonnement de la R&D dans le monde sur ce domaine.