Une année de recherche chez reciTAL

2020 a été une année mouvementée, mais la recherche en IA et en Traitement Automatique du Langage (NLP) a été particulièrement productive !

L’équipe R&D a publié des papiers dans 8 conférences internationales, dont la quasi-totalité des conférences phares en IA / NLP (NeurIPS, ICML, EMNLP), parmi les plus prestigieuses de la discipline (voir les classements IA et linguistique computationnelle).

En plus de la relation établie avec le laboratoire LIP6-Sorbonne, nous avons également initié de nouvelles collaborations avec des centres de recherche internationaux de renommée mondiale : l’Université de New York (US), la Fondation Bruno Kessler (Italie), l’université de Tours, Sciences Po, INRIA Paris, et EtaLab. Nous avons enfin créé une chaire IA avec ESILV Paris.

Notre recherche s’est focalisée sur deux axes principaux : la génération de langage naturel (NLG) et le développement de jeux de données multilingues à grande échelle. Le NLG était dans la ligne de mire des médias cette année, avec la sortie du grand modèle GPT-3, suscitant un mélange d’enthousiasme et de critiques.

De notre côté, nous nous sommes concentrés sur des cas d’utilisation concrets tels que la synthèse de documents, avec une attention particulière sur la qualité des textes générés en termes de factualité, de cohérence et de pertinence.

À NeurIPS, nous avons présenté une étude qui examine les raisons pour lesquelles la génération de texte avec les GAN était restée décevante jusqu’à présent. Nous avons proposé une méthodologie de génération de texte qui permet aux GAN de surpasser, pour la première fois, les modèles entraînés de manière classique par estimation du maximum de vraisemblance.

À ICML, nous avons abordé le problème du biais d’exposition dans les modèles de NLG : nous avons proposé la méthode Discriminative Adversarial Search comme alternative au Beam Search couramment utilisé, et montré l’amélioration considérable de la qualité des textes générés permise par notre approche.

En outre, nous avons travaillé à fournir à la communauté de recherche des ensembles de données dans des langues autres que l’anglais : à LREC, nous avons présenté en collaboration avec Etalab le jeu de questions / réponses PIAF pour la réponse automatique aux questions en français. A EMNLP, nous avons publié MLSUM, le premier jeu de données multilingue à grande échelle pour le résumé automatique de texte, comprenant environ 1,5 million d’articles en cinq langues (français, allemand, espagnol, russe, turc).

Le NLP en 2021

Le traitement du langage naturel a connu d’importants progrès au cours des trois dernières années, grâce à une nouvelle architecture d’apprentissage profond, le Transformer, qui a amélioré l’état de l’art dans la plupart des tâches de NLP, y compris la réponse aux questions et la génération du langage naturel. 2020 a marqué l’utilisation des Transformers pour des données non texte, comme l’image ou le son, avec une fois encore des améliorations substantielles de l’état de l’art, notamment par rapport aux méthodes traditionnelles à base de réseaux convolutifs. Nous pensons que 2021 sera l’année de l’avènement de modèles universels à base de Transformers pour traiter des données multi modales (texte + image par exemple).

Les prochaines étapes de recherche chez reciTAL

LA R&D reciTAL en 2021 portera sur l’intelligence documentaire (Document Intelligence) et l’IA robuste.

En effet, la plupart des travaux actuels de NLP portent sur des jeux de données en texte brut. Or en pratique, et particulièrement pour les documents d’entreprise, les algorithmes doivent traiter des formats riches tels que PDF, MS Office ou des documents numérisés. Pour y faire face efficacement, une approche multimodale est nécessaire : les modèles doivent non seulement prendre en compte le texte brut, mais également les informations supplémentaires telles que la mise en page, les images, les tableaux etc.

De plus, nous nous concentrerons sur la robustesse de nos modèles, pour mieux généraliser sur différents domaines, et continuerons à améliorer la transparence de nos pipelines de bout en bout afin d’offrir plus de contrôle à nos clients.

Ces approches permettent des applications commerciales des tendances actuelles de la recherche que sont la multimodalité et la robustesse.

Dans la suite de Thomas Scialom, deux nouveaux doctorants ont rejoint reciTAL afin de travailler sur ces axes de recherche : bienvenue à Laura Nguyen (LIP6-Sorbonne) et Gregor Jouet (ESILV Paris – Université de Tours) ! Nous attendons avec impatience l’intégration de ces travaux de pointe dans les produits reciTAL.

Ci-dessous la liste complète des articles que nous avons publiés en 2020 :

NeurIPS 2020

ColdGANs: Taming Language GANs with Cautious Sampling Strategies

T Scialom, PA Dray, S Lamprier, B Piwowarski, J Staiano

ICML 2020

Discriminative Adversarial Search for Abstractive Summarization

T Scialom, PA Dray, S Lamprier, B Piwowarski, J Staiano

EMNLP 2020

MLSUM: The Multilingual Summarization Corpus

T Scialom, PA Dray, S Lamprier, B Piwowarski, J Staiano

Findings of EMNLP 2020

Toward Stance-based Personas for Opinionated Dialogues

T Scialom, SS Tekiroglu, J Staiano, M Guerini

INLG 2020

What BERT Sees: Cross-Modal Transfer for Visual Question Generation

T Scialom, P Bordes, PA Dray, J Staiano, P Gallinari

COLING 2020

Ask to Learn: A Study on Curiosity-driven Question Generation

T Scialom and J Staiano

LREC 2020

Project PIAF: Building a Native French Question-Answering Dataset

R Keraron, G Lancrenon, M Bras, F Allary, G Moyse, T Scialom, EP Soriano-Morales, J Staiano

ASONAM 2020

Your Most Telling Friends: Propagating Latent Ideological Features on Twitter Using Neighborhood Coherence

P Ramaciotti Morales, JP Cointet, J Laborde