Dans la révolution du TAL / NLP, les machines apprennent à parler anglais ou chinois, peu français. reciTAL accompagne Etalab pour la construction de PIAF, le premier dataset de questions-réponses en langue française.
Le français ne doit pas être le parent pauvre de la révolution du NLP. Cette révolution, boostée par les investissements en R&D des GAFA et des BATX favorise de fait les langues anglaises et chinoises.
Les modèles « multilingues » de type BERT, RoBERTa, GPT2 sont certes entraînés sur une centaine de langues, mais l’anglais reste en quelque sorte leur langue natale, compte tenu du poids relatif de l’anglais dans leur apprentissage initial.
reciTAL a depuis sa création identifié le risque pour la francophonie et alerté plusieurs institutions.
Etalab s’est saisi du sujet et a confié à reciTAL une mission pour l’accompagner sur les aspects scientifiques et méthodologiques dans la constitution du premier jeu de questions-réponses francophones, sur le modèle de Squad (Stanford Question Answering Dataset).
Ces jeux de données permettent l’entrainement de réseaux de neuronnes profonds destinés à répondre à des questions posées en lagage naturel à partir d’un texte.
Le projet a d’ores et déjà abouti à la constitution d’un premier jeu de plusieurs milliers de questions-réponses qui ont permis de réaliser des premiers travaux d’évaluation et de recherche (lien vers publication LREC).
Ces premiers travaux confirment la nécessité, pour l’avenir, de constituer des jeux d’entraînement par langue pour optimiser les performances des modèles.