Sequantis analyse les rapports 7 fois plus vite avec Extract

Comment répondre aux questions des régulateurs en mesurant avec précision l’impact du réchauffement climatique sur la pérennité des entreprises ? Une question déterminante à laquelle Sequantis, spécialisé dans les outils de monitoring à destination des investisseurs, est confronté. En permettant aux analystes d’extraire directement et simplement l’information utile des rapports d’activité, la plateforme mise en place par reciTAL permet de réduire radicalement le temps d’analyse et d’accroître la précision des informations recueillies. Une collaboration féconde détaillée par Nicolas Fournier, CEO de Sequantis et Gilles Moyse, CEO de reciTAL.

Qu’est-ce qui a déclenché votre intérêt pour l’analyse des impacts environnementaux des entreprises ?

NICOLAS FOURNIER : Ça fait déjà un moment que la question climatique se pose en matière d’impact sur les activités économiques et financières. Alors quand, en 2019, la Banque d’Angleterre a imposé aux assureurs anglais un stress test les obligeant à mesurer leur résistance aux changements climatiques, il a fallu se mettre en ordre de marche pour y répondre. Plusieurs scénarios étaient imaginés, nécessitant de décomposer l’activité de certaines entreprises industrielles pour connaître le détail de leurs activités économiques ainsi que leurs initiatives en matière de lutte contre le réchauffement climatique. Nous avons commencé chez Sequantis à évaluer tout ce qui était à notre disposition pour répondre à cette exigence. En la matière, les sociétés publient des documents officiels, comme des rapports d’activités, qui sont une mine d’informations.

GILLES MOYSE : Au moment où Nicolas m’a parlé de ce projet fin 2019, reciTAL venait de débuter un use case avec sa solution Extract pour l’extraction des clauses LIBOR dans des contrats de prêts structurés. Si Extract fonctionnait pour des contrats de prêts, la solution pourrait fonctionner pour extraire des données dans des rapports corporate.

Comment faites-vous pour trouver les informations pertinentes dans ces rapports ?

NF : La plateforme développée permet d’extraire des morceaux de documents qui répondent à une requête faite sur un sujet donné. Concrètement, un analyste va pouvoir poser une question et obtenir automatiquement les éléments de réponse surlignés en jaune : encadrés, graphiques, tableaux, morceaux de paragraphes. La solution permet de restreindre le champ des possibles à un ensemble d’informations sur lequel l’analyste va pouvoir se concentrer. L’idée est de faire en sorte qu’un document de 500 pages puisse se lire en 30 minutes alors qu’il aurait demandé une demie journée en temps normal.

GM : Ce travail n’était pas fait jusqu’à présent ; non par négligence, mais par impossibilité technique. La documentation corporate est tellement volumineuse que même avec la meilleure volonté du monde, on ne peut pas tout lire avec un niveau de détail satisfaisant. Ce qu’on propose, c’est un résumé sur-mesure d’un document qui répond aux questions posées. C’est un gain de temps considérable.  

Je suppose qu’il y a quelques écueils à éviter avant que ça devienne si simple ?

NF : le rapport d’activité est un modèle extraordinaire de document déstructuré avec des formats hétérogènes, du texte et des phrases tournées totalement différemment, des tableaux avec des clés de rapprochement distinctes selon les acteurs. L’un va parler d’énergie renouvelable, l’autre de solaire et d’éolien, l’autre encore de photovoltaïque. Ce qu’on fait, c’est de la structuration de données non structurées.

Après avoir récupéré ces informations, comment les utilisez-vous finalement ?

NF : Ce qu’on cherche à objectiver, ce sont les effets négatifs qu’une entreprise peut avoir sur l’environnement mais également comment le réchauffement climatique peut impacter son activité. Dans l’hypothèse où les océans monteraient d’1m50, une usine implantée sur un littoral aura par exemple toutes les chances d’être impactée. C’est ce type d’information que nous recherchons pour en déduire les risques pour chaque entreprise. Dans les faits, la liste de tout ce qu’on peut identifier est colossale. On peut aller jusqu’à 200 informations par entreprise. Sur les 35000 entreprises que nous monitorons, ça nous fait 7 millions d’informations à extraire. Il nous reste du travail !

GM : Ce qui est passionnant avec ce projet, c’est de parvenir à structurer des informations extraites de documents rédigés par des humains. Des business d’audit entiers sont fondés sur ce principe. Les rapports annuels sont des mines d’informations qui peuvent nourrir de très nombreux axes d’analyse. L’idée est de pouvoir interroger n’importe quel document comme si c’était un oracle. Quand on lui pose une question, il nous donne une réponse. C’est ça l’objectif.

Où se situe l’intelligence artificielle dans votre solution ?

GM : A trois niveaux : La compréhension des documents, l’indexation sémantique et la réponse aux questions posées.

La première brique consiste à décomposer le document. L’œil humain le fait sans aucune difficulté, mais pour une machine, lire un tableau ou identifier un graphique demande un apprentissage. C’est un sujet au croisement de la Computer Vision et du traitement automatique du langage où on utilise du deep-learning sur lequel on est aujourd’hui très en pointe.

La deuxième brique repose sur les modes d’indexation sémantique. L’apprentissage par réseaux de neurones profonds permet à la machine d’identifier la proximité sémantique entre deux termes comme, par exemple, voiture et automobile. Le réseau de neurones apprend par lui-même le langage, épargnant à l’utilisateur la saisie de longues listes de mots, synonymes, acronymes, fautes d’orthographe…

La troisième brique consiste à trouver l’information à partir d’une question posée en langage naturel et pas simplement sur du matching de mots-clés. La plateforme propose aujourd’hui une combinaison de ces trois briques d’IA.

Que reste-t-il comme place à l’humain dans ce modèle de machine learning ?

NF : L’humain se situe à deux niveaux. Avant le processus car il faut savoir ce que l’on cherche et quelle est la bonne question à poser. Après, car il faut savoir interpréter les résultats obtenus et éventuellement approfondir sa recherche. Soyons clair, nous n’avons pas pour objectif d’éliminer l’humain mais plutôt de rendre les choses réalisables. Ça augmente notre capacité à affirmer qu’une société est vertueuse du point de vie du climat, parce que nous aurons vraiment été regarder tout ce qu’elle fait, que nous n’aurons pas raté une petite ligne qui pourrait changer la donne.

GM : Ces machines sont à des années lumières de la capacité de compréhension humaine. Elles peuvent répondre à des questions, mais n’ont pas d’intention ni de volonté. L’analyste, lui, a un objectif. Notre plateforme est une solution d’extraction factuelle d’informations. On pose une question, elle peut aller chercher la réponse et facilite ainsi considérablement le travail de l’expert.

Paris, le 27 novembre 2020.

Envie d’en savoir plus sur notre solution d’Extraction ? Demandez une démo.