Source évidente de productivité, le traitement automatique des documents est un sujet majeur pour les entreprises. Depuis des décennies, les technologies permettant de faire de la capture documentaire n’ont eu de cesse de se perfectionner. Dernière en date, le Deep Learning a permis de franchir une étape décisive, notamment pour le traitement des documents non structurés. Cette sous-branche du Machine Learning, elle-même sous-catégorie de l’Intelligence Artificielle, permet en effet de traiter des documents jusque-là intraitables, avec une fiabilité inégalée. Explications.

Capture documentaire : les limites d’une approche par template

Les solutions historiques de GED et de traitement documentaire s’appuient sur une approche par template et/ou par règle. Cela signifie que pour un modèle de document donné, un expert paramètre la machine en lui donnant des consignes : en haut à droite, c’est le nom du fournisseur, à gauche celui du client, ici c’est le montant HT, etc. Cette approche fonctionne bien pour des documents ultra-standardisés et parfaitement scannés, tels que des documents Cerfa, mais montre rapidement ses limites :

Dans un monde ouvert où l’on peut recevoir une facture, un bon de commande ou un devis de n’importe quel prestataire dans le monde, il est impossible de paramétrer la solution sur tous les modèles du monde.
Le moindre micro-changement nécessite des jours de re-paramétrage. Si votre fournisseur change la mise en page de ses factures, les solutions historiques basées sur une approche par modèle manquent de robustesse et nécessitent de repartir de zéro pour créer un nouveau modèle.
Rapports annuels, documents financiers, lignes de tableaux… Le traitement automatique de certains documents est tout simplement impossible, à cause de leur complexité ou de leur variabilité.

Les récents progrès effectués dans le domaine du Deep Learning changent la donne, pour améliorer considérablement les performances de la capture documentaire.

Deep Learning : définition

Le Deep Learning est une branche du Machine Learning, qui est elle-même une sous-discipline de l’Intelligence artificielle. A l’inverse du Machine Learning Standard, le Deep Learning s’appuie sur des réseaux de neurones profonds. Ce type d’algorithme se présente sous la forme d’un réseau à plusieurs couches. La première permet d’ingérer les données, les suivantes de tirer des conclusions à partir des données ingérées, quand la dernière couche assigne une probabilité à chaque conclusion.

Ainsi, plutôt que de fonctionner par règle, l’approche utilisée en Deep Learning consiste à ne pas avoir de présupposés et à laisser la machine identifier d’elle-même ce qui sera intéressant pour elle, en lui fournissant des exemples sous forme de données brutes.

Deep Learning VS Machine Learning : quelles differences ?

Grâce à ses algorithmes profonds, le modèle de Deep Learning va déterminer de lui-même quels sont les attributs à appliquer pour obtenir un résultat. Aussi appelés « éléments discriminants », les attributs désignent les paramètres à prendre en compte pour résoudre un problème. Par exemple, si l’on cherche à prédire la note d’un hôtel sur TripAdvisor, les attributs à prendre en compte peuvent être la distance depuis le centre-ville, le prix de la chambre ou encore le nombre de sites historiques à proximité. En Machine Learning standard, il est nécessaire qu’un humain dise à la machine qu’elle doit s’appuyer sur ces attributs. Alors qu’en Deep Learning, il suffit de la laisser travailler sur les données brutes des hôtels pour qu’elle arrive d’elle-même à cette conclusion. Cette approche par l’exemple est particulièrement utile dans des domaines où l’on ignore les éléments discriminants, comme pour la vue, par exemple.

Le Deep Learning a d’ailleurs permis d’avoir d’excellents résultats en computer vision, sur la reconnaissance d’images, mais a aussi fait ses preuves sur le langage. On parle alors de Natural language processing (NLP). Entraîné sur d’immenses corpus de textes rédigés par des humains, les algorithmes non supervisés de Deep Learning ont en effet montré qu’ils étaient sensibles au contexte, robustes aux synonymes et multilingues.

Comment le Deep Learning révolutionne la capture documentaire

OCR, LAD/RAD… Si la méthode utilisée pour faire de la capture documentaire reste inchangée, selon que la technologie derrière soit du Machine Learning standard ou du Deep Learning, les performances changent grandement.

Premier acteur LAD/RAD labellisé Deep Tech, reciTAL s’appuie sur des algorithmes de Deep Learning pour automatiser les processus de capture, catégorisation et recherche, pour tous les types de documents. La force de reciTAL, c’est son approche multimodale qui combine Computer Vision et Natural language processing (NLP). Autrement dit, le fait d’utiliser les deux approches, visuelle et linguistique, pour faire du traitement intelligent de documents. Car finalement, c’est bien ce que nous faisons en tant qu’humains pour comprendre un document ! Nous lisons le texte, bien sûr, mais nous nous appuyons aussi sur les éléments graphiques de mise en page pour comprendre plus facilement le contenu et la hiérarchisation des informations.

L’utilisation de ces algorithmes de Deep Learning multimodaux change radicalement la donne en matière de capture documentaire. Désormais, il est possible de :

Traiter n’importe quel type de documents, peu importe la mise en page.
Entraîner la machine sur un faible nombre d’exemples : il suffit de la confronter à une cinquantaine d’exemples d’un type de documents, en annotant les data points qui nous intéressent, pour qu’elle sache traiter tous les documents de ce genre.
Être autonome pour améliorer le modèle. À l’inverse des anciennes solutions qui s’apparentaient à des boîtes noires, vous avez la main sur le modèle pré-entraîné de reciTAL. Il suffit de lui donner quelques dizaines d’exemples pour qu’il soit opérationnel sur de nouveaux documents.
Traiter les documents complexes, jusque-là inaccessibles au traitement automatique. Il devient possible de faire de l’extraction de données financières, contenues dans des lignes de tableaux, au sein de documents de centaines de pages, sans effort. Extractions complexes et extractions par groupe sont désormais une réalité.
Améliorer considérablement les scores de fiabilité. Là où l’on plafonnait à 65-75% d’automatisation, reciTAL permet de largement dépasser ces taux.

Mis au service de la capture documentaire, les récents progrès en Deep Learning ouvrent la voie à une toute nouvelle ère de traitement automatique des documents. Peu importe la variété ou la complexité des documents, les résultats du modèle développé par reciTAL sont tout simplement bluffants ! Pour vous en convaincre, une seule solution : demandez une démo !