Intelligent Document Processing : une nouvelle ère s’ouvre en matière de capture documentaire
L’intelligent Document Processing est une notion relativement nouvelle, qui ne connaît pas encore d’équivalent en français, mais qui regroupe trois grandes fonctionnalités :
- Catégoriser : Reconnaître un document pour le rattacher à une catégorie de documents (facture, contrat, rapport, ticket de caisse…)
- Capturer : Être capable de lire un document grâce à la reconnaissance automatique de caractères
- Rechercher : Pouvoir rechercher une information précise dans une masse de documents différents
Pour réaliser ces trois opérations nécessaires au traitement de documents en entreprise, le marché pouvait jusqu’à présent s’appuyer sur les technologies historiques de LAD/RAD et d’OCR. Sans trop rentrer dans les détails techniques, pour obtenir des résultats relativement satisfaisants avec cette méthode, il fallait décrire un certain nombre de règles, afin de comprendre la logique interne du document. Par exemple : le nom de l’émetteur d’une facture se situe généralement en haut à gauche, le montant HT est généralement à droite sur la même ligne que la mention « TOTAL HT », etc. Tout l’enjeu ici était de s’appuyer sur des schémas récurrents pour en tirer de grandes règles générales.
Evidemment, on comprend vite les limites d’un tel modèle : dès lors que la typologie de documents change, il faut tout recommencer de zéro. Le travail à effectuer est à alors long et peu efficient.
Capture documentaire : ne plus raisonner avec des règles, mais avec des exemples
Fort des dernières technologies d’IA, reciTAL ne nécessite pas de définir des règles pour lire et comprendre un document. La technologie utilisée par reciTAL consiste simplement à fournir un nombre restreint d’exemples à la machine, qui apprend ensuite à capturer les informations sur de nouveaux documents (courts, longs, non structurés). Là où le Machine Learning « standard » nécessitait de s’exercer sur des corpus documentaires de plusieurs milliers d’exemples, grâce au Deep Learning, reciTAL permet de réduire drastiquement le coût d’entrée, en ne nécessitant qu’une centaine d’exemples pour entraîner la machine.
Rapports financiers, lignes de facture, fiches de paie, tableaux de prestations… Cette nouvelle approche permet d’extraire des informations sur n’importe quel document. Un vrai plus, tant pour les éditeurs de logiciels que les intégrateurs de GED, qui sont constamment à la recherche de meilleures briques de capture documentaire pour améliorer leurs solutions. Ce degré de performance jusque-là inégalé intéresse aussi de près les analystes qui doivent éplucher des centaines de pages pour extraire une information précise.
« Les progrès extraordinaires du NLP (Natural Language Processing) ces trois dernières années ouvrent un nouveau chapitre qui permet aux machines de comprendre et lire les documents, de toutes formes. reciTAL est née avec cette révolution et nous avons choisi de l’accompagner, en proposant une plateforme qui adapte et met à disposition de chacun l’état de l’art de l’Intelligent Document Processing. Nous pensons que nous vivons une étape clé dans la transformation digitale des entreprises, comparable en impact à ce que les ERP ou CRM ont apporté il y a 20 ans », souligne à ce propos Frédéric Allary, cofondateur de reciTAL.
Avec reciTAL, la capture de n’importe quel document est à portée de clic
Factures, devis, notes de frais, cartes d’identité, passeports, permis de conduire… Pour répondre aux besoins de capture des documents les plus fréquents, reciTAL met à la disposition de ses clients une bibliothèque de modèles pré-entraînés. Dans ce cas-là, tout le travail de pré-paramétrage a déjà été effectué et vous disposez d’une solution clé en main. CRM, GED, messagerie, outil de RPA… Un jeu complet d’API permet en effet de vous connecter à toutes vos solutions.
Si votre activité impose de savoir traiter des typologies de documents particulières, par exemple dans l’assurance ou la finance, pas d’inquiétude : reciTAL propose des modèles sur-mesure. Dans ce cas, il suffit de donner à la machine une centaine d’exemples et de les annoter sur la plateforme reciTAL. Plus concrètement, lors de la phase d’annotation, vous définissez les data points qui vous intéressent et vous montrez 100 fois à la machine où se situent les informations que vous souhaitez extraire. Une fois ce travail à la main effectué, la machine est familière du type de document soumis et saura extraire automatiquement les données à l’avenir.
Bon à savoir : En moyenne, il faut compter une journée pour l’annotation, l’entraînement et le test d’un modèle sur mesure. Vous pouvez effectuer le travail d’annotation vous-même, ou le confier à l’un de nos partenaires d’annotation.
reciTAL : une performance sans commune mesure !
En décembre 2021, reciTAL a mené un benchmark parmi les principales solutions concurrentes. Résultat ? Avec 82% de fiabilité, reciTAL offre les meilleures performances du marché, devant 5 de ses concurrents. Grâce aux plugins d’extraction de tableaux et d’extraction de paragraphe, notre solution permet en outre d’excellentes performances sur les éléments complexes.
Le petit plus qui fait la différence ? Pour chaque extraction réalisée, reciTAL fournit un score de confiance. Ainsi, il devient possible d’automatiser en masse et de ne vérifier que lorsque c’est nécessaire. En fonction de chaque type de document, vous pouvez programmer le niveau d’automatisation souhaité. Au-dessus d’un certain seuil, vous pouvez décider d’automatiser tous vos processus, et en-dessous, de renvoyer les extractions réalisées vers l’interface de vidéo-codage.
Facile d’implémentation et d’utilisation, reciTAL vous donne accès à une puissance de traitement encore jamais vue. Grâce à sa R&D reconnue au niveau international, reciTAL s’impose comme une référence dans le monde du traitement automatique de documents. Déjà utilisée chaque jour par plus de 80 000 utilisateurs, notre solution ouvre le champ des possibles de la capture documentaire. Prêt à prendre le train en marche ? Contactez-nous et demandez une démo !