Mesurer la performance des moteurs de reconnaissance OCR/ICR/LAD : Entre mythe et réalité

13 octobre 2017

|In Avis & Conseil d'expert, Capture, Numérisation & Dématérialisation

Le taux de reconnaissance s’inscrit comme l’un des indicateurs pour lesquels les acquéreurs de plateformes de dématérialisation souhaitent obtenir des garanties, dans le cadre d’un projet d’initialisation de LAD / RAD. Un besoin tout à fait légitime, lorsque l’on considère l’importance des sommes investies et les changements nécessaires dans les méthodes de travail. En outre, il est important de s’assurer que les plateformes de dématérialisation répondent aux objectifs fixés en amont, à savoir la réduction du temps de traitement des documents par le biais de l’optimisation de l’étape d’indexation, en matière de temps et de qualité du travail effectué.

Reflet du taux d’automatisation de la plateforme cible, la mesure de la performance d’un moteur de reconnaissance est donc une priorité majeure pour de nombreuses entreprises.

Malgré ce besoin, peu d’éditeurs sont aujourd’hui à même de communiquer le taux de reconnaissance de leurs solutions, ce dernier étant lié à des critères pouvant varier d’une entreprise à l’autre. Le taux de reconnaissance est-il l’indicateur principal de mesure de l’efficacité d’une solution de dématérialisation ? Quels sont les critères qui font osciller significativement les taux de reconnaissance ? Comment optimiser la chaîne de traitement des documents en vue d’améliorer le taux d’automatisation ?

Le taux de reconnaissance : de quoi parle-t-on exactement ?

Le taux de reconnaissance est un indicateur permettant de mesurer la performance d’un moteur de reconnaissance de caractères pour un projet donné. Il exprime, en pourcentage, le nombre de caractères reconnus sur un document. Ainsi, pour qu’un caractère soit considéré reconnu, des seuils de confiance sont définis en amont en fonction de plusieurs paramètres comme par exemple le type de caractère, la sensibilité de la valeur pour les besoins métier, etc.

Lorsque le seuil de confiance est dépassé, cela signifie que le moteur est suffisamment confiant dans son interprétation et le caractère est considéré comme « reconnu ». Par voie de conséquence, plus les caractères sont reconnus par le moteur, plus le taux de reconnaissance augmente. Les caractères non reconnus, quant à eux, envoient le document en vidéocodage pour une étape de contrôle de l’indexation à effectuer par un être humain.

En conclusion : plus le nombre de caractères reconnus est élevé, plus le taux d’automatisation est élevé.

L’importance du taux de reconnaissance dans le projet

Le taux de reconnaissance est indissociable du projet. Pour être en mesure d’avancer un taux de reconnaissance à son client, un éditeur doit d’abord effectuer un certain nombre de tests en conditions réelles, sur un échantillon suffisamment large. Le taux annoncé sera fonction de plusieurs aspects propres à chaque client, dont notamment :

La qualité de Numérisation / Qualité d’Image
L’adéquation du modèle pour la LAD
Le type d’informations à récupérer
La typologie de document
La possibilité d’utiliser des référentiels / Expression régulière

La qualité de Numérisation et la qualité résultante des images traitées ont un impact particulièrement important sur les résultats de reconnaissance. Cette dernière peut grandement varier en fonction d’éléments comme la résolution de numérisation, le type de compression utilisé, la colorimétrie ou encore les paramètres de luminosité.
A titre d’exemple, le fait de passer d’un document peu compressé, en 300 DPI niveau de gris, une luminosité adaptée au document, à un document compressé (type JPEG 2000) en 200DPI noir et blanc, peut faire diminuer les taux de lecture jusqu’à 50% !
Les modèles de documents (structurés ou semi-structurés) peuvent être plus ou moins adaptés à une automatisation de l’extraction des données des documents concernés. Ainsi, plus un document aura été anticipé pour optimiser la LAD, plus la reconnaissance sera efficiente.
Par exemple, les données des formulaires seront extraites avec des taux de reconnaissance différents, si les champs prévus au remplissage ont été conçus en anticipant l’extraction automatique.

Lors de la reconnaissance de ce type de champ, les taux de reconnaissance seront beaucoup plus faibles que si ce champ avait été conçu à l’origine pour une reconnaissance optimum.

Les éléments comme l’espacement des champs entre eux, la lisibilité du formulaire, les indications de remplissage du document, l’utilisation de fond de couleurs et de précasage sans bordure, l’utilisation d’un espacement idéal entre les cases permettront d’atteindre de très bonnes performances de lecture. Pour découvrir comment optimiser la capture des formulaires dès leur conception, cliquez ici.

En conclusion, nous pouvons affirmer qu’à données de lecture équivalentes, un modèle optimisé peut multiplier par 2 le taux d’automatisation au niveau du champ, comme l’illustre l’exemple ci-dessous.

Le type de données fait également varier les performances d’un moteur de reconnaissance.
Il est plus simple de lire un champ très contraint qu’un champ ouvert. Par exemple, il est plus aisé de lire un champ contenant une date numérique dont on connaît la plage possible (champ contraint), qu’une adresse e-mail (champ ouvert).
Sur un document, un champ numérique pourra avoir un taux d’automatisation entre 80% et 95%, tandis qu’une adresse e-mail aura un taux d’automatisation variant entre 20% et 40%.

Les champs de type case à cocher (s’ils sont correctement pensés en amont) permettent un taux d’automatisation important, dépassant généralement 95%.

La typologie de document
On distingue trois types de documents :
1. Les documents structurés, dont les informations et leur placement sur le document sont fixes ;
2. Les documents semi-structurés, dont les informations sont redondantes mais leur placement varie suivant le document ;
3. Les documents non structurés, dont les informations ne sont pas prédictibles.

Les champs OCR sur des documents structurés présentent généralement de forts taux d’automatisation, dès lors que le document est correctement numérisé. Néanmoins, si les champs sont post-imprimés dans des emplacements précasés et qu’en outre, le pré-casage n’a pas été optimisé, cela engendrera une forte chute des taux de lecture au niveau du champ en question.

Bon à savoir ! Les données ICR (reconnaissance des caractères manuscrits) lues dans des documents structurés, qu’il s’agisse d’écriture manuscrite non-cursive, bâton ou script, présente des taux de lecture plus faibles que l’OCR.

Les champs ICR sont généralement entrés dans des « zones de contrainte » qui peuvent elles-mêmes faire fortement varier les taux de lecture.

Le type de document, ainsi que les conditions lors du remplissage, peuvent entraîner une application plus moins importante de la personne qui remplit le document. Ainsi, un document officiel important sera généralement rempli de manière bien plus lisible qu’un document de chantier rempli sur un bloc-notes, par exemple.

Les documents semi-structurés sont généralement des documents imprimés. Pour ces documents, la complexité n’est pas liée à la reconnaissance OCR – généralement très bonne si le document est de qualité correcte – mais à la localisation des champs. Il faut savoir que plus la localisation des champs est complexe, plus le taux d’extraction (c’est-à-dire la capacité du modèle à trouver les champs pertinents) sera réduit.

Référentiels et expressions régulières
Plus un champ sera fermé en termes de contenu, plus les résultats de reconnaissance seront bons. Le fait de disposer de référentiels pour un champ donné augmentera les taux de reconnaissance (estimés entre 10% et 70% en fonction de la profondeur du référentiel). Ceci est également le cas si une expression régulière peut être définie, avec une augmentation du taux de reconnaissance variant en fonction des alternatives possibles offertes par l’expression régulière utilisée. Néanmoins, si le référentiel est trop large (par exemple, s’il contient une base de 20 000 noms de famille), l’impact positif sera beaucoup plus faible.

Les performances d’un moteur OCR ou ICR sont conditionnées par le projet de dématérialisation lui-même. Ainsi, à deux projets différents peuvent correspondre des taux de reconnaissance diamétralement opposés.

L’organisation souhaitant s’équiper d’une solution de LAD/RAD devra considérer avec prudence les annonces de taux de reconnaissance parfois attractifs et prendre le temps de mener des tests avec les éditeurs, en vue de mesurer les réelles performances de l’automatisation de LEURS documents.

Il n’y a donc pas un taux de reconnaissance par solution de dématérialisation, mais bien un taux de reconnaissance par projet, par typologie documentaire …

GD EXPERT peut vous accompagner dans vos projets de dématérialisation et vous apporter son expertise pour évaluer vos documents, mais également pour modéliser des formulaires optimisés pour la LAD. N’hésitez pas à nous contacter pour bénéficier de nos conseils.