La reconnaissance des caractères arabes : un défi technologique ?

8 juillet 2016

L’arabe est la 8ème langue la plus parlée au monde, avec plus de 400 millions de locuteurs. Et pourtant en ce qui concerne les technologies de reconnaissance de caractères, même celles des leaders de la dématérialisation, les performances sont en deçà de 30 à 40 points de celles pour les caractères latins. Les besoins des organisations arabophones en termes de dématérialisation sont, eux, bien en augmentation.
Quels sont les freins à la reconnaissance des caractères arabes ? Peut-on espérer atteindre des taux de reconnaissance similaires ? Existe-t-il des moteurs performants et innovants ?
Voici notre avis d’expert.

OCR, qu’est-ce que c’est ?

OCR signifie Optical Caracter Recognition / Reconnaissance optique de caractères en français. C’est une technologie qui permet de récupérer le texte présent dans un document, en vue d’exploiter les données brutes dans un logiciel métier ou ECM ensuite.

Après l’océrisation d’un document, 3 applications sont ensuite possibles :

La recherche de tout mot contenu dans le document devient possible, comme avec Google. Cette fonction est aussi appelée recherche intégrale ou full-text. Tout le contenu est reconnu et enregistré dans un rendu au format de votre choix, généralement un fichier plat (.txt, .xml, …).
L’indexation automatique des documents est permise grâce à la reconnaissance de certaines informations clés.
La classification automatique des documents par type est aussi permise grâce aux termes clés trouvés dans le document selon des critères prédéfinis (exemple : si le mot « contrat » est retrouvé dans le titre, le document sera typé comme tel)

Cette technologie est donc utilisée dans le processus de dématérialisation des documents, afin de réduire le temps d’intégration et de fiabiliser les données (grâce à des contrôles automatiques) qui seront intégrées au système d’information.

Les spécificités de la langue arabe comme explications

Taux de reconnaissance moyen des caractères imprimés latins : 90%

Taux de reconnaissance moyen des caractères imprimés arabes : ±50%

La majeure partie des moteurs OCR se basent sur une analyse graphique de l’image pour identifier les formes et caractères et utilisent leur méthode de rapprochement pour rapprocher les caractères.

L’écriture arabe, elle, dispose de caractéristiques propres qui posent difficulté aux moteurs :

L’arabe est une langue sémitique : elle utilise des racines à trois lettres où les voyelles ne sont pas toujours écrites. Le moteur a des difficultés pour reconstituer les mots.
Les signes dits diacritiques (signes obligatoires ou qui facilitent la lecture) accompagnent chaque mot. Ainsi, lors de l’étape de prétraitement, ces signes peuvent être supprimés par les fonctions d’amélioration automatique d’image (fonction « despeckle » particulièrement prisée pour des documents anciens et/ou abîmés) et donc altérer le résultat attendu.
Une même lettre peut recouvrir différentes formes selon sa place au sein du mot ou au sein même d’une syllabe. Il faut donc anticiper cette particularité dans le paramétrage du moteur.
Graphiquement, la forme des caractères est couchée sur la ligne et non verticale comme la plupart des autres écritures. De plus, il s’agit d’une écriture cursive et la continuité des caractères affaiblit la segmentation nécessaire à l’identification de caractères.

Il existe donc un certain nombre d’obstacles inhérents aux spécificités de la langue qui peuvent altérer la reconnaissance des caractères arabes. Cependant, les technologies ont évolué et évoluent encore pour apporter plus de performances et améliorer la qualité des résultats.

L’innovation technologique en marche

Face aux difficultés rencontrées, les éditeurs, comme les laboratoires de recherche se sont orientés vers des technologies toujours plus innovantes, voire disruptives. Des instituts comme le NIST (National Institute of Standards and Technology) ou l’IAPR (International Association of Pattern Recognition) disposent de programmes valorisant la recherche dans le domaine de la reconnaissance. Ils organisent régulièrement des compétitions visant à récompenser les travaux les plus performants.

Le moteur OCR arabe de A2iA, un des leaders du domaine, a été mis plusieurs fois à l’épreuve au cours de ces compétitions et en a été trois fois lauréat :

ICDAR (International Conference on Document Analysis and Recognition) : lauréat en 2009 et 2011
OpenHaRT (Open Handwriting Recognition and Translation Evaluation) : lauréat en 2013

Le moteur s’est également distingué en 2014 en arrivant premier aux tests de reconnaissance de l’écriture manuscrite et imprimée en français, anglais et arabe lors de la campagne MAURDOR (évaluation des systèmes de traitement automatique de documents écrits, coordonnée par le Laboratoire Nationale de métrologie et d’Essais et CASSIDIAN). Historiquement, il est le fruit d’un Projet Etude Amont développé pour le compte d’un ministère français, pour des caractères imprimés mais surtout manuscrits.

Il s’appuie sur la technologie RNN (recurrent neural networks – réseaux de neurones récurrents), particulièrement usitée pour la reconnaissance des caractères des archives anciennes, et qui s’applique très bien aux caractères arabes.

La technologie RNN

Cette technologie repose sur les réseaux de neurones qui sont présents dans la communauté du Machine Learning depuis des décennies, gagnant chaque année en maturité et répondant à toujours plus de challenges.
Récemment, une nouvelle forme de réseaux de neurones, les RNN (réseaux récurrents), a émergé et (presque) mis à la porte la précédente dans certains domaines, tels que la reconnaissance de la parole ou de l’écriture.
Pourquoi ? Grâce à la récurrence. Celle-ci apporte une dimension temporelle au réseau de neurones, lui permettant de se modéliser en fonction de son contexte, de ce qu’il se passe avant et après. La modélisation n’est donc plus statique, mais dynamique.
Pour la reconnaissance d’écriture, cela se traduit par : un moteur de reconnaissance qui se passe de segmentation de caractères, et même de segmentation de mots, des images traitées non pas à partir de caractéristiques calculées manuellement, mais automatiquement, et enfin, une reconnaissance qui se passe d’un vocabulaire. De l’OCR pour le cursif, et c’est une petite révolution !

Les innovations de ces dernières années offrent donc de belles perspectives pour l’océrisation des documents en arabe et in fine, leur dématérialisation totale.

GDExpert représente sur son marché 4 grands éditeurs de capture qui proposent des moteurs de reconnaissance de la langue arabe. N’hésitez pas à nous consulter pour vos projets de dématérialisation de documents en arabe : documents structurés ou non, dactylographiés ou cursifs, documents anciens ou récents… Nous vous proposerons une réponse personnalisée à chacune de vos problématiques documentaires.