Un document, qu’il soit physique ou électronique, n’a de valeur que parce qu’il contient de l’information. Il n’est qu’un support, un prétexte à une information qui peut être déterminante pour une organisation. L’important n’est donc pas le contenant mais bien le contenu !

Lorsqu’une organisation décide de dématérialiser ses documents et/ou mettre en place une solution de gestion documentaire (autrement nommée gestion de contenus), la question de l’indexation des documents est centrale.

Quelles informations va-t-on adjoindre aux documents afin de les rechercher et les consulter plus rapidement, d’optimiser leur traitement ou encore d’organiser l’archivage ?

Ces informations (aussi appelées index, ou mots clés ou critères de recherche, métadonnées en fonction des logiciels utilisés), peuvent être de trois sortes :

  • Les données de description: généralement visibles, elles permettent d’identifier strictement le document et sont donc souvent utilisées comme critères de recherche mais aussi pour lier les pièces entre elles (ex : Numéro de commande, adresse mail d’un candidat, …)
  • Les données systèmes : Elles sont automatiquement générées par les solutions de numérisation et de gestion de contenus : Date de stockage, numéro unique, numéro de lot, … Ces données sont rarement visibles mais nécessaires dans le cadre de traitements automatisés, reporting ou encore pour la gestion du cycle de vie du document
  • Les données métiers, ou contextuelles. Il s’agit de données complémentaires, remplies manuellement ou par une action automatique, qui apportent des éclairages sur le document en fonction du contexte dans lequel il est utilisé (Données de localisation de l’archive, statut d’une facture en cours d’approbation, numéro chrono d’un courrier, référence d’un système tiers…) Ces données peuvent également être utilisées pour les traitements automatisés, Workflow, pour aider à la prise de décision.
Deux principaux freins : chronophage et à faible valeur ajoutée

Cette masse de données prend un temps considérable de saisie et de contrôle. C’est pourquoi les éditeurs ont développé, depuis de nombreuses années, des technologies visant à extraire ces données avec le moins d’interactions possibles : LAD, RPA, AI, tous ces acronymes relèvent de technologies visant à automatiser (entre autres) l’analyse des documents et l’extraction d’informations pertinentes.

Solutions à coûts optimisés

Ces technologies peuvent cependant représenter un coût initial conséquent dans l’acquisition des licences comme pour le déploiement et souvent liées au volume de pages.

Quelle sont les solutions alternatives ? Quel arsenal de fonctionnalités propose les éditeurs pour réduire le plus drastiquement possible, le recours à l’indexation manuelle ? Quelles solutions rapides, parfois standards ou à coût limité peuvent être déployées ?

Saisie contrainte

Tout d’abord, les mots-clés peuvent contenir divers types de données : texte, nombres (entiers et décimaux), dates, valeurs monétaires. Ainsi, la première étape consiste à contraindre l’opérateur de saisir seulement certains types de données. Dans le même registre, les masques de saisie apportent une contrainte supplémentaire en définissant des calques sur les valeurs de mots-clés attendues (la valeur attendue est une structure standardisée).

Il est possible de définir des listes déroulantes pour des types de mots clés, lorsque les valeurs attendues sont fixes et connues à l’avance. L’utilisateur choisit dans une liste prédéfinie la valeur qu’il attribue au document au moment de l’indexation, comme pour la recherche ; Les listes peuvent être également dynamiques et alimentées par des applications externes.

Dans l’esprit des listes, les mots-clés en cascade permettent de proposer à l’opérateur des valeurs en fonction des valeurs des mots-clés précédents.

Appel de données

Les systèmes doivent être en mesure d’appeler des données connexes, stockées localement ou dans des bases de données externes. L’opérateur ne saisit alors qu’une valeur, qui va appeler d’autres valeurs présentes dans le tableau de données. Cette fonction, aussi appelée Database Lookup est particulièrement utilisée lorsqu’on souhaite récupérer les informations d’un fournisseur, ou d’un employé. Au lieu d’indexer plusieurs champs, l’opérateur n’a qu’à entrer une seule valeur. Une combinaison de touches ou un bouton lui permet d’appeler les autres données.

Indexation à la volée

Une dernière fonction est une alternative sérieuse aux technologies avancées d’analyse de documents et d’extraction de données, il s’agit de l’OCR à la volée sur les documents (aka Capture au lasso, indexation par pointer-cliquer) en fonction des logiciels utilisés. Cette fonctionnalité permet de pointer sur un champ puis d’aller directement chercher dans le document la valeur correspondante. Un moteur OCR se charge alors de lire la valeur. Un système de suggestion est également parfois proposé lorsqu’un OCR pleine page est réalisé.

Ces solutions n’ont pas pour vocation d’automatiser l’indexation mais de réduire les interactions humaines, qui peuvent à la fois générer des erreurs et rallonger d’autant plus le temps de traitement des documents. On parle donc d’indexation assistée et est particulièrement applicable aux agents spécialisés ou non, grâce à des mécanismes simples, rapides à mettre en place et intuitifs.

Ces fonctionnalités peuvent également contribuer à une meilleure adoption des outils. Conduite au changement facilitée, configuration rapide optimisée, coûts souvent nuls ou très faibles…quels que soient vos besoins, vos problématiques, votre taille, vos choix, GDExpert s’adapte et accompagne tous ses clients pas à pas.