Interpole:ReciT

La problématique de numérisation des livres anciens

Les livres anciens, tombés dans le domaine public, pourraient facilement être mis à disposition du plus grand monde sur internet mais pour faciliter la recherche parmi ces ouvrages, il faut transformer le scan de la page (qui est une photographie) en texte numérisé dans lequel on peut rechercher. Ce sont les logiciels de reconnaissance de caractères (OCR) qui s'en chargent mais ils rencontrent des difficultés particulières avec ces ouvrages. En effet, ceux-ci sont imprimés avec des caractères typographiques particuliers et le temps a souvent abîmé les pages. Pour améliorer leur taux de reconnaissance, les logiciels de reconnaissance de caractère (OCR) ont besoin "d'apprendre". C'est-à-dire qu'ils ont besoin que leurs résultats soient confrontés à des résultats obtenus par des humains pour augmenter peu à peu le nombre de signes qu'ils peuvent reconnaître. Or la transcription par les humains est longue et rébarbative.