eScriptorium
eScriptorium est une plateforme open source conçue pour la transcription automatique de documents manuscrits. Elle combine des techniques de reconnaissance de texte avancées avec une interface conviviale pour permettre aux utilisateurs d’analyser et de transcrire ce type de documents.
Caractéristiques
eScriptorium emploie l’intelligence artificielle (IA) pour les travaux de transcription et permet à ses utilisateurs d’entraîner l’IA pour un type de documents spécifiques. Le logiciel fait partie de la famille des outils de reconnaissance optique de caractères ?(OCR) et utilise le système OCR Kraken pour la segmentation et la transcription des textes.
Fonctionnement
Téléchargement et préparation des images
Les utilisateurs téléchargent des images de documents manuscrits sur la plateforme. Ces images peuvent provenir de diverses sources, telles que des photographies ou des scans de manuscrits anciens.
Avant de commencer le processus de transcription, les images peuvent être prétraitées pour améliorer leur qualité, en ajustant la luminosité, le contraste ou en réduisant le bruit.
Segmentation des textes
La segmentation consiste à diviser l’image en lignes et en blocs de texte. Cette étape est cruciale pour que le système identifie correctement les zones à transcrire.
eScriptorium utilise des techniques d’apprentissage automatique? pour effectuer cette segmentation de manière automatique. Les utilisateurs peuvent ajuster manuellement la segmentation.
Transcription automatique avec un modèle de reconnaissance de texte manuscrit
eScriptorium utilise des modèles de reconnaissance automatique de texte manuscrit (Handwritten Text Recognition? - HTR) pour transcrire le texte des images.
Ces modèles sont souvent basés sur des réseaux de neurones entraînés sur des corpus de documents similaires. Ils peuvent être adaptés à des styles d’écriture spécifiques ou à des langues particulières.
Les utilisateurs peuvent choisir parmi des modèles existants ou entraîner leurs propres modèles en fonction de leurs besoins.
Entraînement de modèles personnalisés
eScriptorium permet aux utilisateurs d’entraîner leurs propres modèles HTR, en fournissant des exemples de texte manuscrit déjà transcrit.
Cette personnalisation améliore la précision de la transcription pour des collections spécifiques de documents, des styles d’écriture particuliers, ou des langues moins couramment utilisées.
Révision et correction
Une fois la transcription automatique terminée, les utilisateurs peuvent réviser et corriger le texte transcrit.
eScriptorium offre une interface qui permet de voir simultanément l’image originale et le texte transcrit, facilitant les ajustements et les corrections.
Export et utilisation des données
Les textes transcrits peuvent être exportés dans divers formats (TXT, XML?, TEI, etc.), facilitant leur utilisation dans d’autres applications.
La plateforme prend également en charge les annotations et les métadonnées?, ce qui permet une gestion complète et détaillée des documents transcrits.
Collaboration et partage
eScriptorium est conçu pour faciliter la collaboration. Des équipes de chercheurs peuvent travailler ensemble sur un projet de transcription, en partageant les tâches de correction, de validation et d’annotation.
Aide et tutoriels
Documentation officielle
Documentation (en)
Des référentiels de modèles entraînés :
Manuels et tutoriels
Lectaurep : Prendre en main eScriptorium
Vidéos
OpenITI Project : eScriptorium Tutorial en 4 parties (avec traduction française)
Peter Stokes et Benjamin Kiessling : eScriptorium : plateforme de transcription automatique
Porteurs et partenaires
eScriptorium a été développé par le laboratoire AOROC de l’École Pratique des Hautes Études-Université Paris Science et Lettres (EPHE-PSL). Le projet a bénéficié du soutien du projet européen RESILIENCE, ainsi que de la Mellon Foundation.
Il est partenaire de plusieurs universités, dont l’University of Maryland College Park (UMD), Aga Khan University (AKU), Universität Wien (UW), et Northeastern University.
Article publié le 30 août 2024 Dernière mise à jour : 8 septembre 2025
