Améliorer l’accès aux documents manuscrits numérisés grâce à l’IA : un projet pilote

En 2023, le Réseau canadien de documentation pour la recherche (RCDR) et Bibliothèque et Archives Canada (BAC) ont lancé un projet pilote visant à améliorer l’accès aux documents de la collection Héritage à l’aide d’un logiciel de reconnaissance intelligente des caractères (RIC). Héritage contient 42 millions de pages de documents d’archives numérisés sur microfilm provenant des collections de BAC. La majorité de ces documents sont écrits à la main et ne peuvent pas être traités avec la technologie traditionnelle de reconnaissance optique des caractères (ROC). Cela pose un défi de taille aux chercheurs qui consultent ces documents, car les instruments de recherche détaillés et les métadonnées qui facilitent la recherche ne sont pas toujours disponibles.

Le RCDR et BAC ont choisi le logiciel de ROC Transkribus de READ-COOP et 2 millions d’images de textes numérisés de la sous-collection RG 10 « Documents relatifs aux affaires indiennes » pour ce projet pilote. Transkribus utilise de grands modèles de langage (GML) pour identifier les caractères dans les textes numérisés manuscrits et imprimés avec un taux d’erreur de seulement 5-7%, et il peut être entraîné sur des documents spécifiques pour améliorer sa précision. La sous-collection RG 10 a été choisie en raison de sa pertinence pour les chercheurs en matière de revendications territoriales et d’histoire autochtone.

Le premier lot de documents soumis à READ-COOP concernait le ministère des Affaires indiennes : Ministère des Affaires indiennes : Registres de courrier ministériel, sélectionné en raison de son écriture relativement cohérente, de l’étendue de son contenu, de son potentiel de recherche et du faible risque de contenu sensible. Une bobine d’essai finalisée a été fournie au RCDR en novembre 2023 et a été testée avec des résultats très positifs.

Cette présentation décrira l’expérience du RCDR avec Transkribus à ce jour, présentera des exemples du matériel d’essai initial traité par Transkribus et décrira nos prochaines étapes et nos aspirations à long terme pour rendre la collection Héritage consultable en texte intégral.

Cette conférence est offerte dans le cadre du bloc thématique Intelligence artificielle

Conférencier·ères

Francesca Brzezicki
CPI 2024 - Mercredi 6 novembre - 16:30, Salon BAnQ
Jason Friedman
CPI 2024 - Mercredi 6 novembre - 16:30, Salon BAnQ