Dialogue BnF

Publié par Hamelin de Guettelet le mardi 14 avril 2009

© Zubro
Je viens de prendre connaissance d'une collaboration entre Wikisource et la bibliothèque national de France. En fait, dès mars 2008, la Wikimédia-France entamait des discussions avec la BnF pour une coopération gagnant-gagnant avec Wikisource.

Il s'agirait pour Wikisource de corriger des OCR (Optical Character Recognition - reconnaissance optique de caractères) préparés pour Gallica. Le problème de la BnF est qu'en dehors d'un petit nombre de textes océrisés en haute qualité, il n'y a pas de vérification humaine de ces textes. D'où des qualités diverses selon les ouvrages (caractères mal reconnus) et les problèmes ponctuels survenus (page pliée...). La BnF serait disposée de mettre à la disposition de Wikisource ses OCR avec un double objectif : disposer à la BnF de documents de qualité en mode texte relus par des contributeurs volontaires de Wikisource et de permettre à Wikisource de considérablement augmenter le nombre de ses textes disponibles. Amoatti et Remi Mathis négocient la remise de 1500 OCR de qualité divers pour tester un maximum de cas de figure. Voilà une initiative enthousiasmante mais il me semble que le nombre des wikisourciens actifs risque d'être bien trop faible pour assurer la relecture de 1500 OCR.

Ainsi va bien Wikipédia. À suivre.