TV en vivo

Nuevo sistema ayuda a transcribir textos manuscritos antiguos

El proyecto lleva por nombre Transcriptorium, ahora se encuentra trabajando con textos desde el siglo XV hasta principios del XX; se desarrolla en castellano, holandés, alemán e inglés.

México

Valencia ? La Universidad Politécnica de Valencia (este) encabeza un proyecto europeo que desarrolla un sistema para el reconocimiento automático de imágenes de documentos antiguos manuscritos y poder transcribirlos de la forma más rápida posible.

Se trata del proyecto Transcriptorium, que forma parte de un programa de la Unión Europea y en el que también participan socios del Reino Unido, Austria, Grecia y Holanda.

El coordinador del proyecto, Joan Andreu Sánchez, explicó a EFE que el proyecto busca un prototipo para probar "cómo se podrían utilizar en un entorno real técnicas automáticas e interactivas que ya se están desarrollando" para poder transcribir documentos manuscritos antiguos, con técnicas que aprenden automáticamente y que, por tanto, se aplican a cualquier lengua y aceleran el trabajo.

El proceso de transcripción actualmente se hace manualmente y la idea de los investigadores es incorporar técnicas automáticas de reconocimiento del habla en este tipo de transcripción, según Sánchez.

Estas técnicas que utilizan, no obstante, "no tienen que ver" con las técnicas de reconocimiento óptico de caracteres (OCR).

"Para las técnicas de OCR se utilizan técnicas de segmentación, es decir, se aíslan los caracteres y luego se reconocen; pero la escritura manuscrita es ligada y no hay técnicas que lo separen automáticamente, por lo que el proceso de reconocimiento no se puede abordar carácter a carácter sino como un todo de caracteres, palabras y líneas", añadió.

Una de las principales ventajas de este proyecto es que las técnicas que utilizan "aprenden automáticamente a partir de ejemplos y, por tanto, no son específicas para una determinada lengua sino que se pueden aplicar a cualquier lengua".

En concreto, Transcriptorium se desarrolla en castellano, holandés, alemán e inglés, aunque el grupo de trabajo también ha explorado documentos "en árabe y otras lenguas".

Para un volumen de unas mil páginas, unas cincuenta se transcriben a mano y, una vez hecho esto, "se entrenan modelos para proporcionar resultados razonables para el resto de páginas, lo que acelera el trabajo".

Tras la limpieza de la imagen, el proceso contempla la detección de zonas textuales de interés, posteriormente se detectan las líneas automáticamente y luego se transcriben con herramientas ya usadas en el reconocimiento automático del habla.Estas técnicas se pueden aplicar a cualquier tipo de documento de biblioteca, archivos o colecciones privadas.

En concreto, el proyecto trabaja con textos desde el siglo XV hasta principios del XX, entre ellos registros matrimoniales (en castellano) o sentencias judiciales (en alemán).

Trabajan también en la colección del filósofo Jeremy Benthan, unos 30 mil documentos que el College London está transcribiendo manualmente, con el propósito de proporcionar herramientas para facilitar esos procesos de transcripción.

Además, Sánchez subrayó que el software que desarrolla el proyecto será libre.

EFE

Logo multimedios

Queda prohibida la reproducción total o parcial del contenido de esta página, mismo que es propiedad de MULTIMEDIOS; su reproducción no autorizada constituye una infracción y un delito de conformidad con las leyes aplicables.

Te puede gustar

Enlaces promovidos por Taboola

Utilizamos cookies

Utilizamos cookies para darte la mejor experiencia de usuario y entrega de publicidad, entre otras cosas. Si continúas navegando el sitio, das tu consentimiento para utilitzar dicha tecnología, según nuestra Política de cookies. Puedes cambiar la configuración en tu navegador cuando gustes.

Quiero saber más Estoy de acuerdo