Inteligencia artificial para rastrear cualquier documento gráfico como si fuera un buscador web

La UPV y el IAPH desarrollan una herramienta capaz de localizar manuscritos en fondos de archivos históricos
UPV_Proyecto_Carabela_01

Investigadores de la Universitat Politècnica de València (UPV) y del Centro de Arqueología Subacuática del Instituto Andaluz del Patrimonio Histórico (IAPH) han desarrollado, durante los dos últimos años, una herramienta que permite el acceso a los contenidos de más de 130.000 imágenes del Archivo General de Indias y el Archivo Histórico Provincial de Cádiz, utilizando, para ello, tecnología relativa a la inteligencia artificial y aprendizaje automático (machine learning).

“Con estas técnicas podemos rastrear cualquier documento gráfico con la misma rapidez que un buscador web, identificando palabras concretas, combinaciones de palabras, frases, etc.... Todo ello gracias a modelos estadísticos que hemos entrenado a partir de ejemplos y que ahora son los grandes aliados para el estudio de estos fondos de la historia de España. Y los mismos métodos pueden aplicarse también a otros muchos documentos históricos”, destaca Enrique Vidal, investigador del centro Pattern Recognition and Human Language Technologies (PHRLT) de la Universitat Politècnica de València.

El proyecto Carabela, que ha recibido el apoyo del programa de Ayudas a Equipos de Investigación Científica de la Fundación BBVA –en el área de Humanidades Digitales–, utiliza técnicas de aprendizaje automático para “indexar imágenes de texto manuscrito en grandes colecciones de documentos históricos cuyo estado de conservación y enrevesados estilos de escritura hacen casi imposible la lectura de sus documentos por humanos”, según apunta Joan Andreu Sánchez, investigador también del PHRLT-UPV.

Estas técnicas son capaces de identificar y discernir los distintos tipos de letras utilizados en cada una de las épocas en las que están datados los documentos e incluso analizar imágenes cuya calidad es muy baja.

La clave está en la capacidad de sus algoritmos para obtener modelos que se “aprenden” automáticamente a partir de ejemplos. “Dichos modelos necesitan una cantidad de datos de aprendizaje relativamente pequeña para obtener resultados muy satisfactorios –añade Enrique Vidal–. Estos métodos permiten responder satisfactoriamente a desafíos que los propios documentos plantean, como las diferencias de grafías, borrones, o calidad de la imagen”. 

Equipo de la UPV participantes en el proyecto Carabela.

En este caso, el aprendizaje se hizo con unas 500 páginas del Archivo de Indias, que fueron seleccionadas y transcritas por Carlos Alonso y su equipo de especialistas del Centro de Arqueología Subacuática del Instituto Andaluz del Patrimonio Histórico

Primeros resultados

Carabela ha sacado a la luz información de los manuscritos acerca de pecios que constituyen un patrimonio arqueológico de primera magnitud, debido a la gran riqueza histórica y cultural de su contenido. “Carabela contribuye así también a evitar el expolio del patrimonio sumergido”, explica Joan Andreu Sánchez.

Pero, sin duda, uno de los hallazgos más sorprendentes en estos fondos se produjo cuando, buscando términos relacionados con Australia –tales como ‘Tierra Austral Incógnita’– se encontró una carta de principios del siglo XVIII dirigida al rey Felipe V.

“En esta misiva, escrita por el jesuita Andrés Serrano, hemos descubierto referencias muy precisas al continente austral datadas de 1705, mucho antes de que el capitán James Cook llegara hasta sus costas. Datos poco conocidos sobre la historia de Australia y que ahora descubrimos aplicando las técnicas de indexación y búsqueda probabilística desarrolladas en nuestro centro”, explica Enrique Vidal.

Especiales

Ajustes
Innovación española

A través del presente Panel de Configuración, puede aceptar o rechazarlas en su totalidad o puede seleccionar qué tipo de cookies quiere aceptar y cuáles quiere rechazar.

Para obtener más información, acceda a nuestra Política de Cookies

Cookies técnicas

Las cookies técnicas que son estrictamente necesarias y permanecen siempre activas son para que el usuario acceda y navegue en INNOVASPAIN.COM.

Cookies de Preferencias o personalización

Utilizamos cookies de personalización que son aquellas que, tratadas por nosotros o por terceros, nos permiten recordar información para que el usuario acceda al servicio con determinadas características que pueden diferenciar su experiencia de la de otros usuarios.

Si desactivas esta cookie no podremos guardar tus preferencias. Esto significa que cada vez que visites esta web tendrás que activar o desactivar las cookies de nuevo.

Cookies Analíticas

Utilizamos cookies de análisis o medición que son aquellas que, tratadas por nosotros o por terceros, nos permiten el seguimiento y análisis del comportamiento de los usuarios de los sitios web a los que están vinculadas, incluida la cuantificación de los impactos de los anuncios.