MarIA: inteligencia artificial para comprender la lengua española

El BSC ha desarrollado una herramienta entrenada en MareNostrum con archivos de la Biblioteca Nacional que podrá utilizarse en múltiples aplicaciones
maria bsc

El BSC ha desarrollado una herramienta con inteligencia artificial que es capaz de comprender la lengua española. Se trata de MarIA, una iniciativa para la que se han utilizado archivos de la Biblioteca Nacional y que podrá utilizarse en múltiples aplicaciones: predictores y correctores lingüísticos, chatbots, aplicaciones de resumen automático, búsquedas inteligentes, aplicaciones para el análisis de sentimientos o motores de traducción y subtitulación automática, entre otros.

“Este proyecto nace del plan de impulso a las tecnologías del lenguaje, de la Secretaría de Estado de Digitalización e Inteligencia Artificial”, indica Marta Villegas, responsable del proyecto y líder del grupo de minería de textos del BSC-CNS. “Ha sido un trabajo apasionante, porque en medio del desarrollo de MarIA las tecnologías del lenguaje han tenido una gran disrupción, como las redes neuronales profundas. Hemos podido vivir algo espectacular: Siri, Alexa… Antes era impensable”.

Para desarrollar esta herramienta, primero, probaron con el catalán, coincidiendo con otro proyecto llamado AINA, de la Generalitat de Cataluña, destinado a garantizar la vida digital del idioma. Las primeras pruebas las hicieron ya que era más pequeño que el español. “Para crear el corpus de MarIA, se utilizaron 59 terabytes (equivale a 59.000 gigabytes) del archivo web de la Biblioteca Nacional”.

MarIA, un conjunto de modelos del lenguaje “o, dicho de otro modo, redes neuronales profundas que han sido entrenadas para adquirir una comprensión de la lengua, su léxico y sus mecanismos para expresar el significado y escribir a nivel experto”, ya está disponible en abierto para que cualquier desarrollador, empresa o entidad pueda utilizarlo sin coste. 

Cómo se ha creado MarIA

Según la líder del grupo del BSC, la parte crucial fue hacer modelos de la lengua. “Había que disponer de muchos datos, de datos masivos. No hay ningún proveedor que pueda ofrecer ese volumen. Nosotros hemos contamos con el esfuerzo de la Biblioteca Nacional y hemos podido disponer de esos datos, que son un lujo”, subraya. 

Pero eso fue el primer paso; el siguiente fue “limpiarlo”. Y es que estos archivos se procesaron para eliminar todo aquello que no fuera texto bien formado –como números de páginas, gráficos, oraciones que no terminan, codificaciones erróneas, oraciones duplicadas, otros idiomas, etcétera– y se guardaron solamente los textos bien formados en la lengua española, tal y como es realmente utilizada, explican desde el BSC. 

Para este cribado y su posterior compilación fueron necesarias 6.910.000 horas de procesadores del superordenador MareNostrum y los resultados fueron 201.080.084 documentos limpios que ocupan un total de 570 gigabytes de texto limpio y sin duplicidades. “Un proceso muy árido, poco sexy, pero que es crítico, porque al final un modelo se entrena con lo que le das”, destaca Villegas.

Una vez creado el corpus de MarIA, los investigadores del BSC utilizaron una tecnología de redes neuronales (basada en la arquitectura Transformer), que ha demostrado excelentes resultados en el inglés –“que tiene una gran cantidad de aplicaciones en dominios muy específicos: mesas para restaurantes, tareas… Para el castellano hay muy poco, un gran hándicap”, señala Villegas–. 

Estas redes neuronales multicapa son una tecnología de inteligencia artificial y los entrenamientos consisten, entre otras técnicas, en presentar a la red textos con palabras ocultas, para que aprenda a adivinar cuál es la palabra ocultada dado su contexto.

Especiales

Ajustes
Innovación española

A través del presente Panel de Configuración, puede aceptar o rechazarlas en su totalidad o puede seleccionar qué tipo de cookies quiere aceptar y cuáles quiere rechazar.

Para obtener más información, acceda a nuestra Política de Cookies

Cookies técnicas

Las cookies técnicas que son estrictamente necesarias y permanecen siempre activas son para que el usuario acceda y navegue en INNOVASPAIN.COM.

Cookies de Preferencias o personalización

Utilizamos cookies de personalización que son aquellas que, tratadas por nosotros o por terceros, nos permiten recordar información para que el usuario acceda al servicio con determinadas características que pueden diferenciar su experiencia de la de otros usuarios.

Si desactivas esta cookie no podremos guardar tus preferencias. Esto significa que cada vez que visites esta web tendrás que activar o desactivar las cookies de nuevo.

Cookies Analíticas

Utilizamos cookies de análisis o medición que son aquellas que, tratadas por nosotros o por terceros, nos permiten el seguimiento y análisis del comportamiento de los usuarios de los sitios web a los que están vinculadas, incluida la cuantificación de los impactos de los anuncios.