Érase una vez en 1954…

Por Domingo Senise, heterodoxo de libro

Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt
(Los límites de mi lenguaje son los límites de mi mundo)
Ludwig Wittgenstein, Tractatus logico-philosophicus

… En un frío día de enero tenía lugar en Washington D.C. el experimento Georgetown-IBM, la primera y más influyente demostración de traducción automatizada de la historia. Desarrollado conjuntamente por la Universidad de Georgetown e IBM, el experimento implicaba la traducción automatizada de más de 60 oraciones del ruso al inglés. Las oraciones se escogieron de manera precisa; no había ningún análisis sintáctico que pudiera llegar a detectar la estructura de la oración. El enfoque fue eminentemente lexicográfico, basado en diccionarios en los que una palabra determinada tenía una conexión con unas reglas específicas.

Aquello fue un éxito y, cuenta la historia que, tal fue la euforia entre los investigadores, que se llegó a afirmar que en un plazo de entre tres y cinco años el problema de la traducción automatizada quedaría resuelto… Eso fue hace algo más de 60 años y el problema del lenguaje, de la comprensión y generación de mensajes por parte de una máquina, aún está sin resolver. Probablemente es la última barrera que separa a la inteligencia humana de la inteligencia artificial.

En el plano estructural, comentaba Chomsky en su obra El análisis formal de los lenguajes naturales, que el hablante nativo de una lengua tiene la capacidad de comprender un número inmenso de oraciones que nunca antes ha oído, así como la de producir oraciones inéditas que resultan análogamente comprensibles para otros hablantes nativos. La máquina tendría que imitar el aprendizaje de un niño: capaz de admitir como entrada (input) una muestra de oraciones gramaticales, y de producir como resultado (ouput) una gramática de la lengua, por esencia finita. Una gramática debe constituir una teoría sobre aquellas regularidades recurrentes a las que englobamos bajo la expresión “estructura sintáctica de la lengua”.

Con los avances que ha habido en el estudio del procesamiento de lenguaje natural en estos últimos 60 años los niveles léxico y morfosintáctico prácticamente han podido ser abordados por la máquina, pero ¿qué ocurre con el nivel semántico y su “temible” ambigüedad?

Indicaban Baroni, Bernardi y Zamparelli en su obra Frege in Space: A Program for Compositional Distributional Semantics, que la capacidad de combinación semántica es la propiedad clave del lenguaje natural; según ésta el significado de una expresión compleja es una función del significado de cada una de sus partes (palabras) y del modo en que se combinan.

El auténtico problema del procesamiento del lenguaje natural para las máquinas proviene de la carga semántica de los nombres, verbos y adjetivos, y no por los condiciones gramaticales, fácilmente modulables.

En su libro Natural Language Processing with ThoughtTreasure, Erik T. Mueller, uno de los principales artífices del éxito de IBM Watson, comentaba que desde la obra del filósofo alemán Gottfried Leibniz Characteristica Universalis (siglo XVII), ha habido innumerables intentos de encontrar el lenguaje perfecto e universal: una representación maestra de conceptos. En este entorno ideal los programas de traducción automatizada convertirían el lenguaje origen en la representación lingüística maestra, para después convertir dicha representación maestra al lenguaje meta. Se ha avanzado algo en esta línea pero el final siempre ha sido un callejón sin salida. Los programas que se han construido utilizando representaciones lingüísticas maestras son incapaces de capturar la naturaleza esquiva e indefinida de los conceptos humanos. Como afirmaba Eco, las oraciones siempre estarán abiertas a un número infinito de interpretaciones.

Hace unos meses tenía la suerte de intercambiar unos mensajes sobre procesamiento de lenguaje natural con Éric Laporte, profesor e investigador en la Universidad Paris-Est Marne-la-Vallée, y ambos coincidíamos en que probablemente el primer escollo para solucionar este difícil problema se encuentra en el planteamiento, desde el mismo momento en que, como Éric afirmaba:

“Effectivement, les linguistes ont laissé les informaticiens s’installer dans l’ignorance de la complexité des langues, quand ils ne les ont pas encouragés”.

(“Efectivamente, los lingüistas han permitido a los informáticos instalarse en la ignorancia de la complejidad de las lenguas, llegando incluso a animarles a ello".)

Es hora de cambiar el enfoque.

Más T-EX

Especiales

Ajustes
Innovación española

A través del presente Panel de Configuración, puede aceptar o rechazarlas en su totalidad o puede seleccionar qué tipo de cookies quiere aceptar y cuáles quiere rechazar.

Para obtener más información, acceda a nuestra Política de Cookies

Cookies técnicas

Las cookies técnicas que son estrictamente necesarias y permanecen siempre activas son para que el usuario acceda y navegue en INNOVASPAIN.COM.

Cookies de Preferencias o personalización

Utilizamos cookies de personalización que son aquellas que, tratadas por nosotros o por terceros, nos permiten recordar información para que el usuario acceda al servicio con determinadas características que pueden diferenciar su experiencia de la de otros usuarios.

Si desactivas esta cookie no podremos guardar tus preferencias. Esto significa que cada vez que visites esta web tendrás que activar o desactivar las cookies de nuevo.

Cookies Analíticas

Utilizamos cookies de análisis o medición que son aquellas que, tratadas por nosotros o por terceros, nos permiten el seguimiento y análisis del comportamiento de los usuarios de los sitios web a los que están vinculadas, incluida la cuantificación de los impactos de los anuncios.