El Desafío de los esquemas de Winograd: un paso más allá del Test de Turing

Por Domingo Senise, heterodoxo de libro

Domingo Senise

El famoso Test de Turing fue propuesto por primera vez por Alan Turing (1950) como un modo práctico de desactivar lo que le parecía una discusión estéril sobre si las máquinas podían pensar o no. Turing proponía que, en lugar de lanzar una pregunta tan vaga y a continuación quedar atrapados en un debate estéril sobre lo que significaba realmente pensar, deberíamos preguntarnos si una máquina sería capaz de mostrar un comportamiento que estimásemos que precisara de pensamiento, tal y como se entiende en los seres humanos. El tipo de comportamiento que tenía Turing en mente era participar en una conversación en inglés a través de un teletipo, en lo que vino a denominar El juego de imitación (The Imitation Game). La idea era la siguiente: si un interrogador no era capaz de decir después de una conversación larga, fluida y sin limitaciones con un interlocutor, si había estado tratando con una persona o un máquina y dicho interlocutor era en realidad una máquina, entonces podríamos afirmar que la máquina estaba pensando.

No obstante, el Test de Turing tiene algunos aspectos controvertidos. En primer lugar, el elemento central de engaño. Pensemos el caso de una máquina inteligente intentando pasar el test. Debe conversar con un interrogador y no sólo mostrar lo que sabe, sino también engañarle haciéndole creer que está tratando con una persona. Para imitar bien a una persona sin dar evasivas, la máquina tendrá que asumir una identidad falsa, a fin de responder a preguntas como “¿Quiénes son tus padres?” o “¿Cuánto mides?”

En segundo lugar, podríamos también ponderar si una conversación en inglés es el tipo adecuado de test. Las conversaciones se pueden adaptar tanto que facilitan el engaño. Consideremos por ejemplo ELIZA (Weizenbaum 1966), un programa que mediante medios bastante simples pudo engañar a algunas personas haciéndoles creer que estaban conversando con un psiquiatra. El engaño funciona al menos en parte puesto que somos muy permisivos en lo que se refiere a qué aceptamos como respuestas o diálogos propiamente dichos: juegos de palabras, chistes, referencias, arrebatos emocionales… Todo salvo respuestas claras y directas a las preguntas. Por lo tanto, una conversación libre, tal y como Turing propugnaba, es probable que no sea el mejor vehículo para detectar un comportamiento inteligente en una máquina.

A fin de superar estos engaños, se desarrolló el Desafío de los esquemas de Winograd. Dicho Desafío es un test de inteligencia artificial propuesto en 2011 por Hector Levesque, un científico computacional de la Universidad de Toronto. Es un test de respuestas múltiples que implica responder a frases escritas en inglés, de una naturaleza muy específica: son ejemplos prácticos de lo que se denominan los Esquemas de Winograd, llamados así en honor a Terry Winograd, profesor de Ciencia computacional de la Universidad de Standford.

A diferencia del Test de Turing, no se exige al interlocutor involucrarse en una conversación y engañar a un interrogador haciéndole creer que está tratando con una persona. De hecho, la naturaleza del test de Turing se puso seriamente en tela de juicio cuando se afirmó que un “robot conversador” de IA llamado Eugene pasó la prueba en 2014. Dicho “robot conversador” no era en absoluto inteligente, simplemente era muy hábil distrayendo la atención del interrogador las veces en las que desconocía la respuesta, mientras hacía mucho hincapié en las interacciones en la que su algoritmo respondía correctamente a las preguntas formuladas. El Desafío de los esquemas de Winograd se propuso en parte para mejorar estos problemas y evitar este tipo de situaciones engañosas. Como indicaba anteriormente, es un breve test de comprensión lectora que implica preguntas únicas binarias y en el que la complejidad viene dada por el problema de la anáfora. He aquí dos ejemplos (en inglés, tal y como fueron expuestos por Levesque):

The trophy would not fit in the brown suitcase because it was too big.

What was too big?

Repuesta 0: the trophy

Respuesta 1: the suitcase

——————-

Joan made sure to thank Susan for all the help she had given.

Who had given the help?

      Respuesta 0: Joan

      Respuesta 1: Susan

En cada una de las preguntas tenemos las siguientes cuatro características:

  1. Se mencionan dos elementos en una oración mediante frases nominales. Puede que sean dos hombres, dos mujeres, dos objetos inanimados o dos grupos de personas u objetos.
  2. Se utiliza un pronombre o un adjetivo posesivo en la oración en referencia a uno de los elementos, pero también podría aplicarse al otro elemento. En el caso de los hombres, es “he/him/his”; para las mujeres es “she/her/her”, para los objetos inanimados es “it/it/its,”, y para los grupos es “they/them/their.”
  3. La pregunta implica determinar el referente del pronombre o el adjetivo posesivo. La respuesta 0 es siempre el primer elemento mencionado en la oración, y la respuesta 1 es el segundo elemento.
  4. Hay una palabra, llamada “la palabra especial”, que aparece en la oración y posiblemente la pregunta también. Cuando se sustituye por otra palabra, llamada “la palabra alternativa”, todo sigue teniendo perfecto sentido, pero la respuesta cambia.

Respecto a cómo funciona la cuarta característica, consideremos el primer ejemplo: la palabra especial es “big” y la palabra alternativa es “small;” y en el segundo ejemplo, la palabra especial es “given” y la palabra alternativa es “received.” Estas palabras alternativas sólo aparecen en las versiones alternativas de las dos preguntas. A saber:

The trophy would not fit in the brown suitcase because it was too small.

      What was too small?

            Respuesta 0: the trophy

            Respuesta 1: the suitcase

——————-

Joan made sure to thank Susan for all the help she had received. Who had received the help?

            Respuesta 0: Joan

            Respuesta 1: Susan

Con esta cuarta característica podemos ver que los trucos como el orden de las palabras o la pura estadística no funcionan: para saber respuesta correcta es necesario comprender las oraciones.

La necesidad de raciocinio es tal vez más evidente en el siguiente ejemplo más difícil; una variante propuesta por Terry Winograd en 1972:

The town councillors refused to give the angry demonstrators a permit because they feared violence.

            Who feared violence?

            Respuesta 0: the town councillors

            Respuesta 1: the angry demonstrators

Aquí la palabra especial es “feared” y la palabra alternativa es “advocated”, como se puede ver en esta variación:

The town councillors refused to give the angry demonstrators a permit because they advocated violence.

      Who advocated violence?

            Respuesta 0: the town councillors

            Respuesta 1: the angry demonstrators

Se ha de poseer un conocimiento de fondo, que no está expresado en las palabras de la oración, a fin de saber qué está pasando y decidir qué grupo es el que podría estar temeroso y qué otro grupo es el que podría ser violento. Y es precisamente la aplicación práctica de este conocimiento de fondo lo que informalmente llamaríamos pensamiento.

El Desafío de los esquemas de Winograd no permite a una inteligencia artificial escudarse detrás de una nube de humo de trucos verbales, respuestas enlatadas, o apuestas estadísticas, tal y como podría pasar con el Test de Turing; es muy probable que la IA que respondiera correctamente un conjunto de estas preguntas estuviera pensando en el sentido estricto de la palabra, que solemos reservar para los seres humanos.

A modo de conclusión, un par de reflexiones finales sobre la IA:

La IA es mucho más que simple tecnología. La IA es el estudio del comportamiento inteligente en términos computacionales.

Existe actualmente una tendencia en IA a centrarse en el comportamiento desde un enfoque puramente estadístico: ¿somos capaces de ingeniar un sistema para producir un comportamiento deseado que no conlleve más errores de los que un ser humano pueda cometer? Desafortunadamente este planteamiento, erróneo, puede llevarnos a sistemas con un rendimiento impresionante que sin embargo sean “eruditos ignorantes”.

¿Será capaz en algún momento una IA de mantener un conversación fluida natural con un ser humano sin que medie ningún tipo de truco? Como todo en la vida, dependerá sólo y exclusivamente de nosotros: de nuestra perseverancia, inventiva, y deseos de trabajar denodadamente en la tarea. Al fin y al cabo, dominar un lenguaje no es una tarea baladí: nosotros, los seres humanos, llevamos en la tarea desde hace aproximadamente unos 50.000 años.

Un largo y apasionante desafío se presenta ante nosotros.

Dejar una respuesta

Please enter your comment!
Please enter your name here