Extracción de información: en busca de la semántica textual (I)

Domingo Senise, fundador y CEO de hAItta
Domingo Senise, fundador y CEO de hAItta

Por Domingo Senise, fundador y CEO de hAItta

Ideas preliminares: definición y campo de trabajo

Dentro de la inteligencia artificial se denomina Extracción de información (Information Extraction (IE), en inglés) a un campo de trabajo perteneciente al ámbito del Procesamiento de lenguaje natural (Natural Language Processing (NLP), en inglés), que busca localizar cierta información en texto libre en un dominio determinado, ignorando otra información irrelevante. A saber: quién hizo qué a quién, dónde, cómo y cuándo. La Extracción de información se centra en derivar información estructurada a partir de un texto no estructurado. Esto, aun cuando el dominio está perfectamente acotado, no es una tarea baladí debido a la complejidad y ambigüedad del lenguaje natural. Es importante recalcar que la Extracción de información no busca comprender en su totalidad un texto, desentrañando todas las posibles interpretaciones y relaciones gramaticales, algo que, por otro lado, es una tarea imposible a día de hoy desde un punto de vista tecnológico.

A menudo se confunde las disciplinas Extracción de información con Recuperación de información (Information Retrieval (IR), en inglés). La tarea de esta última es escoger, a partir de una colección de documentos, un subconjunto que sea relevante para una consulta específica, basándose en una búsqueda por palabra clave que se podría ampliar mediante la utilización de tesauros. La lista ordenada de documentos no proporciona ninguna información detallada sobre el contenido de los mismos. Por el contrario, el objetivo de la Extracción de información no es clasificar o seleccionar documentos, sino extraer de los mismos hechos sobre tipos predeterminados de eventos, entidades o relaciones, con el fin de construir representaciones más significativas, que se pueden utilizar para poblar bases de datos que proporcionen información estructurada, a fin de buscar patrones más complejos (resúmenes, tendencias, etc.) en corpora de textos.

La información que se pretende conseguir mediante las técnicas de Extracción de información está previamente especificada en estructuras definidas por los usuarios, denominadas plantillas (templates, en inglés) u objetos, cada una de ellas con un número de espacios (o atributos), que son los que deben instanciarse o completarse por el sistema de Extracción de información, conforme procese el texto.

Echando la vista atrás: los primeros sistemas de Extracción de información

A finales de los años 80 es cuando se comienza a ver el fuerte potencial de aplicación de la Extracción de información. Uno de los primeros intentos de aplicar Extracción de información en el dominio financiero, a fin de extraer conocimiento a partir de mensajes relativos a transferencias de dinero entre bancos, fue el sistema ATRANS, basado en técnicas simples de Procesamiento de lenguaje natural. Le siguieron, por un lado, JASPER: un sistema de Extracción de información que extraía conocimiento a partir de análisis financieros corporativos utilizando en este caso sólidos métodos de Procesamiento de lenguaje natural; y por otro lado, SCISOR, un sistema de Extracción de información para extraer conocimiento relacionado con fusiones y adquisiciones corporativas a partir de noticias online.

Estos sistemas y otros similares de aquel entonces se desarrollaron utilizando un enfoque de Ingeniería de conocimiento (Knowledge Engineering (KE), en inglés), en el que la creación del conocimiento lingüístico mediante reglas o patrones para detectar y extraer la información objetivo, se llevaba a cabo por expertos humanos. Esto se realizaba de manera iterativa, comenzando con un pequeño grupo de reglas de extracción que se probaban sobre los corpora disponibles y se extendían hasta encontrar un equilibrio entre la precisión y la exhaustividad.

A partir de aquí los esfuerzos posteriores en el área de enfoques basados en Ingeniería de conocimiento se centraron en sistemas y marcos de Extracción de información de objetivo general, que son modulares y más fáciles de adaptar a nuevos dominios e idiomas. El sistema FASTUS es un ejemplo de un sistema de Extracción de información de objetivo general desarrollado por SRI International, compañía conocida por ser la creadora del entorno gráfico de usuario y el ratón en 1968. FASTUS podía procesar inglés y japonés.

Tareas clásicas en Extracción de información, dependientes del dominio

Son cuatro principalmente:

  1. Reconocimiento de entidades nombradas (Named Entity Recognition (NER), en inglés): esta tarea aborda el problema de la identificación (detección) y clasificación de tipos predefinidos de entidades nombradas tales como organizaciones (por ejemplo, “Al Shabaab”), personas (por ejemplo, “Abu Ubaidah”), nombres de lugares (por ejemplo, “Golfo de Adén”), expresiones temporales (por ejemplo, 30 de octubre de 2005″), expresiones numéricas y de divisas (por ejemplo, “200 millones de dólares”), etc. La tarea de Reconocimiento de entidades nombradas puede además incluir la extracción de información descriptiva a partir un texto en relación a las entidades detectadas, rellenando plantillas simples. Por ejemplo, en el caso de las personas puede incluir extraer el puesto de trabajo, la nacionalidad, el género y otras características de la persona. Se ha de destacar que el Reconocimiento de entidades nombradas también implica el proceso de lematización de dichas entidades, que es clave en lenguas flexivas. A modo de nota explicativa, la lematización es un proceso lingüístico que consiste en, dada una forma flexionada, es decir, en plural, en femenino, conjugada, etc., hallar el lema correspondiente. El lema es la forma que por convenio se acepta como representante de todas las formas flexionadas de una misma palabra.
  2. Resolución de correfencia (Co-reference Resolution (CO), en inglés) exige la identificación de diferentes menciones de la misma entidad en el texto. Las menciones de las entidades pueden ser:
    1. Nombradas: en el caso de que una entidad quede referida por su nombre. Por ejemplo: “Tanẓīm al-Qā‘idah fī Jazīrat al-‘Arab” y “Al-Qaeda en la Península arábiga” se refieren a la misma entidad.
    2. Pronominales: en el caso de que una entidad quede referida mediante un pronombre. Por ejemplo: “Luis vino en coche. Él estaba cansado”. Aquí el pronombre “él” se refiere a “Luis”.
    3. Nominales: en el caso de que una entidad quede referida con un sintagma nominal, por ejemplo: “La Policía, la Guardia Civil y el CNI colaboraron en esta operación. Los Cuerpos y Fuerzas de Seguridad del Estado hicieron una gran labor”. En este caso “los Cuerpos y Fuerzas de Seguridad del Estado” se refiere a “la Policía, la Guardia Civil y el CNI”.
    4. Implícitas: en el caso de que no existe la anáfora. Por ejemplo: “Andrés ni coge el teléfono ni quiere saber nada”. En la segunda oración no aparece ni el nombre propio que actúa como sujeto, “Andrés”, ni el pronombre de tercera persona de singular “él”.
  3. Extracción de relaciones (Relation Extraction (RE), en inglés) es la tarea de detectar y clasificar relaciones predefinidas entre entidades identificadas en un texto. Por ejemplo:
    1. MemberOf(Khadaffy Janjalani,Abu Sayyaf). Una relación de pertenencia entre una persona y una organización: “Khadaffy Janjalani era miembro de Abu Sayyaf”.
    2. LocatedIn(Khadaffy Janjalani,Mindanao). Una relación entre una persona y una localización: “Khadaffy Janjalani estuvo en Mindanao”.
    3. HeirOf(Abu Sayyaf,Frente Moro de Liberación Nacional). Una relación evolutiva entre dos grupos: “AbuSayyaf es el grupo heredero del Frente Moro de Liberación Nacional”.

Los tipos de relaciones son ilimitados y están predefinidos y fijados como parte de la especificación de la tarea.

  1. Extracción de eventos (Event Extraction (EE), en inglés) es la tarea de identificar eventos en texto libre y derivar información estructurada sobre los mismos, buscando identificar quién hizo qué a quién, cuándo, dónde, a través de qué métodos y por qué. La labor de extracción de eventos implica la extracción de varias entidades y relaciones entre ellas.

Por ejemplo: en el texto “El ISIS lanzó una nueva ofensiva contra ciertos barrios de Alepo con lanzacohetes, que provocó decenas de heridos”, podríamos identificar un sujeto de la acción (ISIS), una acción (lanzar una ofensiva), unas víctimas de la acción (decenas de heridos), un lugar (ciertos barrios de Aleppo), y con unos medios (lanzacohetes).

La tarea de Extracción de eventos es la más compleja dentro del ámbito de Extracción de información.

Dejar una respuesta

Please enter your comment!
Please enter your name here