Buscar
Cerrar este cuadro de búsqueda.
Domingo Senise, fundador y CEO de hAItta

Extracción de información: en busca de la semántica textual (II)

Por Domingo Senise, fundador y CEO de hAItta

Por Domingo Senise, fundador y CEO de hAItta

Tareas clásicas en Extracción de información, independientes del dominio

La tarea clásica, independiente del dominio, en Extracción de información es el análisis lingüístico. Se compone de los siguientes pasos:

  • Análisis de meta-datos: extracción del título, la estructura del texto (identificación de párrafos) y la fecha del documento.
  • Tokenización: segmentación del texto en unidades similares a palabras, que son denominadas tokens, y clasificación de sus tipos; a saber, identificación de palabras en mayúsculas, minúsculas, palabras con guión, signos de puntuación, números, etc.
  • Análisis morfológico: extracción de la información morfológica a partir de los tokens, que constituyen posibles palabras. Por ejemplo, la forma base o lema, etiquetas morfológicas dependientes de la oración, por ejemplo los sufijos o prefijos que indiquen tiempo, modo, aspecto, número, etc. En esta fase se lleva a cabo la desambiguación de palabras con respecto a ciertas categorías gramaticales.
  • Identificación de los límites oracionales o del enunciado: segmentación del texto en una secuencia de oraciones o enunciados, cada uno de los cuales se representa como una secuencia de elementos léxicos con sus propias características.
  • Extracción de entidades comunes nombradas: identificación de entidades nombradas independientes del dominio, tales como expresiones temporales, números y monedas, referencias geográficas, etc.
  • Reconocimiento de frases: identificación de estructuras locales mínimas tales como sintagmas nominales, perífrasis verbales, sintagmas preposicionales, acrónimos y abreviaturas.
  • Análisis sintáctico: computación de una estructura de dependencia (árbol sintáctico) de la oración, basada en la secuencia de elementos léxicos y estructuras mínimas. El análisis sintáctico puede ser profundo o superficial. En el primer caso, el interés se centra en computar todas las posibles interpretaciones y relaciones gramaticales dentro de la oración. En el segundo caso, el análisis se limita a identificar estructuras no recursivas o estructuras con una recursión estructural limitada,que pueden identificarse con una elevado grado de certidumbre; las ambigüedades, por ejemplo, no se abordan y quedan representadas con estructuras mínimamente especificadas.

 Los últimos avances y retos futuros

La investigación a finales de los 90 y comienzos del siglo XXI significó avances significativos en la Extracción de información en términos de aparición de sistemas de Extracción de información modulares, basados en Ingeniería de conocimiento, que podían procesar grandes cantidades de datos textuales eficientemente, incluyendo idiomas diferentes del inglés. Con el amanecer del nuevo siglo el diseño modular de los sistemas de Extracción de información estaba ampliamente aceptado; a saber, por un lado un motor central genérico, y por otro lado componentes específicos de idioma y dominio, que pueden denominarse bases de conocimiento.

La información contenida en las bases de conocimiento tiene diferentes formas y niveles de complejidad. En el nivel inferior, se encuentran los léxicos especializados y los índices geográficos. Por encima de este nivel se encuentran las ontologías, la redes semánticas y los tesauros, que especifican las relaciones entre conceptos y organizan el conocimiento en objetos más complejos. Por último, determinadas operaciones de razonamiento que han de llevarse a cabo sobre los hechos extraídos y generados.

El hecho de que el proceso de trabajar manualmente los recursos y componentes lingüísticos y específicos de dominio exigiera tanto tiempo y fuera tan complejo, hizo que la investigación se centrara en sistemas de Extracción de información que pudieran entrenarse y que utilizasen técnicas de aprendizaje automático (machine learning, en inglés), a fin de aliviar parte de la carga de adaptación de un motor de Extracción de información general a un nuevo dominio o tarea. De esta manera el amplio espectro de herramientas y algoritmos derivados del aprendizaje supervisado, que ya eran de uso común en otras áreas del Procesamiento de lenguaje natural, se comenzaron a aplicar a las tareas de Extracción de información igualmente. Por ejemplo, los Modelos ocultos de Markov (Hidden Markov Models (HMMs), en inglés), los Campos aleatorios condicionales (Conditional random fields (CRFs), en inglés), o las Redes Bayesianas (Bayes Networks (BNs), en inglés) entre otros.

Al aplicar estas técnicas con un enfoque estadístico-matemático, se pudo observar que la efectividad del aprendizaje supervisado dependía de la complejidad de la tarea y de la cantidad de datos de entrenamiento anotados disponibles. Las tareas más complejas de Extracción de información, tales como Extracción de relaciones o eventos, requerían más datos anotados que las tareas más simples como Reconocimiento de entidades nombradas. A fin de evitar el cuello de botella de la anotación de datos, las últimas investigaciones en Extracción de información han seguido diferentes enfoques siendo tal vez los dos más destacados:

  1. El Aprendizaje activo (Active learning, en inglés): es un área del Aprendizaje automático que busca reducir la cantidad de anotación necesaria por parte de un anotador humano mediante la participación de un aprendiz en el proceso de aprendizaje. La idea es que el anotador facilite inicialmente un pequeño conjunto de ejemplos y que, basándose en ello, el aprendiz decida de manera activa qué otros ejemplos, de un gran conjunto de posibles ejemplos candidatos, el anotador humano debería anotar a continuación.
  2. Bootstrapping: es otro tipo de aprendizaje que pretende reducir la implicación humana en la Ingeniería de conocimiento. El desarrollador del sistema facilita un conjunto inicial de ejemplos anotados (semillas) y el proceso de aprendizaje se lleva a cabo sin más hasta que se alcanza un criterio de convergencia. La principal razón para utilizar este tipo de aprendizaje es que se espera que, una vez que el aprendiz converja y genere un gran conjunto de elementos candidatos para las bases de conocimiento, sea más fácil para el desarrollador del sistema clasificar el conjunto de candidatos que construir un conjunto de candidatos desde cero.

Como conclusión a este artículo, dos de los principales retos a los que se enfrenta la Extracción de información son la mejora de la extracción de información en idiomas diferentes del inglés y la extracción de información de las redes sociales.

La extracción de información de idiomas diferentes del inglés es, en general, más compleja y su rendimiento, inferior. Esto se debe principalmente a la falta de componentes claves de Procesamiento de lenguaje natural y recursos lingüísticos subyacentes en los otros idiomas, además de varios fenómenos lingüísticos que no existen en inglés. A saber:

  • Falta de espacios entre las palabras lo que complica su desambiguación, como ocurre en chino.
  • Creación de términos o palabras por adición, como ocurre en las lenguas fusionantes como el alemán, en el que alrededor del 15% de las palabras son compuestas, derivada de la suma de varias de ellas.
  • La no existencia de anáfora, lo que dificulta enormemente la labor de Resolución de co-referencia de Extracción de información; algo típico de idiomas como el español.
  • Un orden oracional libre y una rica morfología lo que complica la extracción de relaciones; algo muy común igualmente en español con sus hipérbatos.

Con relación a la Extracción de información a partir de redes sociales, los principales problemas que se presentan son:

  • Los textos son siempre muy cortos: las actualizaciones de Facebook, por ejemplo, están limitadas a 255 caracteres, mientras que los tuits están limitados a 140 caracteres. Las tareas más complejas de Extracción de información, como por ejemplo Extracción de eventos, de Twitter o Facebook son tareas arduas puesto que no toda la información sobre un evento puede expresarse dentro un mensaje breve.
  • Los textos están escritos normalmente de manera informal y rápida, lo que implica a menudo faltas de ortografía, fallos en la puntuación, utilización de abreviaturas creadas ad-hoc...
  • Y por último y no por ello menos importante, la alta incertidumbre respecto a la fiabilidad de la información transmitida en los mensajes de texto, si se compara por ejemplo con las noticias de los medios de comunicación tradicionales.

La investigación futura dentro de la Extracción de información deberá centrarse en tres puntos principalmente: adaptar las técnicas clásicas de Recuperación de información a fin de extraer conocimiento de los mensajes breves de las redes sociales; abordar de manera más eficiente mensajes en las redes sociales escritos en idiomas diferentes del inglés; y por último, desarrollar técnicas para agregar y fusionar la información extraída de los documentos convencionales y de los mensajes breves subidos a cualquier red social o blog.

Más T-EX