Autores: | Elena Lloret, Manuel Palomar |
URL: | |
Contacto: | Elena Lloret <elloret |
Descripción
GPLSI COMPENDIUM es una herramienta de generación de resúmenes modular para el idioma inglés. Permite producir resúmenes de texto de forma automática, extrayendo las frases más relevantes de uno o varios documentos (resúmenes mono-documento y multi-documento), generando así un resumen informativo, cuyo tamaño podrá consistir en un número fijo de palabras o bien un porcentaje respecto al documento origen.
Funcionalidad
Para la generación del resumen final, GPLSI COMPENDIUM acepta como entrada un documento o un conjunto de documentos relacionados y el tamaño que deseemos para el resumen final (en número de palabras o en porcentaje). Como salida devolverá el resumen correspondiente en el directorio “summaries” que se creará automáticamente para tal fin.
Tecnología
La herramienta se ha desarrollado en Java y Bash y se ejecuta desde la línea de comandos en Linux.
Requisitos técnicos
Technical Requirements: sistema operativo Linux que tenga instalado Freeling http://nlp.lsi.upc.edu/freeling/
Módulos
GPLSI COMPENDIUM se basa en cinco etapas: i) análisis lingüístico; ii) detección de redundancia; iii) identificación del tópico; iv) detección de relevancia; y v) generación del resumen. En la etapa de detección de redundancia se utiliza la técnica de implicación textual; en la de identificación del tópico, utilizamos la frecuencia de las palabras, y finalmente en la etapa de detección de redundancia, nos basamos en el principio de la cantidad de información. El sistema permite generar resúmenes, utilizando alguna o todas de las etapas anteriormente citadas. Mediante módulos adicionales específicos se puede generar otros tipos de resúmenes, como por ejemplo resúmenes orientados a un tema en concreto, resúmenes subjetivos u orientados a abstractos.
Innovación
La diferencia de esta herramienta con respecto a otras herramientas de generación automática de resúmenes que existen en la actualidad radica en que integra un novedoso método basado en el reconocimiento de la implicacioń textual (Ferrández, 20091) para identificar y detectar información redundante. Además, la detección de relevancia de las oraciones de un documento se basa en un principio de origen lingüístico-cognitivo (Givón, 19902).
Desarrollo
La herramienta forma parte de los trabajos realizados dentro de la Tesis doctoral de Elena Lloret y de los trabajos desarrollados en los proyectos TEXTMESS (TIN2006-15265-C0601), TEXT-MESS 2.0 (TIN2009-13391-C04-01) y PROMETEO (PROMETEO/2009/199).
Publicaciones
- Elena Lloret and Manuel Palomar: Challenging Issues of Automatic Summarization: Relevance Detection and Quality-based Evaluation. International Journal of Informatica, 34 (2). ISSN 0350-5596, 2010.
- Elena Lloret and Manuel Palomar:. A Gradual Combination of Features for Building Automatic Summarisation Systems. Proceedings of the 12th International Conference on Text, Speech and Dialogue, pp 16–23, 2009.