Autores: | Oscar Ferrandez, Zornitsa Kozareva, Andres Montoyo y Rafael Muñoz |
URL: | http://gplsi.dlsi.ua.es/gplsi11/ |
Contacto: | Oscar Ferrández <ofe |
Descripción
NERUA es un sistema de reconocimiento de entidades para el español. Realiza el etiquetado de las entidades en cuatro categorías: PERSONA, LOCALIZACION, ORGANIZACION y MISCELÁNEA (aquellas que no corresponden a ninguna de las categorías anteriores). Para el reconocimiento y la clasificación, NERUA emplea tres algoritmos de aprendizaje automático: Hidden Markov Model, Máxima Entropía y Memory-based learner. Para su aprendizaje y evaluación se utilizaron los recursos proporcionados por la conferencia CoNLL-2002. Además, NERUA tiene la opción de utilizar una combinación de los clasificadores mediante una estrategia de votación simple.
Funcionalidad
Etiquetado de entidades nombradas del tipo PERS PERSONA, LOCALIZACION, ORGANIZACION y MISCELÁNEA (aquellas que no corresponden a ninguna de las categorías anteriores) en texto plano.
Tecnología
Herramienta desarrollada en el lenguaje de programación C++.
Requisitos técnicos
Este reconocedor de entidades utiliza los siguientes recursos externos: ACOPST (http://acopost.sourceforge.net), TiMBL (http://ilk.uvt.nl/timbl) y MaxEnt, desarrollada por Armando Suárez <armando@dlsi.ua.es>, miembro del GPLSI.
Módulos
Consta de dos módulos: uno para la detección y otro para la clasificación de entidades. Development: El desarrollo de la herramienta fue parcialmente financiada bajo los proyectos de investigación nacionales CICyT número TIC2003-07158-C04-01 y PROFIT número FIT-340100-2004-14 y por la Generalitat Valenciana bajo los proyectos GV04B-276 y GV04B-268.
Innovación
Desarrollo
Publicaciones
- Kozareva, Z; Ferrández O.; Montoyo, A.; Muñoz R.; Suarez A.; Gómez J.; Combining Data-driven systems for improving Named Entity Recognition Año: 2007 Volumen: 61 Número: 3 Páginas: 449-466 Publicación Data & Knowledge Engineering.
- Ferrández, O.; Kazareva, Z.;Montoyo, A.; Muñoz, R ; NERUA: sistema de detección y clasificación de entidades utilizando aprendizaje automático Año: 2005 Número: 35 Revista:1135-5948. Procesamiento del Lenguaje Natural.