Autores: | DIRECTORES DO PROXECTO: EQUIPO LINGÜÍSTICO: Eva Domínguez Noya EQUIPO INFORMÁTICO: Fco. Mario Barcala Rodríguez |
URL: | http://corpus.cirp.es/xiada/ |
Contacto: |
Descripción
Etiquetador y lematizador de textos escritos en lengua gallega
Funcionalidad
En el año 2003 se terminó una primera versión operativa del etiquetador que trabajaba con archivos de texto que se adecuaban a la normativa. Además, para obtener esta versión fue necesario el desarrollo del juego de etiquetas apropiado (cuenta con alrededor de 400 etiquetas diferentes), de un lexicón formado por aproximadamente 31.200 léemelas y 630.000 elementos gramaticales y de un subcorpus anotado de entrenamiento de unas 100.000 formas ortográficas.
En 2005 se externalizaron las reglas de funcionamiento, facilitando así la actualización y/o modificación de las mismas por parte del equipo de desarrollo.
Durante 2006 se adaptó el etiquetador para que pudiera trabajar con archivos codificados en XML y, por lo tanto, con los archivos de la nueva codificación de los documentos del CORGA. También en este año se desarrolló un sistema genérico de resolución de ambigüedades segmentales, se amplió considerablemente el lexicón que utiliza, que además incluye muchas formas no normativas para que puedan ser reconocidas.
En 2007 se publicó el etiquetario utilizado por el proyecto.
En 2009 se hace pública una demostración del funcionamiento del etiquetador y se libera la primera versión del léxico (2.2) y del corpus de entrenamiento que utiliza (2.3). Este último incluye 309.505 elementos gramaticales.
En 2010 se publica la versión 2.4, que incluye la liberación de una nueva versión del léxico, con 718.189 entradas y 53.888 lemas(427 lemasmás que en la versión anterior); la del corpus de entrenamiento, con 426.051 elementos gramaticales y, por último, la de la demostración del etiquetador entrenado con estos nuevos recursos. También se actualiza en la web el etiquetario que emplea el etiquetador (383 etiquetas) y se recopilan ejemplos de uso de cada etiqueta.
En 2013 se publica la versión 2.5. El léxico posee 730.256 entradas, añadiéndose respecto a la versión anterior 4.463 nuevos lemas. El corpus de entrenamiento se completa con texto extraído de colecciones de relato corto y pasa a constar de 594.993 elementos gramaticales.
Tecnología
Requisitos técnicos
Módulos
Innovación
Primer etiqeutador/lematizador públicamente disponible para gallego.
Desarrollo
Publicaciones
- Practical application of one-pass Viterbi algorithm in tokenization and part-of-speech tagging, Miguel A. Molinero, Fco. Mario Barcala, Juan Otero, Jorge Graña. Proc. of International Conference RANLP 2007, Recent Advances in Natural Language Processing, Borovets, Bulgaria, 2007, pp. 35-40.
- XML rules for enclitic segmentation, Fco. Mario Barcala, Miguel A. Molinero, Eva Domínguez. Computer Aided Systems Theory – EUROCAST 2007, Revised Selected Papers, Lecture Notes in Computer Science, 4739 Springer-Verlag, Berlin-Heidelberg-New York, 2007, pp. 273-281.
- Automatic Spelling Correction in Galician. Manuel Vilares, Juan Otero, Fco. Mario Barcala, Eva Domínguez. José Luis Vicedo, Patricio Martínez-Barco, Rafael Muñoz and Maximiliano Saiz Noeda (eds.), Advances in Natural Language Processing, volume 3230 of Lecture Notes in Artificial Intelligence, Springer-Verlag, Berlin-Heidelberg-New York, 2004, pp. 51-57.
- Formal Methods of Tokenization for Part-of-Speech Tagging. Jorge Graña, Fco. Mario Barcala, Jesús Vilares. Alexander Gelbukh (ed.), Computational Linguistics and Intelligent Text Processing, volume 2276 of Lecture Notes in Computer Science, Springer-Verlag, Berlin-Heidelberg-New York, 2002, pp. 240-249.
- A Common Solution for Tokenization and Part-of-Speech Tagging: One-Pass Viterbi Algorithm vs. Iterative Approaches, Jorge Graña, Miguel A. Alonso, Manuel Vilares. Petr Sojka, Ivan Kopecek and Karel Pala (eds.), Text, Speech and Dialogue, volume 2448 of Lecture Notes in Artificial Intelligence, Springer-Verlag, Berlin-Heidelberg-New York, 2002, pp. 3-10.