Autores: | Glòria Vàzquez, Ana Fernández, Laura Alonso , Irene Castellón. |
URL: | http://grial.uab.es/ |
Contacto: | Ana Maria Fernández Montraveta <ana.fernandezuab.es> |
Descripción
This corpus includes Spanish journalistic texts, more precisely, it is a collection of news extracted from El Periódico de Catalunya. It has been manually annotated at a syntactic ( phrases and syntactic function) and semantic level (semantic roles, semantic constructions and sense disambiguation). The corpus has approximately 700.000 words. It contains sentences with the 250 more frequent verbs in Spanish.
Funcionalidad
The interface (http://grial.uab.es/search) allows simple and advanced searches on the corpus by different fields, including the negative search. The XML corpus can be downloaded.
Tecnología
The corpus is stored in a Mysql database and the interface has been developed in PHP.mponent.
Requisitos técnicos
Módulos
Innovación
The main innovation is the amount of examples (100 examples for each verb), in addition to the syntactic and semantic annotation, since there are few corpus annotated with such information.
Desarrollo
The Corpus has been developed with the Sensem project: Banco de datos sintáctico y semántico del español. 2004-2006 – Ministerio de Ciencia y Tecnología (BFF2003-06456) and at this moment it is under development thanks to the project: Ampliación de la BD léxica y el corpus sintáctico-semántico de semántica oracional del español SenSem Ministerio de educación y Ciencia HUM2007-65267
Publicaciones
- Alonso, L., I. Castellón, N. Tincheva (2006). “Detección automática de errores en el Corpus Sensem”, Congreso de la Asociación Española de Lingüística Aplicada (AESLA).
- Alonso, L., J.A. Capilla, I. Castellón, A. Fernández, G. Vázquez (2005). “The Sensem Project: Syntactico-Semantic Annotation of Sentences in Spanish”, Proceedings of the International Conference RANLP, p. 39-46. Borovets, Bulgaria. ISBN: 954-91743-3-6.
- Alonso, L., J.A. Capilla, I. Castellón, A. Fernández, G. Vázquez (2007). “The Sensem Project: Syntactico-Semantic Annotation of Sentences in Spanish”. N.Nikolov, K. Bontcheva, G.Angelova and R. Mitkov. (ed.), Recent Advances in Natural Language Processing IV. Selected papers from RANLP 2005. Current Issues in Linguistic Theory 292John Benjamins Publishing Co, p. 89-98. ISBN: 978 90 272 4807 7.
- Castellón, I., A. Fernández, G. Vázquez (2005). “La semántica oracional del español: perspectiva desde el léxico”. G. Wotjak, J. Cantero (ed.), Entre semántica léxica, teoría del léxico y sintaxis. Frankfurt:Leipzig. Peter Lang, Europaishcher Verlag der Wissenschaften, p. 113-122. ISBN: 3-631-53207-5. ISSN: 1436-1914.
- Castellón, I., A. Fernández, G. Vázquez, L. Alonso, J.A. Capilla (2006). “The Sensem Corpus: a Corpus Annotated at the Syntactic and Semantic Level”, Fifth International Conference on Language Resources and Evaluation (LREC), p. 355-359.
- Fernádez, A., G. Vázquez, D. Teruel (2006). “Interfaz de explotación del corpus SenSem”, Congreso de la Asociación Española de Lingüística Aplicada (AESLA).
- Fernández, A., G. Vázquez (2007). “Problemas sobre la distinción entre argumentos y adjuntos en el corpus SenSem”. Castellón, I., A. Fernández (ed.), Perspectivas de análisis de la unidad verbal. Seres. Barcelona:Publicacions i Edicions de la Universitat de Barcelona, p. 35-48. ISBN: 978-84-475-3177-6.
- Fernández, A., G. Vázquez, I. Castellón (2004). “Sensem: base de datos verbal del español”. G. de Ita, O. Fuentes, M. Osorio (ed.), IX Ibero-American Workshop on Artificial Intelligence, IBERAMIA. Puebla de los Ángeles, Mexico:, p. 155-163. ISBN: 968-863-786-6.
- Fernández, A., G. Vázquez, I. Castellón (2006). “SenSem: a Databank for Spanish Verbs”, Proceedings of the X Ibero-American Workshop on Artificial Intelligence, IBERAMIA.. Ribeirão Preto, Brasil.
- Vázquez, G., A. Fernández (2008). “Annotation de corpus: Sur la délimitation des arguments et des adjoints”, SKY Journal of Linguistics.
- Vázquez, G., A. Fernández, L. Alonso (2005). “Description of the Guidelines for the Syntactico-semantic Annotations of a Corpus in Spanish”. Angelova, G., K. Bontcheva, R. Mitkov, N. Nicolov (ed.), International Conference Recent Advances in Natural Language. Shoumen (Bulgaria):, p. 603-607. ISBN: 954-91743-3-6.
- Vázquez, G., A. Fernández, L. Alonso (2005). “Description of the Guidelines for the Syntactico-semantic Annotations of a Corpus in Spanish”. Angelova, G., K. Bontcheva, R. Mitkov, N. Nicolov (ed.), International Conference Recent Advances in Natural Language. Shoumen (Bulgaria):, p. 603-607. ISBN: 954-91743-3-6.
- Vázquez, G., L. Alonso, J.A. Capilla, I. Castellón, A. Fernández (2006). “SenSem: sentidos verbales, semántica oracional y anotación de corpus”, Procesamiento del Lenguaje Natural, 37, p. 113-120. ISSN: 1135-5948.