Autores: | Montejo-Ráez, A. and Steinberger, R. and Ureña-López, L. A. |
URL: | |
Contacto: | Montejo-Ráez, A. <amontejoujaen.es> and Ureña-López, L. A. <laurenaujaen.es> |
Descripción
Este corpus está orientado al estudio de clasificadores de texto multi-etiquetado. Está compuesto por artículos científicos en el área de la Física de Altas Energías (HEP – High Energy Physics) obtenidos del servidor de documentos CDS del Laboratorio de Física Nuclear Europeo (CERN). El corpus está dividido en tres subconjuntos (denominadas particiones), donde cada partición se compone, a su vez, de dos ficheros: uno que contiene los registros de cada artículo (con información como los abstract, los autores y, por supuesto, las clases o palabras clave) en formato XML comprimido, y otro que contiene una versión en texto plano del artículo completo generado a partir del PDF disponible en las bases de datos del CERN (en formato tar + gzip) Las clases están delimitadas por la marca XML KEYWORD. Estas son las etiquetas del tesauro de DESY asignadas manualmente. Puede obtener más información sobre el tesauro de DESY. Descarga: Versión 2.1 del corpus HEP
- Partición hepth: 18,114 documentos de Física Teórica (metadatos - 5,3 Mb) (artículos - 226 Mb)
- Partición hepex: 2,599 documentos de Física Experimental (metadatos - 1,6 Mb) (artículos - 28 Mb)
- Partición astroph: 2,716 documentos de Astrofísica (metadatos - 1,1 Mb) (artículos - 29 Mb)
Actualizado el 23.04.2007: Gracias a Ioannis Katakis, de la Aristotle University of Thessaloniki, (Grecia) por corregir algunos problemas en el XML proporcionado.
Funcionalidad
Tecnología
Requisitos técnicos
Módulos
Innovación
Desarrollo
Publicaciones
Cómo referenciar: Este corpus ha sido preparado por Arturo Montejo Ráez, con metadatos facilitados por Jens Vigen y la ayuda del CDS Team. Para referencias usar:
@Article{montejo2004, author = {Montejo-Ráez, A. and Steinberger, R. and Ureña-López, L. A.}, title = {Adaptive selection of base classifiers in one-against-all learning for large multi-labeled collections}, booktitle = {Advances in Natural Language Processing: 4th International Conference, EsTAL 2004}, pages = {1--12}, year = {2004}, editor = {Vicedo J. L. et al.}, location = {Alicante, Spain}, number = {3230}, series = {Lectures notes in artifial intelligence}, publisher = {Springer} }