Autores: | Mohammed Rushdi‐Saleh, M Teresa Martín‐Valdivia, L Alfonso Ureña‐López, José M Perea‐Ortega |
URL: | http://sinai.ujaen.es/wp-content/uploads/2013/11/OCA-corpus.zip |
Contacto: | José M. Perea <jmpereaujaen.es> |
Descripción
OCA es un corpus en árabe sobre comentarios de películas. Este corpus ha sido generado a partir de comentarios en árabe obtenidos de diferentes páginas web que se muestran en la siguiente tabla:
Nombre | Página web | Sistema voto | Positivos | Negativos |
---|---|---|---|---|
Cinema Al Rasid | http://cinema.al-rasid.com/ | 10 | 36 | 1 |
Film Reader | http://filmreader.blogspot.com/ | 5 | 0 | 92 |
Hot Movie Reviews | http://hotmoviews.blogspot.com | 5 | 45 | 4 |
Elcinema | http://www.elcinema.com | 10 | 0 | 56 |
Grind House | http://grindh.com | 10 | 38 | 0 |
Mzyondubai | http://www.mzyondubai.com | 10 | 0 | 15 |
Aflamee | http://aflamee.com | 5 | 0 | 1 |
Grind Film | http://grindfilm.blogspot.com/ | 10 | 0 | 8 |
Cinema Gate | http://www.cingate.net | Bad/Good | 0 | 1 |
Emad Ozery Blog | http://emadozery.blogspot.com | 10 | 0 | 1 |
Fil Fan | http://www.filfan.com | 5 | 81 | 20 |
Sport4Ever | http://sport4ever.maktoob.com | 10 | 0 | 1 |
DVD4ArabPos | http://dvd4arab.maktoob.com | 10 | 11 | 0 |
Gamraii | http://www.gamraii.com | 10 | 39 | 0 |
Shadows and Phantoms | http://shadowsandphantoms.blogspot.com | 10 | 0 | 50 |
Total | 250 | 250 |
Algunas estadísticas sobre OCA corpus: Este corpus fue generado en Octubre de 2010. Algunas estadísticas sobre él se muestran en la siguiente tabla:
Negativos | Positivos | |
---|---|---|
Total documentos | 250 | 250 |
Total tokens | 94,556 | 121,392 |
Media de tokens en cada comentario | 378 | 485 |
Total sentencias | 4,881 | 3,137 |
Media de sentencias en cada comentario | 20 | 13 |
Funcionalidad
-
Tecnología
-
Requisitos técnicos
-
Módulos
-
Innovación
-
Desarrollo
-
Publicaciones
Rushdi Saleh, M., Martín-Valdivia, M. T., Ureña-López, L. A. & Perea-Ortega, J. M. (2011). OCA: Opinion Corpus for Arabic. Journal of the american society for information science and technology, 62(10): 2045-2054.