| Autores: | Mohammed Rushdi‐Saleh, M Teresa Martín‐Valdivia, L Alfonso Ureña‐López, José M Perea‐Ortega |
| URL: | http://sinai.ujaen.es/wp-content/uploads/2013/11/OCA-corpus.zip |
| Contacto: | José M. Perea <jmperea |
Descripción
OCA es un corpus en árabe sobre comentarios de películas. Este corpus ha sido generado a partir de comentarios en árabe obtenidos de diferentes páginas web que se muestran en la siguiente tabla:
| Nombre | Página web | Sistema voto | Positivos | Negativos |
|---|---|---|---|---|
| Cinema Al Rasid | http://cinema.al-rasid.com/ | 10 | 36 | 1 |
| Film Reader | http://filmreader.blogspot.com/ | 5 | 0 | 92 |
| Hot Movie Reviews | http://hotmoviews.blogspot.com | 5 | 45 | 4 |
| Elcinema | http://www.elcinema.com | 10 | 0 | 56 |
| Grind House | http://grindh.com | 10 | 38 | 0 |
| Mzyondubai | http://www.mzyondubai.com | 10 | 0 | 15 |
| Aflamee | http://aflamee.com | 5 | 0 | 1 |
| Grind Film | http://grindfilm.blogspot.com/ | 10 | 0 | 8 |
| Cinema Gate | http://www.cingate.net | Bad/Good | 0 | 1 |
| Emad Ozery Blog | http://emadozery.blogspot.com | 10 | 0 | 1 |
| Fil Fan | http://www.filfan.com | 5 | 81 | 20 |
| Sport4Ever | http://sport4ever.maktoob.com | 10 | 0 | 1 |
| DVD4ArabPos | http://dvd4arab.maktoob.com | 10 | 11 | 0 |
| Gamraii | http://www.gamraii.com | 10 | 39 | 0 |
| Shadows and Phantoms | http://shadowsandphantoms.blogspot.com | 10 | 0 | 50 |
| Total | 250 | 250 |
Algunas estadísticas sobre OCA corpus: Este corpus fue generado en Octubre de 2010. Algunas estadísticas sobre él se muestran en la siguiente tabla:
| Negativos | Positivos | |
|---|---|---|
| Total documentos | 250 | 250 |
| Total tokens | 94,556 | 121,392 |
| Media de tokens en cada comentario | 378 | 485 |
| Total sentencias | 4,881 | 3,137 |
| Media de sentencias en cada comentario | 20 | 13 |
Funcionalidad
-
Tecnología
-
Requisitos técnicos
-
Módulos
-
Innovación
-
Desarrollo
-
Publicaciones
Rushdi Saleh, M., Martín-Valdivia, M. T., Ureña-López, L. A. & Perea-Ortega, J. M. (2011). OCA: Opinion Corpus for Arabic. Journal of the american society for information science and technology, 62(10): 2045-2054.

ujaen.es>