Distant supervised construction and evaluation of a novel dataset of emotion-tagged social media comments in spanish (Record no. 57346)
[ view plain ]
000 -CABECERA | |
---|---|
campo de control de longitud fija | 02631naa a2200265 a 4500 |
003 - IDENTIFICADOR DEL NÚMERO DE CONTROL | |
campo de control | AR-LpUFIB |
005 - FECHA Y HORA DE LA ÚLTIMA TRANSACCIÓN | |
campo de control | 20250311171158.0 |
008 - DATOS DE LONGITUD FIJA--INFORMACIÓN GENERAL | |
campo de control de longitud fija | 230201s2022 xx o 000 0 eng d |
024 8# - Otro identificador estandar | |
Número estándar o código | DIF-M8281 |
-- | 8501 |
-- | DIF007573 |
040 ## - FUENTE DE LA CATALOGACIÓN | |
Centro catalogador/agencia de origen | AR-LpUFIB |
Lengua de catalogación | spa |
Centro/agencia transcriptor | AR-LpUFIB |
100 1# - ENTRADA PRINCIPAL--NOMBRE DE PERSONA | |
Nombre de persona | Tessore, Juan Pablo |
245 10 - MENCIÓN DE TÍTULO | |
Título | Distant supervised construction and evaluation of a novel dataset of emotion-tagged social media comments in spanish |
500 ## - NOTA GENERAL | |
Nota general | Formato de archivo PDF. -- Este documento es producción intelectual de la Facultad de Informática - UNLP (Colección BIPA/Biblioteca) |
520 ## - SUMARIO, ETC. | |
Sumario, etc. | Tagged language resources are an essential requirement for developing machine-learning text-based classifiers. However, manual tagging is extremely time consuming and the resulting datasets are rather small, containing only a few thousand samples. Basic emotion datasets are particularly difficult to classify manually because categorization is prone to subjectiv- ity, and thus, redundant classification is required to validate the assigned tag. Even though, in recent years, the amount of emotion-tagged text datasets in Spanish has been growing, it cannot be compared with the number, size, and quality of the datasets in English. Quality is a particularly concerning issue, as not many datasets in Spanish included a validation step in the construction process. In this article, a dataset of social media comments in Spanish is compiled, selected, filtered, and presented. A sample of the dataset is reclassified by a group of psychologists and validated using the Fleiss Kappa interrater agreement measure. Error analysis is performed by using the Sentic Computing tool BabelSenticNet. Results indicate that the agreement between the human raters and the automatically acquired tag is moderate, similar to other manually tagged datasets, with the advantages that the presented dataset contains several hundreds of thousands of tagged comments and it does not require extensive manual tagging. The agreement measured between human raters is very similar to the one between human raters and the original tag. Every measure presented is in the moderate agreement zone and, as such, suitable for training classification algorithms in sentiment analysis field. |
534 ## - NOTA SOBRE LA VERSIÓN ORIGINAL | |
Encabezamiento principal del original | Cognitive Computation, 2022, 14(2). |
650 #4 - PUNTO DE ACCESO ADICIONAL DE MATERIA--TÉRMINO DE MATERIA | |
Término de materia o nombre geográfico como elemento de entrada | REDES SOCIALES |
9 (RLIN) | 4685 |
650 #4 - PUNTO DE ACCESO ADICIONAL DE MATERIA--TÉRMINO DE MATERIA | |
Término de materia o nombre geográfico como elemento de entrada | TIPOS DE DATOS |
653 ## - TÉRMINO DE INDIZACIÓN--NO CONTROLADO | |
Término no controlado | minería de texto |
653 ## - TÉRMINO DE INDIZACIÓN--NO CONTROLADO | |
Término no controlado | datos de emociones |
700 1# - PUNTO DE ACCESO ADICIONAL--NOMBRE DE PERSONA | |
Nombre de persona | Esnaola, Leonardo Martín |
700 1# - PUNTO DE ACCESO ADICIONAL--NOMBRE DE PERSONA | |
Nombre de persona | Lanzarini, Laura Cristina |
700 1# - PUNTO DE ACCESO ADICIONAL--NOMBRE DE PERSONA | |
Nombre de persona | Baldassarri, Sandra |
856 40 - LOCALIZACIÓN Y ACCESO ELECTRÓNICOS | |
Identificador Uniforme del Recurso | <a href="http://dx.doi.org/10.1007/s12559-020-09800-x">http://dx.doi.org/10.1007/s12559-020-09800-x</a> |
942 ## - ELEMENTOS DE PUNTO DE ACCESO ADICIONAL (KOHA) | |
Tipo de ítem Koha | Capítulo de libro |
Estado de retiro | Estado de pérdida | Estado dañado | Disponibilidad | Colección | Biblioteca permanente | Biblioteca actual | Fecha de adquisición | Total de préstamos | Signatura topográfica completa | Fecha visto por última vez | Identificador Uniforme del Recurso | Precio válido a partir de | Tipo de ítem Koha |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
No corresponde | Biblioteca digital | Biblioteca de la Facultad de Informática | Biblioteca de la Facultad de Informática | 11/03/2025 | A1143 | 11/03/2025 | http://catalogo.info.unlp.edu.ar/meran/getDocument.pl?id=2241 | 11/03/2025 | Capítulo de libro |