Mikarimin. Revista Científica Multidisciplinaria ISSN 2528-7842
ANÁLISIS DE SENTIMIENTOS EMPLEANDO MINERÍA DE TEXTOS
© Centro de Investigación y Desarrollo. Universidad Regional Autónoma de Los Andes - Extensión Santo Domingo. Ecuador.
31
MODELO PARA EL ANÁLISIS DE SENTIMIENTOS DEL BANCO DE ENCUESTAS
CON PREGUNTAS SOBRE CORONAVIRUS DE LA OMS EMPLEANDO PRINCIPIOS
DE MINERÍA DE TEXTOS
ANÁLISIS DE SENTIMIENTOS EMPLEANDO MINERÍA DE TEXTOS
AUTORES: Navira Gissela Angulo Murillo
1
Alex Alfonso Sánchez Arteaga
2
Gabriel Rodolfo García Murillo
3
Wilton Rafael Saltos Rivas
4
DIRECCIÓN PARA CORRESPONDENCIA: navira.angulo@uleam.edu.ec
Fecha de recepción: 11-04-2020
Fecha de aceptación: 24-06-2020
RESUMEN
La presente investigación tiene la finalidad de elaborar un modelo de Análisis de Sentimientos de
un Banco de 250 instrumentos de recolección de Datos sobre Coronavirus, mismo que es
guardado como referencia en el sitio web oficial de la Organización Mundial de la Salud, OMS.
Para esto se ha empleado fundamentos de Minería de Textos mediante la plataforma Open Source
de Minería de Datos, Orange, construyendo un modelo que analiza el Corpus de documentos y
genera diagramas de distribución de sentimientos según la herramienta Valence Aware
Dictionary and Sentiment Reasoner, VADER, y nube de palabras que ilustra el peso de las
palabras según su frecuencia en el Corpus. Los resultados reflejan que las emociones Neutras son
las que alcanzan valores más altos en todos los tipos de preguntas, las Negativas y Positivas
guardan cierto patrón y alcanzan niveles medios en todos los tipos de preguntas, en tanto que las
emociones Combinadas no tienen un patrón establecido, aunque son más frecuentes en preguntas
relacionadas al Entorno, Conocimiento y Tratamiento de Salud de los posibles encuestados. Es de
indicar que los tipos de preguntas son siete: Entorno, Exposición, Impacto, Conocimiento,
Atención médica, Percepción y Miscelánea.
PALABRAS CLAVE: Big Data; Minería de Datos; Orange; Minería de Textos; Coronavirus.
1
Ingenieria en Sistemas, Magíster en Auditoría de Tecnologías de la Información en la Universidad de
Especialidades Espíritu Santo - Ecuador, Magíster en Gestión Estratégica de Tecnologías de la Información y
Comunicación en la Universidad Nacional de Piura - Perú. Doctorando en Ciencias Informáticas en la Universidad
Nacional La Plata Argentina. Docente y Especialista en Planificación en la Universidad Laica Eloy Alfaro de
Manabí, Dirección de Planificación, Proyectos y Desarrollo Institucional, Ecuador.
2
Abogado de los Juzgados y Tribunales de la República, magíster en Derecho de Empresa en la Universidad de
Especialidades Espíritu Santo – Ecuador, abogado de libre ejercicio, Ecuador, E-mail: alexsanarte@hotmail.com.
3
Licenciado en ciencias de la educación – Analista en Sistemas Informáticos, Magister en Administración de
Telecomunicaciones, Docente tiempo completo de la Universidad Técnica de Manabí, Doctorando de la Universidad
de Córdoba - España, Vicedecano en la Facultad de Filosofía, Letras y Ciencias de la Educación UTM,
Departamento de Filosofía- Universidad Técnica de Manabí, Portoviejo, Manabí, Ecuador. E-mail:
grgarcia@utm.edu.ec
4
Ingeniero en Sistemas, Magister en Administración de Telecomunicaciones, Docente tiempo completo de la
Universidad Técnica de Manabí, Doctorando de la Universidad de Córdoba España. Departamento de Filosofía
Universidad Técnica de Manabí, Portoviejo, Manabí, Ecuador. E-mail: rafaelsaltos2006@hotmail.com
Navira G. Angulo Murillo, Alex A. Sánchez Arteaga, Gabriel R. García Murillo, Wilton R. Saltos Rivas
32
Revista Mikarimin. Publicación cuatrimestral. Vol. 6, Año 2020, Edición Especial (Julio)
MODEL FOR THE ANALYSIS OF FEELINGS OF THE SURVEY BANK WITH
QUESTIONS ON WHO CORONAVIRUSES USING TEXT MINING PRINCIPLES
ABSTRACT
This is an academic paper, the purpose of which is to develop a Sentiment Analysis model of a
Bank of 250 instruments for data collection on Coronavirus, which is kept as a reference on the
official website of the World Health Organization, WHO . For this, Text Mining fundamentals
have been used through the Open Source Data Mining platform, Orange, building a model that
analyzes the Corpus of documents and generates diagrams of sentiment distribution according to
the Valence Aware Dictionary and Sentiment Reasoner tool, VADER, and word cloud that
illustrates the weight of words according to their frequency in Corpus. The results reflect that the
Neutral emotions are those that reach higher values in all types of questions, the Negative and
Positive ones maintain a certain pattern and reach medium levels in all types of questions, while
the Combined emotions do not have an established pattern , although they are more frequent in
questions related to the Environment, Knowledge and Treatment of Health of the possible
respondents. It is to indicate that the types of questions are seven: Environment, Exposure,
Impact, Knowledge, Medical attention, Perception and Miscellaneous.
KEYWORDS: Big Data; Data Mining; Orange; Text Mining; Coronavirus.
INTRODUCCIÓN
El brote de neumonía causada por coronavirus (COVID-19) en Wuhan, China, ha atraído la
atención mundial generando opiniones al respecto en el mismo alcance. Esto lleva a los
investigadores a acceder a los datos de tales opiniones e información para muchas investigaciones
académicas y usos comerciales (Manguri et al., 2020; Peng et al., 2020). Muchas personas,
incluyendo organizaciones de medios de comunicación y agencias gubernamentales o mundiales
están presentando las últimas noticias y opiniones sobre el coronavirus.
En tal contexto la OMS, busca fortalecer la capacidad de sus estados miembros, para recopilar,
compilar, gestionar, analizar y utilizar datos sanitarios derivados principalmente de fuentes
basadas en la población, mediante encuestas de hogares, sistemas de registro civil de eventos
vitales; y fuentes basadas en instituciones que desarrollan actividades administrativas y
operativas relativas a la Salud (World Health Organization, 2000). Recientemente, la OMS, en
colaboración con sus miembros, compiló un Banco de Preguntas sobre Covid-19 utilizando
preguntas de varias encuestas e instrumentos de recolección de datos en todo el mundo, mismas
que están disponibles desde su web oficial. Tales preguntas están organizadas en categorías y
varias subcategorías, algunas opciones de respuestas, un enlace a la encuesta completa, entre
otros datos (World Health Organization, 2020).
Las preguntas han sido catalogadas por la OMS como de Entorno, Exposición, Impacto,
Conocimiento, Atención médica, Percepción y Miscelánea... Las opciones de respuesta
planteadas a las preguntas, para el caso de la percepción proponen opciones como: Sentirse
ansioso por lo que está sucediendo, Sentirse solo, No querer ver noticias o leer sobre coronavirus
o Tener dificultades para conciliar el sueño. Es de indicar que tales opciones de respuestas son
planteadas desde la perspectiva o conocimiento progresivo acerca del Covid-19, por parte de las
instituciones que las ejecutan, por lo que su contenido se torna de sustancial importancia.
Mikarimin. Revista Científica Multidisciplinaria ISSN 2528-7842
ANÁLISIS DE SENTIMIENTOS EMPLEANDO MINERÍA DE TEXTOS
© Centro de Investigación y Desarrollo. Universidad Regional Autónoma de Los Andes - Extensión Santo Domingo. Ecuador.
33
En tal escenario, para este trabajo de fines académicos, las referidas preguntas se han tratado
como un corpus, que en el campo de la minería de texto, son documentos ampliamente utilizados
para tareas de recuperación de información y procesamiento de lenguaje natural (Vijaymeena &
Kavitha, 2016). A partir de dicho corpus se construyó una nube de palabras, que en esencia es
una lista ponderada para visualizar datos de lenguaje o texto, lo que gana cada vez más atención y
más oportunidades de aplicación a medida que se acerca el tiempo de big data (Jin, 2017).
Con el mismo Corpus, se realizó un análisis de texto, empleando VADER (Valence Aware
Dictionary and Sentiment Reasoner), que es una herramienta de análisis de opiniones basada en
léxicos y reglas que está específicamente en sintonía con los sentimientos expresados en las redes
sociales pero que se puede utilizar en materiales afines como el tratado en este estudio. VADER
utiliza una combinación de un léxico que generalmente se etiquetan de acuerdo con su
orientación semántica como positivas o negativas. (Newman & Joyner, 2018).
Es de indicar que las preguntas de las encuestas, que forman el banco de la OMS, en algunos
casos contemplan, poblaciones específicas como: padres con hijos menores de 18 años en el
hogar, personas que no han recibido pruebas para el coronavirus o empleados a tiempo completo
o parcial.
El presentado proceso, que se lo detalla en la siguiente sección, se lo ha desarrollado en la
herramienta Orange basada en Programación Visual en el Lenguaje Python. Orange incluye
componentes para la minería de texto y es una herramienta que consiste en una interfaz de
Canvas en la que el usuario coloca controles denominados Widgets y crea modelos a partir de un
flujo de tales Widgets, mismos que tienen diversas funcionalidades como leer los datos,
visualizarlos, seleccionar características estadísticas, entrenar modelos con datos, comparar
algoritmos de aprendizaje, entre otros (Amala, 2019).
DESARROLLO
El referido banco de encuestas con diversas preguntas de la OMS consta de 215 preguntas. Las
configuraciones básicas del Dataset son las siguientes:
Instancias: 215
Features: Topic, Skip Pattern, Mode, Country, Survey, Link (total: 7 features)
Meta attributes: Question Wording, Subquestions, Reponse Options (total: 3 meta attributes)
Figura 1: Configuraciones del Dataset
1. Luego, para el análisis básico de sentimientos en las preguntas, se siguieron los siguientes
pasos:
2. Se estableció como Target al atributo Topic, que hace referencia a las preguntas
organizadas en 7 categorías: Entorno, Exposición, Impacto, Conocimiento, Atención
médica, Percepción y Miscelánea. Esto significa que el análisis de emociones se extraerá
en función de las preguntas, subcategorías de las preguntas y opciones de respuestas.
3. Se configuró el Corpus, con los 215 instrumentos de recolección de datos como 215
documentos y como atributos/features se consideró a Question Wording, Subquestions,
Reponse Options; es decir, no se ignoró ningún atributo meta del archivo original.
4. Se realizó el preprocesamiento básico del corpus. A nivel de transformación, se llevó todo
a minúsculas para no diferenciar con mayúsculas en los resultados, se eliminó acentos, se
eliminó direcciones url. Como Tokenización se permitió la lectura escritura de los datos
Navira G. Angulo Murillo, Alex A. Sánchez Arteaga, Gabriel R. García Murillo, Wilton R. Saltos Rivas
34
Revista Mikarimin. Publicación cuatrimestral. Vol. 6, Año 2020, Edición Especial (Julio)
una vez que se generen los nuevos tokes de palabras, esto mediante el regex \w+.
Además, se empleó un archivo Stopword en idioma inglés por defecto de Orange, para
eliminar posibles palabras irrelevantes del texto, por ejemplo, “And”, “or”. “en” El
idioma seleccionado para filtrar fue el inglés porque todas las preguntas están escritas en
ese idioma. Incluso se cargó un archivo .txt con una lista de palabras irrelevantes editadas
por la autora de este trabajo.
5. Para el análisis de sentimientos, se empleó el método VADER, descrito en la introducción
del documento. Esté método viene incluido en el paquete nltk.sentiment de Phyton, dónde
se lo define como una herramienta de análisis de opiniones basada en enfoques de
aprendizaje automático (Bird et al., 2008). El widget agregó cuatro nuevas características
para el método VADER: Puntaje Positivo, Puntaje Negativo, Puntaje Neutral y
Compuesto o Puntaje Combinado.
6. El Widget Sentiment Analysis se lo conectó con un Select Columns para principalmente
seleccionar las columnas que en adelante se procesaron, así los features o atributos fueron
las emociones posibles que agregó el Widget Sentiment Analysis: positivo, negativo,
neutral, combinado. Los atributos meta fueron: Question Wording, Subquestions,
Reponse Options. El atributo target fue Topic, esto por la razón indicada en el paso 1.
7. Habiendo realizado tales configuraciones, se presentó un mapa de calor de los cuatro
sentimientos posibles según cada tópico de preguntas (ver paso 1), el mapa se lo genera
empleando 50 clustering en función del atributo topic de las preguntas. En este mismo
paso se hizo un diagrama de distribución de cada emoción respecto de cada tópico de
preguntas y finalmente se representó tales resultados en una tabla completa. Con
excepción de la tabla, estos resultados se presentan en la sección siguiente.
8. Al Widget Select Columns mencionado en el paso 5, paralelo al paso 6, se le conectó un
Widget Bag of Words. Con el Bag of Words se creó un corpus con recuentos de palabras
para cada una de las 215 instancias de datos (encuestas). De ese modo se extrajo un Word
Cloud para mostrar tokens de palabras en el corpus, recordando que el tamaño de la
palabra en la nube resultante representa el peso por su frecuencia calculado con el Bag of
Word.
9. Finalmente, en relación con el Word Cloud, se muestra su representación como tabla
general, como conteo de frecuencia/peso de cada palabra y la vista del corpus. Por
espacio, en la siguiente sección se explora solo un documento del corpus resultante y se
muestran las etiquetas y tokens de dicho documento.
En general, los pasos mencionados se diseñaron en Orange de la siguiente manera:
Mikarimin. Revista Científica Multidisciplinaria ISSN 2528-7842
ANÁLISIS DE SENTIMIENTOS EMPLEANDO MINERÍA DE TEXTOS
© Centro de Investigación y Desarrollo. Universidad Regional Autónoma de Los Andes - Extensión Santo Domingo. Ecuador.
35
Ilustración 1: Modelo para el Análisis de Sentimientos del Banco de encuestas con preguntas sobre Coronavirus de la
OMS
RESULTADOS
Ilustración 2: Mapa de calor del análisis de sentimientos según los tipos de preguntas. Azul es más BAJO, Amarrillo
es más ALTO y los tonos verdes son término MEDIO.
Navira G. Angulo Murillo, Alex A. Sánchez Arteaga, Gabriel R. García Murillo, Wilton R. Saltos Rivas
36
Revista Mikarimin. Publicación cuatrimestral. Vol. 6, Año 2020, Edición Especial (Julio)
En la ilustración anterior, el mapa de calor muestra que de forma general los sentimientos neutros
son más fuertes especialmente en las preguntas relativas al entorno del encuestado. Los Positivos
abordan un nivel medio casi en todos los tipos de preguntas, los Negativos son similares a los
positivos, pero se remarcan en las preguntas relativas al entorno, Impacto y Percepción. Las
emociones combinadas son muy bajas en las preguntas relativas al Entorno, Conocimiento y
Tratamiento de Salud. En los siguientes diagramas de distribución se muestran los resultados
según las 4 emociones posibles en el eje de las X y los valores alcanzados en cada tipo de
preguntas en el eje de las Y.
Mikarimin. Revista Científica Multidisciplinaria ISSN 2528-7842
ANÁLISIS DE SENTIMIENTOS EMPLEANDO MINERÍA DE TEXTOS
© Centro de Investigación y Desarrollo. Universidad Regional Autónoma de Los Andes - Extensión Santo Domingo. Ecuador.
37
Ilustración 3: Ilustración de ejemplo de uno de los corpus, obtenida con el Widget Corpus Viewer.
Navira G. Angulo Murillo, Alex A. Sánchez Arteaga, Gabriel R. García Murillo, Wilton R. Saltos Rivas
38
Revista Mikarimin. Publicación cuatrimestral. Vol. 6, Año 2020, Edición Especial (Julio)
Ilustración 4: Word Cloud con las palabras con mayor peso en el Corpus, información que es complementaria al
Análisis de Sentimientos
CONCLUSIONES
Es importante analizar los sentimientos que se transmiten en los instrumentos de recolección de
datos, pues existe preocupación en el mundo como lo demuestran muchos trabajos de
investigación, por lo que, si los instrumentos implican en su estructura tendencias hacia el
fomento de mayor preocupación, el bienestar en general decae entre las personas.
Los resultados obtenidos mediante diversos mecanismos denominado Widget en el modelo
presentado, muestran cierta inclinación hacia el sentimiento Neutral en las preguntas relativas al
entorno del encuestado, este entorno incluye preguntas sobre cómo se informa el posible
encuestado sobre coronavirus y con qué frecuencia lo hace, el cuidado de la salud mental, los
implementos de bioseguridad que emplea, entre otros.
Los sentimientos Positivos abordan un nivel medio casi en todos los siete tipos de preguntas, lo
que en cierto modo es saludable, pues parece ser un buen intento por parte de los autores de los
instrumentos de recolección de datos, en no infundir miedo en las preguntas, pero tampoco
sentimientos de falsa seguridad.
Los sentimientos Negativos son similares a los positivos, pero se remarcan en las preguntas
relativas al Entorno, Impacto y Percepción. Estas preguntas se relacionan con el impacto en la
economía familiar, creencias sobre el origen del virus, creencias sobre la eficacia de los
gobiernos ante la pandemia, entre otros.
Las emociones combinadas son muy bajas en las preguntas relativas al Entorno, Conocimiento y
Tratamiento de Salud, aunque en algunas preguntas del tipo Percepción el mapa de color
representa mediante color amarillo una ligera repercusión favorable al tipo de combinación de
sentimientos.
REFERENCIAS BIBLIOGRÁFICAS
Amala, G. (2019). Orange tool approach for comparative analysis of supervised learning algorithm in classification
mining. Journal of Analysis and Computation, 13(1), 1–10.
Mikarimin. Revista Científica Multidisciplinaria ISSN 2528-7842
ANÁLISIS DE SENTIMIENTOS EMPLEANDO MINERÍA DE TEXTOS
© Centro de Investigación y Desarrollo. Universidad Regional Autónoma de Los Andes - Extensión Santo Domingo. Ecuador.
39
Bird, S., Klein, E., & Loper, E. (2008). NLTK Documentation. Online: Accessed April.
Jin, Y. (2017). Development of word cloud generator software based on python. Procedia Engineering, 174, 788–
792.
Manguri, K., Ramadhan, R., & Mohammed Amin, P. (2020). Twitter Sentiment Analysis on Worldwide COVID-19
Outbreaks. Kurdistan Journal of Applied Research, 54–65. https://doi.org/10.24017/covid.8
Newman, H., & Joyner, D. (2018). Sentiment analysis of student evaluations of teaching. International Conference
on Artificial Intelligence in Education, 246–250.
Peng, L., Yang, W., Zhang, D., Zhuge, C., & Hong, L. (2020). Epidemic analysis of COVID-19 in China by
dynamical modeling. ArXiv Preprint ArXiv:2002.06563.
Vijaymeena, M. K., & Kavitha, K. (2016). A survey on similarity measures in text mining. Machine Learning and
Applications: An International Journal, 3(2), 19–28.
World Health Organization. (2000). The world health report 2000: health systems: improving performance. World
Health Organization.
World Health Organization. (2020). World Health Organization. Covid-19 Question Bank.
https://tinyurl.com/y2tv8b7o
Navira G. Angulo Murillo, Alex A. Sánchez Arteaga, Gabriel R. García Murillo, Wilton R. Saltos Rivas
40
Revista Mikarimin. Publicación cuatrimestral. Vol. 6, Año 2020, Edición Especial (Julio)


Contador de visitas: Resumen | 25 | y

Enlaces refback

  • No hay ningún enlace refback.


Copyright (c) 2020 Navira Gissela Angulo Murillo, Alex Alfonso Sánchez Arteaga, Gabriel Rodolfo García Murillo, Wilton Rafael Saltos Rivas

Licencia de Creative Commons
Este obra está bajo una licencia de Creative Commons Reconocimiento 4.0 Internacional.

Publicación bajo licencia

Grupo 2. Clasificación de Revistas Científicas de la República de Cuba.

Cátálogo 1.0 (36/36 criterios cumplidos).

Procedencia geográfica de los lectores de Revista Mikarimin

Map