Mikarimin. Revista Científica Multidisciplinaria ISSN 2528-7842
GESTIÓN DE UN SISTEMA DE COMERCIALIZACIÓN DE ENERGÍA ELÉCTRICA
© Centro de Investigación y Desarrollo. Universidad Regional Autónoma de Los Andes - Extensión Santo Domingo. Ecuador.
19
TÉCNICAS DE MINERÍA DE DATOS COMO SOPORTE PARA LA GESTIÓN DE UN
SISTEMA DE COMERCIALIZACIÓN DE ENERGÍA ELÉCTRICA
GESTIÓN DE UN SISTEMA DE COMERCIALIZACIÓN DE ENERGÍA ELÉCTRICA
AUTORES: Jorge Iván Pincay Ponce
1
Navira Gissela Angulo Murillo
2
Jorge Sergio Herrera Tapia
3
Wilian Richart Delgado Muentes
4
DIRECCIÓN PARA CORRESPONDENCIA: jorge.pincay@uleam.edu.ec
Fecha de recepción: 23-04-2020
Fecha de aceptación: 11-06-2020
RESUMEN
Tener un suministro de energía eléctrica suficiente es vital para la comunidad, lo que demanda
mantenimiento y mejora continua del servicio por parte de las compañías prestatarias del
servicio. Entre otros aspectos, estas compañías mantienen bases de datos que capturan el
consumo de la energía y en tal sentido en la presente investigación se propone el uso de técnicas
de Redes Neuronales Artificiales y Reglas de Asociación como soporte a la gestión del sistema
de comercialización de la energía eléctrica en una empresa pública de la ciudad de Manta, a partir
de una muestra de datos extraídos de las facturas de consumo residencial correspondientes al año
2015. Los algoritmos usados específicamente fueron el perceptrón multicapa a nivel de redes
neuronales y PART como regla de asociación. En esta aplicación empírica de minería de datos, se
demostró que las redes neuronales y reglas de asociación son alternativas viables para predecir
los niveles de consumo y comprender los patrones de consumo de energía.
PALABRAS CLAVE: Redes neuronales; Reglas de Asociación; Datamining; minería de dato;
WEKA; Consumo de energía eléctrica.
TECHNIQUES OF DATA MINING AS SUPPORT FOR THE MANAGEMENT OF A
SYSTEM OF ELECTRIC ENERGY COMMERCIALIZATION
1
Ingeniero en Sistemas por la Universidad Laica Eloy Alfaro de Manabí, Máster Universitario en Ingeniería de
Software para la Web por la Universidad de Alcalá – España. Docente titular en la carrera de Ingeniería en Sistemas
de la Universidad Laica Eloy Alfaro de Manabí. Manta, Manabí, Ecuador.
2
Ingeniera en Sistemas por la Universidad Laica Eloy Alfaro de Manabí, Máster en Dirección Estratégica de las
Tecnologías de la Información y Comunicación por la Universidad Nacional de Piura Perú. Coordinadora de
Planificación Estratégica y Operativa de la Universidad Laica Eloy Alfaro de Manabí. Manta, Manabí, Ecuador. E-
mail: navira.angulo@live.uleam.edu.ec
3
Ingeniero en Sistemas Computacionales por la Universidad Técnica del Norte, Doctor en Informática por la
Universidad Politécnica de Valencia – España. Docente titular en la carrera de Ingeniería en Sistemas de la
Universidad Laica Eloy Alfaro de Manabí. Manta, Manabí, Ecuador. E-mail: jorge.herrera@live.uleam.edu.ec
4
Ingeniero en Sistemas Computacionales por la Universidad Técnica de Manabí, Máster en Informática de gestión y
nuevas tecnologías por la Universidad Técnica Santa María Chile. Docente titular en la carrera de Ingeniería en
Sistemas de la Universidad Laica Eloy Alfaro de Manabí. Manta, Manabí, Ecuador. E-mail:
wilian.delgado@live.uleam.edu.ec
Jorge I. Pincay-Ponce, Navira G. Angulo-Murillo, Jorge S. Herrera-Tapia, Wilian R. Delgado-Muentes
20
Revista Mikarimin. Publicación cuatrimestral. Vol. VI, Año 2020, No. 2 (Mayo-Agosto)
ABSTRACT
Having a sufficient electrical power supply is vital for the community, which demands
maintenance and continuous improvement of the service by the service companies. Among other
aspects, these companies maintain data bases that capture energy consumption and in this sense
the present research proposes the use of Artificial Neural Network techniques and Association
Rules as support for the management of the marketing system of the electric power in a public
company of Manta city, based on a sample of data extracted from residential consumption bills
for the year 2015. The algorithms used specifically were the multilayer perceptron at the level of
neural networks and PART as a rule of association. In this empirical application of data mining, it
was shown that neural networks and association rules are viable alternatives to predict
consumption levels and to understand energy consumption patterns.
KEYWORDS: Neural Networks; Association Rules; Datamining; Data Mining; WEKA; Electric
Power Consumption.
INTRODUCCIÓN
La demanda de electricidad ha aumentado continuamente a lo largo de las últimas décadas, así
como la atención que se presta a este consumo y sus impactos ambientales. Dicho crecimiento de
consumo a nivel de los hogares y de la industria, en parte es motivado por el auge de dispositivos
y servicios de tecnologías de la información y de la comunicación, así como el propio
crecimiento demográfico, unido a factores que se pueden considerar tradicionales como lo son el
clima, nivel socioeconómico, hábitos de consumo, entre otros (Ariza Ramírez, 2013, p. 17;
Gönen, 1986; Van Heddeghem et al., 2014).
En los últimos años han habido esfuerzos por desarrollar métodos más precisos, confiables y
computacionalmente eficientes para el pronóstico de la demanda de electricidad, pudiéndose
clasificar por métodos matemáticos, estadísticos, de horizonte temporal y de Inteligencia
Artificial (AI); dentro de la AI, tal como se lo ha hecho en el presente estudio, se han empleado
técnicas de minerías de datos como lo son las Redes Neuronales Artificiales y las Reglas de
Asociación (Ariza Ramírez, 2013, p. 32; Xiao & Fan, 2014a, p. 111); pese a esto, existen
estudios que demuestran la existencia de brechas entre las investigaciones realizadas y la
dirección de futuras investigaciones basadas en datos (Amasyali & El-Gohary, 2018a, p. 1193).
Las redes neuronales artificiales, son una de las técnicas más usadas en la predicción de
consumos eléctricos (Amasyali & El-Gohary, 2018b) y consisten en un modelo computacional no
lineal, inspirado en el cerebro humano. Generalmente incluyen tres capas secuenciales: la capa de
entrada, la capa oculta y la capa de salida; cada capa tiene una cantidad de neuronas
interconectadas, y cada neurona tiene una función de activación.
Normalmente, se utilizan tres tipos de parámetros para definir las redes neuronales: el patrón de
interconexión entre las neuronas de las diferentes capas, el proceso de aprendizaje para actualizar
los pesos de las interconexiones, y la función de activación que convierte la entrada ponderada de
una neurona en su activación de salida (Wang & Srinivasan, 2015, p. 3340). En las redes
neuronales, cada característica como por ejemplo el mes a pagar o el total a pagar se multiplica
por su peso neuronal correspondiente y se resume con el sesgo. La función de activación se aplica
para determinar la salida, por ejemplo, el mes en el que se paga.
Mikarimin. Revista Científica Multidisciplinaria ISSN 2528-7842
GESTIÓN DE UN SISTEMA DE COMERCIALIZACIÓN DE ENERGÍA ELÉCTRICA
© Centro de Investigación y Desarrollo. Universidad Regional Autónoma de Los Andes - Extensión Santo Domingo. Ecuador.
21
Entre los tipos de redes neuronales artificiales se incluyen la propagación hacia atrás (BPNN), la
función radial (RBFNN), la regresión general (GRNN), feed forward (FFNN), sistemas
adaptativos de inferencia neuro - difusa (ANFIS), la mezcla jerárquica de expertos (HME), fuzzy
c-means (FCC) y el perceptrón multicapa (MLP) (Amasyali & El-Gohary, 2018a, p. 1193). En
esta investigación se emplea el perceptron multicapa, que es una clase de red neuronal de
alimentación anticipada que consiste en al menos tres capas de nodos. Excepto por los nodos de
entrada, cada nodo es una neurona que usa una función de activación no lineal. Un MLP utiliza
una técnica de aprendizaje supervisada llamada backpropagation para el entrenamiento. Sus
capas múltiples y activación no lineal distinguen al MLP de un perceptrón lineal (Rosenblatt,
1961; Rumelhart, Hinton, & Williams, 1985).
En esta investigación se empleó también reglas de asociación, que es un proceso de aprendizaje
no supervisado, típicamente relacionado con el análisis de cesta de mercado, pero también
aplicado en bioinformática y la sociología (Xiao & Fan, 2014b, 2014a, p. 112), estas buscan
descubrir todas las reglas que satisfagan el mínimo especificado por el usuario mediante la
denominada confianza mínima. Es necesario reconocer algunos conceptos relativos a las reglas
de asociación, que de acuerdo con (Xiao & Fan, 2014a, p. 112) se resumen en:
El soporte de una regla, que es la articulación de la probabilidad del antecedente y el
consecuente.
La confianza, que es la probabilidad condicional del consecuente, dado el antecedente.
El soporte y la confianza se utilizan normalmente para determinar si la regla es
estadísticamente significativa o no.
El levantamiento, que es una medida de dependencia y correlación entre el antecedente y el
consecuente. Si el levantamiento es igual a 1, indica que el antecedente y el consecuente son
independientes entre sí, y, por lo tanto, lo descubierto tiene poco valor. Un levantamiento
mayor que 1 indica una correlación positiva, lo que significa que la probabilidad del
consecuente es positivamente afectada por la ocurrencia del antecedente.
El pronóstico de la demanda de electricidad es una herramienta fundamental para la toma de
decisiones operativas y estratégicas en las empresas eléctricas, cuya falta de precisión puede traer
altos costos económicos (Ariza Ramírez, 2013). La problemática de la demanda y el consumo
eléctrico tiene variadas connotaciones como las indicadas en la introducción de este documento.
En esta investigación se emplearon técnicas de minería de datos típicas como lo son las redes
neuronales y las reglas de asociación, para soporte en la gestión de comercialización de energía
eléctrica. Con las redes neuronales se predijo los momentos de mayor demanda y con las reglas
de asociación se encontró patrones de estos datos en la muestra de 1200 registros resultantes,
sobre los cuales también es posible incorporar otras técnicas de minería de datos de clasificación,
regresión, segmentación, asociación y análisis de secuencia.
Resulta notable la importancia de conocer a corto, mediano y largo plazo el crecimiento de la
demanda de energía eléctrica, de una manera segura, confiable y cercana a la realidad. Para esto
se requiere que las técnicas nombradas sean validadas teniendo siempre en cuenta que todas
tienen ventajas y desventajas que hay que reconocer, ya que de esto depende garantizar el
suministro de la energía eléctrica.
Jorge I. Pincay-Ponce, Navira G. Angulo-Murillo, Jorge S. Herrera-Tapia, Wilian R. Delgado-Muentes
22
Revista Mikarimin. Publicación cuatrimestral. Vol. VI, Año 2020, No. 2 (Mayo-Agosto)
METODOLOGÍA
La aplicación de técnicas de minería de datos implica procesos que van desde la formulación de
preguntas acerca de los datos hasta la creación e implementación de modelos empleables en
diversos contextos. Un proceso Uno de los más documentados procesos para esta finalidad, es el
de Microsoft, que se sigue en esta investigación y se detalla en las siguientes subsecciones, este
proceso incluye seis pasos: definición del problema, preparación de los datos, exploración de los
datos, generación, validación e implementación de los modelos (Microsoft, 2018). Investigación
documental, basada en un estudio de campo.
Los datos facilitados por empresa pública de energía eléctrica, en adelante referida simplemente
como empresa eléctrica, estaban alojados en una base de datos MySQL. Estos datos fueron
analizados con el software de aprendizaje automático y de minería de datos WEKA (Waikato
Environment for Knowledge Analysis) versión 3.8.1, Java Virtual Machine (JVM) versión 1.8,
Java versión 9 y el conector MySQL - WEKA Connector/J versión 8.0.
Paso 1: Definición del problema
Conocido el esquema relacional de la base de datos de empresa eléctrica, los datos y tipos con los
que se contaba, se procedió a la construcción de un archivo ARFF (Attribute Relation File
Format) con datos extraídos a partir de la base de datos. Dado estos antecedentes, se definió el
problema que fue abordado mediante predicciones y clasificaciones elaboradas empleando redes
neuronales y reglas de asociación.
Día del Mes: Se predice el día del mes en que más se generan cobros a partir de los datos
reales en el archivo ARFF. Con respecto a los días de más cobro es de considerar que la
mayoría ocurren luego del periodo de finalización de brindar el servicio eléctrico, guardado
en el atributo “hasta”. Para que el modelo sea capaz de identificar el perfil de carga asociado
a cada día del mes, se calculó e incluyó el atributo “DiaDelMes”.
Día de la semana: Se predice el día de la semana en que más se generan cobros a partir de los
datos reales en el archivo ARFF. Con respecto a los días de más cobro es de considerar que la
mayoría ocurren en los días laborales de la semana, es decir de lunes a viernes, salvo casos
donde empresa eléctrica atienda fines de semana, como por ejemplo en los denominados
sábados de recuperación de feriados. Para que el modelo sea capaz de identificar el perfil de
carga asociado a cada día de la semana, se incluyó una variable categórica que recoja este
dato así: lunes = “1”, martes = “2”, … viernes = “5”.
Mes del año: Se predice el mes del año en que más se generan cobros a partir de los datos
reales que se tenga en el archivo ARFF. Para que el modelo sea capaz de identificar el perfil
de carga asociado a cada día del mes, se incluyó una variable que recoja este número del día
en el atributo “DiaDelMes”.
Estaciones: La demanda diaria de energía varía significativamente entre el invierno y el
verano, en los meses de invierno al margen de los aumentos de temperatura se evidencia más
consumo por el mayor uso de dispositivos como ventiladores o acondicionadores de aire, así
como por abarcar los meses de vacaciones en instituciones educativas de la costa de Ecuador.
Esta variable categórica, a la que se la denominó estación, fue codificada considerando al
invierno como los meses de enero a mayo y a los restantes meses se los consideró verano.
Mikarimin. Revista Científica Multidisciplinaria ISSN 2528-7842
GESTIÓN DE UN SISTEMA DE COMERCIALIZACIÓN DE ENERGÍA ELÉCTRICA
© Centro de Investigación y Desarrollo. Universidad Regional Autónoma de Los Andes - Extensión Santo Domingo. Ecuador.
23
Adicionalmente se pueden extraer resultados por orden geográfico, pues se tiene los datos de
ubicación de los clientes. Si bien los resultados esperados se han expresado en términos de
consumo por Kilowatt (kW), también es posible expresarlos en términos monetarios, pues el
valor a recaudar es proporcional al consumo del cliente, salvo en caso de beneficios concretos de
ciertos clientes residenciales y que no se consideraron en esta investigación.
Paso 2: Preparación de datos
La base de datos de empresa eléctrica es extensa, pero para fines de esta investigación se ilustran
las tablas que tienen campos implicados en las necesidades específicas del estudio (ver
Ilustración 1). El archivo ARFF resultante, mencionado en el Paso 1, cuenta con 1200 registros
aleatorios que corresponden a consumos eléctricos del sector residencial en el año 2015. Los
datos en el archivo ARFF no se necesitaron limpiar, tampoco fue necesario agregar nuevos
registros, pero si convertir ciertos tipos a texto o nominal y decimal o numeric, que son los tipos
de datos que soporta WEKA (Witten, Frank, Hall, & Pal, 2016), esta conversión se hace
empleando la función SQL CAST al momento de introducir la consulta SQL en el SQL Viewer
de WEKA (ver Ilustración 2). Luego, los resultados se guardaron como archivo ARFF y en
adelante fue posible operarlos y visualizarlos con la utilidad ARFF Viewer de WEKA tal como
se muestra en la Ilustración 3.
Ilustración 1: Diagrama Entidad Relación de las tablas empleadas para construir el archivo ARFF. Fuente:
Investigación