Paralelización del algoritmo basado en el comportamiento social de las arañas para clustering
Abstract
La adaptación de las tecnologías digitales y la aplicación de Internet en las organizaciones, personas y dispositivos, generan una cantidad extraordinaria de datos en diversas áreas de la ciencia como por ejemplo: minería de datos, big data, clasificación de patrones, reconocimiento de imágenes, inteligencia de negocios, bioinformática, detección de outliers e IoT. En consecuencia estos datos requieren ser analizados, procesados y almacenados. El proceso de análisis generalmente trae dificultades computacionales como el tiempo de ejecución y la calidad de los resultados. Clustering es una de las técnicas de clasificación mas utilizadas para analizar grandes y pequeños volúmenes de datos. En la literatura se puede hallar algoritmos como por ejemplo: Social Spider Optimization (SSO), K-means, Artificial Bee Colony (ABC), Particle Swarm Optimization (PSO), Genetic Algorithms (GA). En este trabajo se implementa la versión paralela del algoritmo SSO, esta implementación es denominada como Parallel Social Spider Optimization (P-SSO). El objetivo de esta investigación es mejorar la precisión de la métrica y el tiempo de ejecución del algoritmo SSO. Para el desarrollo de la implementación se utilizó el mecanismo de modelo de isla con topologías estáticas y topologías dinámicas. En la etapa experimental los algoritmos propuestos se ejecutaron 50 veces, para lo cual se usó 9 dataset del repositorio UCI Machine Learning Repository. Tambien se realizó un análisis estadístico para comparar el algoritmo SSO con el algoritmo P-SSO. Los resultados muestran que los modelos paralelos del algoritmo P-SSO en promedio son 15 veces más rápido que el algoritmo SSO para clasificar grandes volúmenes de datos y 28 veces más rápido para pequeños volúmenes de datos. Así mismo se verifico que la métrica generada de la suma de las distancias Euclidianas para el algoritmo P-SSO es muy similar a la métrica resultante del algoritmo SSO y para algunos dataset este valor es más óptimo. Finalmente, se verifico que los modelos paralelos del algoritmo P-SSO convergen más lento que el algoritmo SSO. Esto constituye un aporte significativo en mejorar el tiempo de ejecución de estos algoritmos para resolver problemas de clustering, con métricas muy favorables que verifican la solución.
Collections
- Tesis [13]