Algoritmo para el problema data streaming clustering para conjuntos amorfos y con outliers
Abstract
El presente trabajo tiene la finalidad de investigar sobre el tema de Clustering porque es un campo importante dentro de Machine Learning y ha sido ampliamente estudiado durante varios años. Como resultado, se desarrollaron muchos algoritmos que resuelven este problema, los cuales tal como están planteados no pueden resolver el caso particular que será objeto de este estudio. Por ello un nuevo problema llama- do Data Streaming Clustering fue propuesto y fue objeto de investigación de muchos estudios. Este problema está definido como el clustering de un flujo de datos recibidos continuamente. Data Streaming clustering tiene como objetivo encontrar y mantener un conjunto de clusters válidos en un continuo y posiblemente ilimitado flujo de datos. Teniendo en cuenta las limitantes actuales en la tecnología como la capacidad de la memoria o limitaciones en el tiempo computacional. Es importante tener en cuenta que los algoritmos para el problema de clustering no pueden resolver eficientemente el problema en estudio sin una previa modificación, ya que no toman en cuenta estas características. Debido a las características de este problema los algoritmos planteados para resolver el problema de Data Streaming clustering pueden ser usados para minería de datos con características especiales como outliers o ruido en los datos, como grabaciones telefónicas, transacciones bancarias, información de redes sociales. En esta investigación se presenta el diseño e implementación de un algoritmo para Data Streaming Clustering para datasets con clusters irregulares, outliers y sin necesidad de un conocimiento previo del número de clusters, además se realiza un análisis y discusión sobre los resultados.
Collections
- Tesis [91]