Local cover image
Local cover image

Estudio de técnicas de agrupamiento en procesos de datos a gran escala : su aplicación en la descripción de casos de COVID-19 registrados en la República Argentina

By: Contributor(s): Material type: TextTextPublication details: 2022Description: 1 archivo (9,4 MB) : il. colSubject(s): Online resources:
Contents:
1. Introducción -- 1.1. Motivación -- 1.2. Objetivos -- 1.3. Trabajos relacionados -- 2. Conceptos preliminares -- 2.1. K-Means -- 2.1.1. Selección de centroides -- 2.1.2. El algoritmo -- 2.1.3. Problemas adicionales en la agrupación K-Means -- 2.1.4. Paralelismo de datos y resultados -- 2.2. Bisecting K-Means -- 2.3. Mezclas Gaussianas -- 2.4. Métodos de validación interna -- 2.4.1. Índice Silhouette -- 2.4.2. Medición de la validez del clúster a través de la correlación -- 2.4.3. Visualización de agrupamientos por su matriz de similitud -- 2.4.4. Evaluación no supervisada de la agrupación jerárquica -- 2.4.5. Determinación del número correcto de clústeres -- 3. Marco experimental -- 3.1. Origen de los datos -- 3.1.1. Descripción del conjunto de datos -- 3.1.2. Detalles del atributo Clasificación -- 3.2. Herramientas utilizadas para la exploración de datos y ensayos -- 3.2.1. Google Colab -- 3.2.2. PySpark -- 3.2.2.1. MLlib -- 3.2.3. Formato Parquet -- 3.2.4. QlikView -- 4. Preprocesamiento de datos -- 4.1. Selección de atributos -- 4.2. Limpieza y preparación de datos -- 4.2.1. Generación de vectores de características -- 4.3. Conjuntos de datos -- 4.4. Matriz de correlación -- 5. Experimentación -- 5.1. Tiempos de ejecución -- 5.2. Validación de los clústers -- 5.2.1. Índice Silhouette -- 5.2.1.1. Selección del número de agrupaciones según el índice Silhouette -- 5.2.2. Matriz de evidencia. -- 5.2.3. Matriz de similitud ideal -- 5.2.4. Coincidencia en la clasificación de casos por los 3 modelos -- 5.2.5. Distribución de casos por modelo, agrupación y predicción -- 5.3. Análisis de agrupamientos -- 5.3.1. Distribución de los casos por atributo -- 5.3.1.1. Distribución del atributo edad -- 5.3.2. Inclusión de las provincias -- 6. Conclusiones -- Bibliografía
Dissertation note: Trabajo Final Integrador (Especialización en Inteligencia de Datos Orientada a Big Data) - Universidad Nacional de La Plata. Facultad de Informática, 2022.
Star ratings
    Average rating: 0.0 (0 votes)

Trabajo Final Integrador (Especialización en Inteligencia de Datos Orientada a Big Data) - Universidad Nacional de La Plata. Facultad de Informática, 2022.

1. Introducción -- 1.1. Motivación -- 1.2. Objetivos -- 1.3. Trabajos relacionados -- 2. Conceptos preliminares -- 2.1. K-Means -- 2.1.1. Selección de centroides -- 2.1.2. El algoritmo -- 2.1.3. Problemas adicionales en la agrupación K-Means -- 2.1.4. Paralelismo de datos y resultados -- 2.2. Bisecting K-Means -- 2.3. Mezclas Gaussianas -- 2.4. Métodos de validación interna -- 2.4.1. Índice Silhouette -- 2.4.2. Medición de la validez del clúster a través de la correlación -- 2.4.3. Visualización de agrupamientos por su matriz de similitud -- 2.4.4. Evaluación no supervisada de la agrupación jerárquica -- 2.4.5. Determinación del número correcto de clústeres -- 3. Marco experimental -- 3.1. Origen de los datos -- 3.1.1. Descripción del conjunto de datos -- 3.1.2. Detalles del atributo Clasificación -- 3.2. Herramientas utilizadas para la exploración de datos y ensayos -- 3.2.1. Google Colab -- 3.2.2. PySpark -- 3.2.2.1. MLlib -- 3.2.3. Formato Parquet -- 3.2.4. QlikView -- 4. Preprocesamiento de datos -- 4.1. Selección de atributos -- 4.2. Limpieza y preparación de datos -- 4.2.1. Generación de vectores de características -- 4.3. Conjuntos de datos -- 4.4. Matriz de correlación -- 5. Experimentación -- 5.1. Tiempos de ejecución -- 5.2. Validación de los clústers -- 5.2.1. Índice Silhouette -- 5.2.1.1. Selección del número de agrupaciones según el índice Silhouette -- 5.2.2. Matriz de evidencia. -- 5.2.3. Matriz de similitud ideal -- 5.2.4. Coincidencia en la clasificación de casos por los 3 modelos -- 5.2.5. Distribución de casos por modelo, agrupación y predicción -- 5.3. Análisis de agrupamientos -- 5.3.1. Distribución de los casos por atributo -- 5.3.1.1. Distribución del atributo edad -- 5.3.2. Inclusión de las provincias -- 6. Conclusiones -- Bibliografía

Click on an image to view it in the image viewer

Local cover image