Métodos Estadísticos para la mineria de datos

La filosofía de la minería de datos trata de la conversión de datos en conocimiento para la toma de decisiones, y como tal constituye la fase central del proceso de extracción de conocimiento a partir de bases de datos. La minería de datos es un punto de encuentro de diferentes disciplinas:

la estadística,
el aprendizaje automático (machine learning)
las técnicas de bases de datos
los sistemas para la toma de decisiones.

Juntas permiten afrontar muchos problemas actuales en cuanto al tratamiento de la información.

La asignatura introduce las técnicas más usuales para la resolución de tres tipos de problemas fundamentales: el análisis de datos binarios (transacciones), el análisis de datos científicos (por ejemplo, de genómica) y el análisis de datos de empresas; los cuales configuran buena parte de los problemas actuales que trata la minería de datos.

Como objetivo paralelo hay utilizar la R, un potente en torno a programación libre.

1 Introducción a la mineria de datos

La minería de datos es el proceso de extraer patrones, tendencias y conocimientos útiles a partir de grandes volúmenes de datos. Combina estadística, aprendizaje automático y bases de datos para ayudar a resolver problemas en diversas áreas, como negocios, ciencia y tecnología.

Teoria

Laboratorio - Software Carpentry

Laboratorio - Descriptive Analysis

Laboratorio - Advanced Preprocessing

2 K-Nearest Neighbor (KNN) y Naives Bayes

Un clasificador basado en probabilidad que asume independencia entre las características. Es eficiente y se aplica en problemas como clasificación de texto y detección de spam.

Teoria

Laboratorio

3 Clustering

El clustering agrupa datos similares en clústeres basados en características compartidas. Es útil para descubrir patrones ocultos y segmentar conjuntos de datos, comúnmente aplicado en marketing, biología y análisis de redes.

Teoria

Laboratorio

4 Visualización de datos

La visualización de datos convierte información compleja en gráficos y representaciones visuales claras, facilitando la interpretación y comunicación de resultados. Herramientas como gráficos de dispersión, histogramas y mapas de calor son fundamentales.

4.1 Analisis de componentes principales (ACP)

El ACP reduce la dimensionalidad de los datos al identificar las combinaciones lineales más relevantes de las variables originales, conservando la mayor parte de la variación. Se usa para simplificar datos y facilitar su interpretación.

Teoria

Laboratorio

4.2 Analisis de correspondiencias múltiples (ACM)

El ACM analiza tablas de datos categóricos para identificar relaciones entre categorías, visualizando patrones en mapas bidimensionales que facilitan la interpretación.

Teoria

Laboratorio - ACS

Laboratorio - ACM

5 Reglas de asociación

Este método identifica relaciones significativas entre variables en grandes bases de datos. Es clave en aplicaciones como los sistemas de recomendación y análisis de cestas de mercado.

Teoria

Laboratorio

6 Reglas de clasificación

Los modelos de clasificación asignan datos a categorías predefinidas basándose en patrones aprendidos. Es ampliamente usado en diagnóstico médico, detección de fraudes y análisis de texto.

6.1 Lineal Discriminant Analysis (LDA) y Quadratic Discriminant Analysis (QDA)

Ambos métodos buscan separar categorías utilizando fronteras de decisión basadas en estadísticas. LDA asume varianzas iguales entre clases, mientras que QDA permite varianzas diferentes.

Teoria

Laboratorio

7 Métodos particionales

Dividen datos en subconjuntos o particiones, a menudo mediante árboles de decisión y técnicas relacionadas.

7.1 Decisions Tree

Modelo gráfico que toma decisiones en base a condiciones secuenciales. Es intuitivo y útil en clasificación y regresión.

7.2 Random Forest

Combina múltiples árboles de decisión para mejorar precisión y reducir sobreajuste. Es robusto y adecuado para tareas de clasificación y regresión.

7.3 Bagging & Boosting

Métodos de ensamblado que mejoran el rendimiento combinando múltiples modelos. Bagging reduce la variabilidad, mientras que Boosting optimiza errores iterativamente.

Teoria

Laboratorio

8 Métodos flexibles de discriminación

8.1 Support Vectors Machines (SVM)

Separan clases usando hiperplanos óptimos en un espacio de alta dimensionalidad. Son efectivas en problemas no lineales y clasificación compleja.

Teoria

Laboratorio

9 Deep Learning

El aprendizaje profundo utiliza redes neuronales para modelar datos complejos. Es ampliamente aplicado en reconocimiento de imágenes, procesamiento de lenguaje natural y más.

9.1 Redes neuronales: Discriminación pel perceptrón multicapa

Las redes multicapa, basadas en múltiples capas de neuronas interconectadas, resuelven problemas no lineales con alta precisión.

9.2 Redes neuronales convolucionales

Especializadas en procesar datos con estructura espacial, como imágenes. Extraen automáticamente características relevantes para tareas como clasificación de imágenes y visión por computadora.

Teoria

Datos de deportes

Detección de imagenes deportivas

DreamBooth (parte 1)

Importante: Para poder hacer uso de este script es necesario que tengas:

Entre 2 y 3 fotos de cuerpo entero
Entre 3 y 5 fotos de medio cuerpo
Entorno a 10 fotos de cara

DreamBooth (parte 2)

DreamBooth (completo)