Métodos Estadísticos para la mineria de datos
La filosofía de la minería de datos trata de la conversión de datos en conocimiento para la toma de decisiones, y como tal constituye la fase central del proceso de extracción de conocimiento a partir de bases de datos. La minería de datos es un punto de encuentro de diferentes disciplinas:
- la estadística,
- el aprendizaje automático (machine learning)
- las técnicas de bases de datos
- los sistemas para la toma de decisiones.
Juntas permiten afrontar muchos problemas actuales en cuanto al tratamiento de la información.
La asignatura introduce las técnicas más usuales para la resolución de tres tipos de problemas fundamentales: el análisis de datos binarios (transacciones), el análisis de datos científicos (por ejemplo, de genómica) y el análisis de datos de empresas; los cuales configuran buena parte de los problemas actuales que trata la minería de datos.
Como objetivo paralelo hay utilizar la R, un potente en torno a programación libre.
1 Introducción a la mineria de datos
La minería de datos es el proceso de extraer patrones, tendencias y conocimientos útiles a partir de grandes volúmenes de datos. Combina estadística, aprendizaje automático y bases de datos para ayudar a resolver problemas en diversas áreas, como negocios, ciencia y tecnología.
Laboratorio - Software Carpentry
2 K-Nearest Neighbor (KNN) y Naives Bayes
Un clasificador basado en probabilidad que asume independencia entre las características. Es eficiente y se aplica en problemas como clasificación de texto y detección de spam.
3 Clustering
El clustering agrupa datos similares en clústeres basados en características compartidas. Es útil para descubrir patrones ocultos y segmentar conjuntos de datos, comúnmente aplicado en marketing, biología y análisis de redes.
4 Visualización de datos
La visualización de datos convierte información compleja en gráficos y representaciones visuales claras, facilitando la interpretación y comunicación de resultados. Herramientas como gráficos de dispersión, histogramas y mapas de calor son fundamentales.
4.1 Analisis de componentes principales (ACP)
El ACP reduce la dimensionalidad de los datos al identificar las combinaciones lineales más relevantes de las variables originales, conservando la mayor parte de la variación. Se usa para simplificar datos y facilitar su interpretación.
4.2 Analisis de correspondiencias múltiples (ACM)
El ACM analiza tablas de datos categóricos para identificar relaciones entre categorías, visualizando patrones en mapas bidimensionales que facilitan la interpretación.
5 Reglas de asociación
Este método identifica relaciones significativas entre variables en grandes bases de datos. Es clave en aplicaciones como los sistemas de recomendación y análisis de cestas de mercado.
6 Reglas de clasificación
Los modelos de clasificación asignan datos a categorías predefinidas basándose en patrones aprendidos. Es ampliamente usado en diagnóstico médico, detección de fraudes y análisis de texto.
6.1 Lineal Discriminant Analysis (LDA) y Quadratic Discriminant Analysis (QDA)
Ambos métodos buscan separar categorías utilizando fronteras de decisión basadas en estadísticas. LDA asume varianzas iguales entre clases, mientras que QDA permite varianzas diferentes.
7 Métodos particionales
Dividen datos en subconjuntos o particiones, a menudo mediante árboles de decisión y técnicas relacionadas.
7.1 Decisions Tree
Modelo gráfico que toma decisiones en base a condiciones secuenciales. Es intuitivo y útil en clasificación y regresión.
7.2 Random Forest
Combina múltiples árboles de decisión para mejorar precisión y reducir sobreajuste. Es robusto y adecuado para tareas de clasificación y regresión.
7.3 Bagging & Boosting
Métodos de ensamblado que mejoran el rendimiento combinando múltiples modelos. Bagging reduce la variabilidad, mientras que Boosting optimiza errores iterativamente.
8 Métodos flexibles de discriminación
8.1 Support Vectors Machines (SVM)
Separan clases usando hiperplanos óptimos en un espacio de alta dimensionalidad. Son efectivas en problemas no lineales y clasificación compleja.
9 Deep Learning
El aprendizaje profundo utiliza redes neuronales para modelar datos complejos. Es ampliamente aplicado en reconocimiento de imágenes, procesamiento de lenguaje natural y más.
9.1 Redes neuronales: Discriminación pel perceptrón multicapa
Las redes multicapa, basadas en múltiples capas de neuronas interconectadas, resuelven problemas no lineales con alta precisión.
9.2 Redes neuronales convolucionales
Especializadas en procesar datos con estructura espacial, como imágenes. Extraen automáticamente características relevantes para tareas como clasificación de imágenes y visión por computadora.
Detección de imagenes deportivas
Importante: Para poder hacer uso de este script es necesario que tengas:
Entre 2 y 3 fotos de cuerpo entero
Entre 3 y 5 fotos de medio cuerpo
Entorno a 10 fotos de cara
Esta web está creada por Dante Conti y Sergi Ramírez, (c) 2025
