Preprocessament i Modelatge Avançat d’Anàlisi de Dades (PMAAD)

Preprocessament i models avançats d’anàlisis de dades és la tercera assignatura d’una seqüència on s’han adquirit ja els rudiments de Probabilitat i Estadística que inclou Introducció a l’Estadística (IE, Quadrimestre 2) i els Models estadístics més bàsics (ME, Quadrimestre 3). En aquestes assignatures prèvies, l’estudiant de grau de IA ha pogut aprendre nocions bàsiques d’anàlisi exploratòria i descriptiva de dades, teoria de probabilitat i mostreig, nocions d’inferència estadística i disseny d’experiments i models lineals de regressió simple, respectivament. Mentre que, a Modelització estadística, s’introdueix a l’alumne en models més complexos que inclouen, d’una banda, models de classificació, model lineal general i generalitzat i una introducció a sèries temporals com a algorismes supervisats, i, d’altra banda, models no supervisats que inclouen clustering i tècniques d’anàlisi multivariant del tipus PCA.

En aquesta assignatura es treballarà la metodologia de preprocessament de dades des d’una perspectiva de sistematització del procés i abordatge d’escenaris més complexos, dades composicionals, variables multivaluades, dades multilingües, … i s’estudiaran mètodes més complexos d’imputació de dades mancants o de diagnòstic i tractament d’outliers que permetin portar la dada a la presa de decisions complexes en aplicacions reals.

Aquesta assignatura integrarà les tècniques més complexes de preprocessament de dades en un escenari genèric de ciència de dades per connectar les dades depurades a models ja sigui d’estadística multivariant, com d’aprenentatge automàtic.

Respecte als mètodes avançats d’anàlisi de dades, es veuran tècniques d’anàlisi multivariant noves, com les que permeten escalar el clustering jeràrquic, noves formes de representar les dades (variables semàntiques) o generalitzen la topologia de classes que es poden reconèixer i l’automatització del postprocessament de dades, que ajuda a interpretar els patron representants en les classes. D’altra banda, s’exploraran diferents tècniques d’estadística multivariant per tractar dades espai-temporals i textuals, així com l’extracció de topics.

Introducció de l’assignatura

1 Advanced Preprocessing

Introduction and Data Quality

Missing Data & Feature Engineering

1.1 Automatic Descriptions Analysis (EDA)

Lab sesion 1 - EDA

1.2 Outliers Multivariates

Lab sesion 1 - Outliers Multivariates

1.3 Basic Imputation methods and MICE/MIMMI/Others

Lab sesion 2 - Imputation Methods

Lab sesion 2 - MIMMI

1.4 Preprocessing Geospacial

Lab sesion 2 - Preprocessing Geospacial

2 Advanced Clustering

2.1 Times Series Clustering

Times Series Clustering

Lab sesion 4 - Times Series Clustering

2.2 DBSCAN/OPTICS

DBSCAN/OPTICS/CURE

Lab sesion 5 - DBSCAN/OPTICS

3 Advanced Profiling

Advanced Profiling

Lab sesion 6 - Advanced Profiling

Lab sesion 6 - TLP, TERMOMETRO, aTLP

4 Correspondence Analysis

4.1 Simple Correspondence Analysis (ACS)

ACS

Lab sesion 7 - ACS

4.2 Multiple Correspondence Analysis (ACM) and Factor Analysis of mixed data (FAMD)

ACM - FAMD

Lab sesion 8 - ACM/FAMD Script

Lab sesion 8 - ACM/FAMD Referencia

Lab sesion 8 - FAMD

5 Geospatial Analysis

5.1 Geodescriptiva

Geodescriptiva

5.2 Geostatatistica

Geostatatistica

Lab sesion 10 - Geostatistica

Lab sesion 11 - Geomodelling

6 Texual Analysis

6.1 CA-GALT

CA-GALT

Textual Analysis

Lab sesion 12 - Topic Modelling

6.2 Topic Modelling

Topic Modelling

Lab sesion 12 - Topic Modelling

6.3 Latent Semantic Analysis

Latent Semanitc Analysis

Lab sesion 13 - LDA

Aquesta web està creada por Dante Conti y Sergi Ramírez, (c) 2024