Anàlisis de Correspondències Simples (ACS)

Author

Dante Conti, Sergi Ramirez, (c) IDEAI

Published

March 16, 2026

Modified

March 16, 2026

1 Introducció

L’anàlisi de correspondencies simples (ACS) s’utilitza per a descriure taules de contingència 1 (TC) mitjançant la representació geomètrica de les taules de condicionals fila i columna (perfils) derivades d’aquelles.

L’objectiu de l’ACS és descriure les associacions entre les variables fila i columna, a través dels seus perfils:

  • Comparar els perfilis fila.

  • Comparar els perfilis columna.

  • Estudiar les correspondències entre perfils fila i columna

La metodologia la va desenvolupar Benzecri, a principis dels anys 60 del segle XX en la Universitat de Renner (França). En essència. és un tipus especial d’anàlisi de components principals però realitzat sobre una taula de contingència i usant una distància euclidiana ponderada anomenada chi-quadrat (\(\chi^{2}\))

1.1 Contrast de Chi-quadrat (\(\chi^{2}\))

La prova de chi-quadrat (\(\chi^{2}\)) és un mètode estadístic que s’utilitza per a determinar si existeix una associació significativa entre variables categòriques comparant les freqüències observades i esperades en una taula de contingència.

H0 : No hi ha associació significativa entre les variables.

H1 : Hi ha una associació significativa entre les variables.

Per a realitzar la prova chi-quadrat (\(\chi^{2}\)):

1- Crear una taula de contingència amb les freqüències observades per a cada categoria.

2- Calcular les freqüències esperades assumint la independència entre les variables.

3- Calcular l’estadístic chi-quadrat (\(\chi^{2}\)).

Comparar l’estadístic calculat amb el valor crític de la distribució chi-quadrat (\(\chi^{2}\)) per a determinar si es rebutja o no la hipòtesi nul·la.

\[ \chi^{2} = \sum{\frac{(O_{ij}-E_{ij})^{2}}{E_{ij}}} \] Ón:

  • \(chi-quadrat (\)^{2}\()\): El estadístic de prova \(\chi^{2}\), medeix la discrepancia entre els valors observats i els esperats

  • \(\sum\) (sigma): Suma els valors de cada cela de la taula de contingència.

  • \(O_{ij}\): La freqüència observada en cada cel·la de la taula de contingència.

  • \(E_{ij}\): La freqüència esperada en cada cel·la de la taula de contingència.

Casos d’ús d’exemple

  • Avaluar la relació entre les variables demogràfiques (per exemple, edat, gènere, ingressos) i les preferències del consumidor o el comportament de compra.

  • Examinar l’associació entre els factors de risc i els resultats de les malalties, com el tabaquisme i la incidència el càncer de pulmó.

  • Explorar la relació entre variables categòriques com el nivell educatiu i la situació laboral o l’afiliació política i el comportament electoral.

  • Determinar si els patrons d’herència observats són consistents amb les proporcions mendelianes esperades, o si uns certs marcadors genètics estan associats amb trets o malalties específiques.

  • Avaluar la relació entre les variables de control de qualitat, com el tipus de defecte, i la línia de producció.

Suposicions

  1. Independència: L’ocurrència d’una observació no ha d’influir ni ser influenciada per una altra observació.

  2. Categòric: Totes dues variables són per a dades categòriques.

  3. Mútuament excloents: Les observacions només poden pertànyer a una cel·la de la taula de contingència.

  4. Grandària de la mostra: Ha d’haver-hi almenys cinc observacions en cada cel·la de la taula de contingència.

Proves alternatives

Prova exacta de Fisher: adequada quan la grandària de la mostra és petit i les freqüències de cel·la esperades en la taula de contingència són inferiors a 5. Sovint s’utilitza com a alternativa a la prova de chi-quadrat en taules de contingència de 2x2.

Prova de McNemar: s’utilitza en analitzar dades categòriques aparellades, generalment en una taula de contingència de 2x2, on les observacions són dependents o estan relacionades. S’utilitza comunament en estudis d’abans i després o en estudis de casos i controls aparellats.

Prova de Cochran-Estovalles-Haenszel: s’utilitza en analitzar dades categòriques en estudis estratificats o aparellats. Permet la comparació de múltiples taules de contingència 2x2 mentre controla variables de confusió o factors d’estratificació.

library("factoextra")
library("FactoMineR")
library("gplots")
library("dplyr")

2 Definició del problema

data("housetasks")
head(housetasks)
           Wife Alternating Husband Jointly
Laundry     156          14       2       4
Main_meal   124          20       5       4
Dinner       77          11       7      13
Breakfeast   82          36      15       7
Tidying      53          11       1      57
Dishes       32          24       4      53
colnames(housetasks) <- c("Dona", "Alternant", "Marit", "Conjuntament")
rownames(housetasks) <- c("Bugaderia", "Dinar", "Sopar", "Esmorçar", "Ordenar", "Netejar_Plats", "Compres", "Oficial", "Conduir", "Finances", "Assegurança", "Reparacions", "Vacances")

df <- as.table(as.matrix(housetasks))
df
              Dona Alternant Marit Conjuntament
Bugaderia      156        14     2            4
Dinar          124        20     5            4
Sopar           77        11     7           13
Esmorçar        82        36    15            7
Ordenar         53        11     1           57
Netejar_Plats   32        24     4           53
Compres         33        23     9           55
Oficial         12        46    23           15
Conduir         10        51    75            3
Finances        13        13    21           66
Assegurança      8         1    53           77
Reparacions      0         3   160            2
Vacances         0         1     6          153
balloonplot(t(df), label=F, main="Tareas del hogar")

3 Prova de la \(\chi^{2}\)

\(H_{0}\): Variables independents (hipòtesi nula) \(H_{1}\): Variables dependents (hipòtesi alternativa)

chisq.test(housetasks)

    Pearson's Chi-squared test

data:  housetasks
X-squared = 1944.5, df = 36, p-value < 2.2e-16

Es refusa l’hipòtesi nula en favor de la alternativa, les parelles s’organitzen per fer les tasques de la llar.

4 Anàlisi de Correspondència Simple (ACS)

housetasks_CA <- CA(housetasks, graph = F)
print(housetasks_CA)
**Results of the Correspondence Analysis (CA)**
The row variable has  13  categories; the column variable has 4 categories
The chi square of independence between the two variables is equal to 1944.456 (p-value =  0 ).
*The results are available in the following objects:

   name              description                   
1  "$eig"            "eigenvalues"                 
2  "$col"            "results for the columns"     
3  "$col$coord"      "coord. for the columns"      
4  "$col$cos2"       "cos2 for the columns"        
5  "$col$contrib"    "contributions of the columns"
6  "$row"            "results for the rows"        
7  "$row$coord"      "coord. for the rows"         
8  "$row$cos2"       "cos2 for the rows"           
9  "$row$contrib"    "contributions of the rows"   
10 "$call"           "summary called parameters"   
11 "$call$marge.col" "weights of the columns"      
12 "$call$marge.row" "weights of the rows"         
housetasks_CA$col
$coord
                   Dim 1      Dim 2       Dim 3
Dona         -0.83762154  0.3652207 -0.19991139
Alternant    -0.06218462  0.2915938  0.84858939
Marit         1.16091847  0.6019199 -0.18885924
Conjuntament  0.14942609 -1.0265791 -0.04644302

$contrib
                 Dim 1     Dim 2      Dim 3
Dona         44.462018 10.312237 10.8220753
Alternant     0.103739  2.782794 82.5492464
Marit        54.233879 17.786612  6.1331792
Conjuntament  1.200364 69.118357  0.4954991

$cos2
                   Dim 1     Dim 2       Dim 3
Dona         0.801875947 0.1524482 0.045675847
Alternant    0.004779897 0.1051016 0.890118521
Marit        0.772026244 0.2075420 0.020431728
Conjuntament 0.020705858 0.9772939 0.002000236

$inertia
[1] 0.3010185 0.1178242 0.3813729 0.3147248
housetasks_CA$row
$coord
                   Dim 1      Dim 2       Dim 3
Bugaderia     -0.9918368  0.4953220 -0.31672897
Dinar         -0.8755855  0.4901092 -0.16406487
Sopar         -0.6925740  0.3081043 -0.20741377
Esmorçar      -0.5086002  0.4528038  0.22040453
Ordenar       -0.3938084 -0.4343444 -0.09421375
Netejar_Plats -0.1889641 -0.4419662  0.26694926
Compres       -0.1176813 -0.4033171  0.20261512
Oficial        0.2266324  0.2536132  0.92336416
Conduir        0.7417696  0.6534143  0.54445849
Finances       0.2707669 -0.6178684  0.03479681
Assegurança    0.6470759 -0.4737832 -0.28936051
Reparacions    1.5287787  0.8642647 -0.47208778
Vacances       0.2524863 -1.4350066 -0.12958665

$contrib
                   Dim 1      Dim 2       Dim 3
Bugaderia     18.2867003  5.5638913  7.96842443
Dinar         12.3888433  4.7355230  1.85868941
Sopar          5.4713982  1.3210221  2.09692603
Esmorçar       3.8249284  3.6986131  3.06939857
Ordenar        1.9983518  2.9656441  0.48873403
Netejar_Plats  0.4261663  2.8441170  3.63429434
Compres        0.1755248  2.5151584  2.22335679
Oficial        0.5207837  0.7956201 36.94038942
Conduir        8.0778371  7.6468564 18.59638635
Finances       0.8750075  5.5585460  0.06175066
Assegurança    6.1470616  4.0203590  5.25263863
Reparacions   40.7300940 15.8806509 16.59639139
Vacances       1.0773030 42.4539986  1.21261994

$cos2
                   Dim 1      Dim 2       Dim 3
Bugaderia     0.73998741 0.18455213 0.075460467
Dinar         0.74160285 0.23235928 0.026037873
Sopar         0.77664011 0.15370323 0.069656660
Esmorçar      0.50494329 0.40023001 0.094826699
Ordenar       0.43981243 0.53501508 0.025172490
Netejar_Plats 0.11811778 0.64615253 0.235729693
Compres       0.06365362 0.74765514 0.188691242
Oficial       0.05304464 0.06642648 0.880528877
Conduir       0.43201860 0.33522911 0.232752289
Finances      0.16067678 0.83666958 0.002653634
Assegurança   0.57601197 0.30880208 0.115185951
Reparacions   0.70673575 0.22587147 0.067392778
Vacances      0.02979239 0.96235977 0.007847841

$inertia
 [1] 0.13415976 0.09069235 0.03824633 0.04112368 0.02466697 0.01958732
 [7] 0.01497017 0.05330000 0.10150885 0.02956446 0.05793584 0.31287411
[13] 0.19631064
fviz_screeplot(housetasks_CA, addlabel=T)

El 89% de la variança de les variables están explicades per les dimensiones 1 i 2.

fviz_ca_biplot(housetasks_CA,repel = T)

La descripció del gràfic és el següent:

  • Blau: Corresponen a les files
  • Vermell: Corresponen a les columnes

D’aqui podem extreure les següents conclusions:

1- Les tasques de dinar, sopar, estendre i esmorçar son realitzades amb més freqüéncia per les dones.

2- Les tasques de conduir i fer reparacions es realitzen amb més freqüéncia pels marits.

3- Les tasques de vacances, finances i seguretat ho fan en conjunt.

Per tal de poder descriure les dimensions, podem realitzar un gràfic de correlacions.

library(corrplot)
corrplot(housetasks_CA$col$cos2)

Utilitzem la distància \(cos^{2}\) per la variable de tasques.

corrplot(housetasks_CA$row$cos2 )

D’aquí podem extreure que:

  • La 1a component fa referència a tasques realitzades de manera individual

  • La 2a component fa referència a tasques realitzades de manera col·lectiva.

A continuació anem a veure la contribució de cada columna a cada dimensió:

fviz_contrib(housetasks_CA, choice = "col" ,axes = 1)

fviz_contrib(housetasks_CA, choice = "col" ,axes = 2)

fviz_contrib(housetasks_CA, choice = "col" ,axes = 1:2)

fviz_contrib(housetasks_CA, choice = "row" ,axes = 1)

fviz_contrib(housetasks_CA, choice = "row" ,axes = 2)

fviz_contrib(housetasks_CA, choice = "row" ,axes = 1:2)

fviz_ca_biplot(housetasks_CA,repel = T, arrow = c(F,T), col.col = "cos2", 
               gradient.cols = c("red", "yellow", "green"),
               alpha.col = "contrib")

Aquesta web està creada por Dante Conti y Sergi Ramírez, (c) 2026

Footnotes

  1. En estadística les taules de contingència s’empren per a registrar i analitzar l’associació entre dues o més variables, habitualment de naturalesa qualitativa (nominals o ordinals).↩︎