Panel de statistiques en SHS

Solenne Roux

LabPsy - UR4139 - Université de Bordeaux

31-Mar-2026

Analyser des données en SHS

Eléments de définition

En SHS, 2 principaux types de données :

- Données quantitatives

- Données qualitatives

Eléments de définition - Données quantitatives

=> S’analyse avec des statistiques

Eléments de définition - Données qualitatives

=> Deux types d’analyses possibles :

- Analyse de contenu : thématique ou chronologique

- Analyse textuelle

Analyser des données quantitatives ou qualitatives


Répondre à une (ou des) hypothèse(s)
formulée(s) a priori

Plusieurs étapes pour analyser des données quantitatives

  • Se familiariser avec ses données (statistiques descriptives)
  • Explorer et investiguer (premiers croisements)
  • Structurer et synthétiser l’information
  • Modéliser et prévoir

Se familiariser avec ses données - statistiques descriptives

desc Variables quantitatives Variables quantitatives Indices de tendance centrale Indices de tendance centrale Variables quantitatives->Indices de tendance centrale Indices de dispersion Indices de dispersion Variables quantitatives->Indices de dispersion Variables qualitatives Variables qualitatives Fréquences Fréquences Variables qualitatives->Fréquences Pourcentages Pourcentages Variables qualitatives->Pourcentages

Présentation des données utilisées dans cette formation

Données de l’enquête ERFI mise à disposition librement par l’INED car les données sont anonymisées.

Nous allons utiliser les variables suivantes :

  • OC_SATREL : Satisfaction de la relation avec votre conjoint.
  • OA_SATREP : Satisfaction de la répartition des tâches ménagères avec votre conjoint.
  • NBENFTOTM_rec : Nombre d’enfants total cohabitants.
  • MA_SEXE : sexe du répondant.
  • MC_DIPLOME : Diplôme le plus élevé du répondant.
  • MA_AGEM_rec : Age du répondant
  • VA_MARIDEP : Le mariage est une institution dépassée
  • VA_COHAB : C’est bien pour un couple non marié de cohabiter même s’ils n’ont pas l’intention de se marier
  • VA_MARITJS : Le mariage est un lien pour la vie qui ne devrait jamais être rompu
  • VA_DIVORC : Si des gens sont malheureux en couple, ils peuvent divorcer, même s’ils ont des enfants
  • VA_FEMENF : Pour s’épanouir, une femme doit avoir des enfants
  • VA_HOMENF : Pour s’épanouir, un homme doit avoir des enfants
  • VA_DEUXPAR : Pour grandir en étant heureux, un enfant a besoin d’un foyer avec un père et une mère
  • VA_MERSEUL : Une femme peut avoir un enfant et l’élever seule si elle n’a pas envie d’avoir une relation stable avec un homme
  • VA_EFTAUTO : Quand les enfants ont 18 ou 20 ans, ils doivent vivre de façon autonome, s’ils en ont les moyens
  • VA_DROITHOMO_rec : Les couples homosexuels devraient avoir les mêmes droits que les hétérosexuels

Décrire des variables quantitatives

Moyennes, Médiane, Mode, Ecart-type, Variance, MAD

Une variable :

describe(DF2$OC_SATREL)
   vars    n mean   sd median trimmed  mad min max range  skew kurtosis   se
X1    1 4023 8.59 3.18      9     8.7 1.48   0  98    98 21.97   620.27 0.05

Décrire des variables quantitatives

Moyennes, Médiane, Mode, Ecart-type, Variance, MAD

Une variable selon des groupes :

by(DF2$OC_SATREL, DF2$MA_SEXE, describe)
DF2$MA_SEXE: 1
   vars    n mean   sd median trimmed  mad min max range  skew kurtosis  se
X1    1 1649 8.87 4.03      9    8.89 1.48   0  98    98 19.65    433.4 0.1
------------------------------------------------------------ 
DF2$MA_SEXE: 2
   vars    n mean  sd median trimmed  mad min max range  skew kurtosis   se
X1    1 2374  8.4 2.4      8    8.57 1.48   0  98    98 21.51   816.76 0.05

Décrire des variables qualitatives

Fréquences ; pourcentages

Une variable :

table(DF2$MA_SEXE)

   1    2 
1649 2374 

Décrire des variables qualitatives

Fréquences ; pourcentages

Deux variables (donc par sous-catégories):

   
    Aucun CEP Brevet CAP/BEP BAC technique ou pro BAC général BAC +2 >BAC+2
  1   139 153    108     542                  117          82    157    351
  2   238 242    184     547                  199         179    317    468

Décrire des variables qualitatives et quantitatives

table1(~ OC_SATREL + OA_SATREP + NBENFTOTM_rec + MA_SEXE + MC_DIPLOME + MA_AGEM_rec + VA_MARIDEP +  VA_COHAB +  VA_MARITJS +    VA_DIVORC + VA_FEMENF + VA_HOMENF + VA_DEUXPAR +    VA_MERSEUL +    VA_EFTAUTO +    VA_DROITHOMO_rec, DF2)
Overall
(N=4023)
OC_SATREL
Mean (SD) 8.59 (3.18)
Median [Min, Max] 9.00 [0, 98.0]
OA_SATREP
Mean (SD) 8.10 (1.80)
Median [Min, Max] 8.00 [0, 10.0]
NBENFTOTM_rec
Mean (SD) 1.01 (1.11)
Median [Min, Max] 1.00 [0, 4.00]
MA_SEXE
1 1649 (41.0%)
2 2374 (59.0%)
MC_DIPLOME
Aucun 377 (9.4%)
CEP 395 (9.8%)
Brevet 292 (7.3%)
CAP/BEP 1089 (27.1%)
BAC technique ou pro 316 (7.9%)
BAC général 261 (6.5%)
BAC +2 474 (11.8%)
>BAC+2 819 (20.4%)
MA_AGEM_rec
Mean (SD) 46.6 (13.8)
Median [Min, Max] 46.0 [18.0, 79.0]
VA_MARIDEP
Mean (SD) 4.00 (1.35)
Median [Min, Max] 5.00 [1.00, 9.00]
VA_COHAB
Mean (SD) 2.00 (1.29)
Median [Min, Max] 2.00 [1.00, 9.00]
VA_MARITJS
Mean (SD) 2.65 (1.54)
Median [Min, Max] 2.00 [1.00, 9.00]
VA_DIVORC
Mean (SD) 1.82 (1.18)
Median [Min, Max] 1.00 [1.00, 9.00]
VA_FEMENF
Mean (SD) 2.30 (1.46)
Median [Min, Max] 2.00 [1.00, 9.00]
VA_HOMENF
Mean (SD) 2.43 (1.51)
Median [Min, Max] 2.00 [1.00, 9.00]
VA_DEUXPAR
Mean (SD) 1.47 (0.876)
Median [Min, Max] 1.00 [1.00, 9.00]
VA_MERSEUL
Mean (SD) 2.77 (1.45)
Median [Min, Max] 3.00 [1.00, 9.00]
VA_EFTAUTO
Mean (SD) 2.35 (1.33)
Median [Min, Max] 2.00 [1.00, 9.00]
VA_DROITHOMO_rec
Mean (SD) 3.29 (1.82)
Median [Min, Max] 3.00 [1.00, 9.00]

Décrire des variables qualitatives et quantitatives

Characteristic N = 4,0231
OC_SATREL 9.00 (8.00, 10.00)
OA_SATREP 8.00 (7.00, 10.00)
NBENFTOTM_rec
    0 1,871 (47%)
    1 749 (19%)
    2 975 (24%)
    3 347 (8.6%)
    4 81 (2.0%)
MA_SEXE
    1 1,649 (41%)
    2 2,374 (59%)
MC_DIPLOME
    Aucun 377 (9.4%)
    CEP 395 (9.8%)
    Brevet 292 (7.3%)
    CAP/BEP 1,089 (27%)
    BAC technique ou pro 316 (7.9%)
    BAC général 261 (6.5%)
    BAC +2 474 (12%)
    >BAC+2 819 (20%)
MA_AGEM_rec 46 (36, 57)
VA_MARIDEP
    1 325 (8.1%)
    2 310 (7.7%)
    3 580 (14%)
    4 697 (17%)
    5 2,090 (52%)
    9 21 (0.5%)
VA_COHAB
    1 1,915 (48%)
    2 1,018 (25%)
    3 624 (16%)
    4 201 (5.0%)
    5 241 (6.0%)
    9 24 (0.6%)
VA_MARITJS
    1 1,306 (32%)
    2 825 (21%)
    3 705 (18%)
    4 425 (11%)
    5 745 (19%)
    9 17 (0.4%)
VA_DIVORC
    1 2,124 (53%)
    2 1,161 (29%)
    3 300 (7.5%)
    4 264 (6.6%)
    5 157 (3.9%)
    9 17 (0.4%)
VA_FEMENF
    1 1,635 (41%)
    2 911 (23%)
    3 702 (17%)
    4 307 (7.6%)
    5 438 (11%)
    9 30 (0.7%)
VA_HOMENF
    1 1,446 (36%)
    2 957 (24%)
    3 761 (19%)
    4 317 (7.9%)
    5 502 (12%)
    9 40 (1.0%)
VA_DEUXPAR
    1 2,766 (69%)
    2 901 (22%)
    3 188 (4.7%)
    4 88 (2.2%)
    5 75 (1.9%)
    9 5 (0.1%)
VA_MERSEUL
    1 974 (24%)
    2 983 (24%)
    3 740 (18%)
    4 734 (18%)
    5 572 (14%)
    9 20 (0.5%)
VA_EFTAUTO
    1 1,333 (33%)
    2 1,156 (29%)
    3 743 (18%)
    4 466 (12%)
    5 307 (7.6%)
    9 18 (0.4%)
VA_DROITHOMO_rec
    1 987 (25%)
    2 608 (15%)
    3 607 (15%)
    4 200 (5.0%)
    5 1,546 (38%)
    9 75 (1.9%)
1 Median (Q1, Q3); n (%)

Décrire des variables qualitatives et quantitatives

Décrire selon les catégories d’une variable

Characteristic N Overall
N = 4,0231
1
N = 1,6491
2
N = 2,3741
OC_SATREL 4,023 9.00 (8.00, 10.00) 9.00 (8.00, 10.00) 8.00 (8.00, 10.00)
OA_SATREP 4,023 8.00 (7.00, 10.00) 9.00 (8.00, 10.00) 8.00 (7.00, 9.00)
NBENFTOTM_rec 4,023


    0
1,871 (47%) 771 (47%) 1,100 (46%)
    1
749 (19%) 318 (19%) 431 (18%)
    2
975 (24%) 400 (24%) 575 (24%)
    3
347 (8.6%) 130 (7.9%) 217 (9.1%)
    4
81 (2.0%) 30 (1.8%) 51 (2.1%)
MC_DIPLOME 4,023


    Aucun
377 (9.4%) 139 (8.4%) 238 (10%)
    CEP
395 (9.8%) 153 (9.3%) 242 (10%)
    Brevet
292 (7.3%) 108 (6.5%) 184 (7.8%)
    CAP/BEP
1,089 (27%) 542 (33%) 547 (23%)
    BAC technique ou pro
316 (7.9%) 117 (7.1%) 199 (8.4%)
    BAC général
261 (6.5%) 82 (5.0%) 179 (7.5%)
    BAC +2
474 (12%) 157 (9.5%) 317 (13%)
    >BAC+2
819 (20%) 351 (21%) 468 (20%)
MA_AGEM_rec 4,023 46 (36, 57) 48 (37, 59) 44 (35, 55)
VA_MARIDEP 4,023


    1
325 (8.1%) 127 (7.7%) 198 (8.3%)
    2
310 (7.7%) 130 (7.9%) 180 (7.6%)
    3
580 (14%) 227 (14%) 353 (15%)
    4
697 (17%) 320 (19%) 377 (16%)
    5
2,090 (52%) 834 (51%) 1,256 (53%)
    9
21 (0.5%) 11 (0.7%) 10 (0.4%)
VA_COHAB 4,023


    1
1,915 (48%) 755 (46%) 1,160 (49%)
    2
1,018 (25%) 417 (25%) 601 (25%)
    3
624 (16%) 284 (17%) 340 (14%)
    4
201 (5.0%) 80 (4.9%) 121 (5.1%)
    5
241 (6.0%) 107 (6.5%) 134 (5.6%)
    9
24 (0.6%) 6 (0.4%) 18 (0.8%)
VA_MARITJS 4,023


    1
1,306 (32%) 534 (32%) 772 (33%)
    2
825 (21%) 339 (21%) 486 (20%)
    3
705 (18%) 313 (19%) 392 (17%)
    4
425 (11%) 168 (10%) 257 (11%)
    5
745 (19%) 286 (17%) 459 (19%)
    9
17 (0.4%) 9 (0.5%) 8 (0.3%)
VA_DIVORC 4,023


    1
2,124 (53%) 785 (48%) 1,339 (56%)
    2
1,161 (29%) 495 (30%) 666 (28%)
    3
300 (7.5%) 142 (8.6%) 158 (6.7%)
    4
264 (6.6%) 138 (8.4%) 126 (5.3%)
    5
157 (3.9%) 81 (4.9%) 76 (3.2%)
    9
17 (0.4%) 8 (0.5%) 9 (0.4%)
VA_FEMENF 4,023


    1
1,635 (41%) 678 (41%) 957 (40%)
    2
911 (23%) 414 (25%) 497 (21%)
    3
702 (17%) 275 (17%) 427 (18%)
    4
307 (7.6%) 109 (6.6%) 198 (8.3%)
    5
438 (11%) 155 (9.4%) 283 (12%)
    9
30 (0.7%) 18 (1.1%) 12 (0.5%)
VA_HOMENF 4,023


    1
1,446 (36%) 660 (40%) 786 (33%)
    2
957 (24%) 420 (25%) 537 (23%)
    3
761 (19%) 269 (16%) 492 (21%)
    4
317 (7.9%) 111 (6.7%) 206 (8.7%)
    5
502 (12%) 178 (11%) 324 (14%)
    9
40 (1.0%) 11 (0.7%) 29 (1.2%)
VA_DEUXPAR 4,023


    1
2,766 (69%) 1,218 (74%) 1,548 (65%)
    2
901 (22%) 332 (20%) 569 (24%)
    3
188 (4.7%) 56 (3.4%) 132 (5.6%)
    4
88 (2.2%) 18 (1.1%) 70 (2.9%)
    5
75 (1.9%) 24 (1.5%) 51 (2.1%)
    9
5 (0.1%) 1 (<0.1%) 4 (0.2%)
VA_MERSEUL 4,023


    1
974 (24%) 423 (26%) 551 (23%)
    2
983 (24%) 423 (26%) 560 (24%)
    3
740 (18%) 280 (17%) 460 (19%)
    4
734 (18%) 279 (17%) 455 (19%)
    5
572 (14%) 234 (14%) 338 (14%)
    9
20 (0.5%) 10 (0.6%) 10 (0.4%)
VA_EFTAUTO 4,023


    1
1,333 (33%) 606 (37%) 727 (31%)
    2
1,156 (29%) 481 (29%) 675 (28%)
    3
743 (18%) 290 (18%) 453 (19%)
    4
466 (12%) 165 (10%) 301 (13%)
    5
307 (7.6%) 101 (6.1%) 206 (8.7%)
    9
18 (0.4%) 6 (0.4%) 12 (0.5%)
VA_DROITHOMO_rec 4,023


    1
987 (25%) 386 (23%) 601 (25%)
    2
608 (15%) 222 (13%) 386 (16%)
    3
607 (15%) 247 (15%) 360 (15%)
    4
200 (5.0%) 85 (5.2%) 115 (4.8%)
    5
1,546 (38%) 686 (42%) 860 (36%)
    9
75 (1.9%) 23 (1.4%) 52 (2.2%)
1 Median (Q1, Q3); n (%)

Explorer et investiguer

explo Comparaison de moyennes Comparaison de moyennes t de Student t de Student Comparaison de moyennes->t de Student ANOVA ANOVA Comparaison de moyennes->ANOVA Mann-Whitney Mann-Whitney Comparaison de moyennes->Mann-Whitney Wilcoxon Wilcoxon Comparaison de moyennes->Wilcoxon Kruskall-Wallis Kruskall-Wallis Comparaison de moyennes->Kruskall-Wallis Comparaison de fréquences Comparaison de fréquences Khi² Khi² Comparaison de fréquences->Khi² Phi² Phi² Comparaison de fréquences->Phi² Q de Cochran Q de Cochran Comparaison de fréquences->Q de Cochran Analyses de liaisons Analyses de liaisons Corrélations Corrélations Analyses de liaisons->Corrélations Auto-corrélation spatiale Auto-corrélation spatiale Analyses de liaisons->Auto-corrélation spatiale Analyse des réseaux Analyse des réseaux Analyses de liaisons->Analyse des réseaux

Explorer et investiguer - Croiser 2 variables qualitatives : le CHI²

tabsexdipl<-table(DF2$MA_SEXE, DF2$MC_DIPLOME)

chisqsexdipl<-chisq.test(tabsexdipl)

chisqsexdipl$expected
   
       Aucun      CEP   Brevet  CAP/BEP BAC technique ou pro BAC général
  1 154.5297 161.9078 119.6888 446.3736             129.5262    106.9821
  2 222.4703 233.0922 172.3112 642.6264             186.4738    154.0179
   
      BAC +2   >BAC+2
  1 194.2893 335.7025
  2 279.7107 483.2975
chisqsexdipl

    Pearson's Chi-squared test

data:  tabsexdipl
X-squared = 65.373, df = 7, p-value = 1.265e-11

Explorer et investiguer - Croiser 2 variables qualitatives : le CHI²

La taille de l’effet observé

cramers_v(chisqsexdipl)
Cramer's V (adj.) |       95% CI
--------------------------------
0.12              | [0.09, 1.00]

- One-sided CIs: upper bound fixed at [1.00].

Explorer et investiguer - Croiser 2 variables quantitatives : corrélations

Vérifier les valeurs extrêmes

par(mfrow=c(2,2))
hist(DF2$OC_SATREL)
hist(DF2$OA_SATREP)

boxplot(DF2$OC_SATREL)
boxplot(DF2$OA_SATREP)

Explorer et investiguer - Croiser 2 variables quantitatives : corrélations

Vérifier les valeurs extrêmes

DF2p<-subset(DF2, OC_SATREL < 20)

par(mfrow=c(2,2))
hist(DF2p$OC_SATREL)
hist(DF2p$OA_SATREP)

boxplot(DF2p$OC_SATREL)
boxplot(DF2p$OA_SATREP)

Explorer et investiguer - Croiser 2 variables quantitatives : corrélations

Vérifier la normalité

shapiro.test(DF2p$OC_SATREL)

    Shapiro-Wilk normality test

data:  DF2p$OC_SATREL
W = 0.83244, p-value < 2.2e-16
shapiro.test(DF2p$OA_SATREP)

    Shapiro-Wilk normality test

data:  DF2p$OA_SATREP
W = 0.86698, p-value < 2.2e-16

Explorer et investiguer - Croiser 2 variables quantitatives : corrélations

cor.test(DF2p$OC_SATREL, DF2p$OA_SATREP, method="spearman")

    Spearman's rank correlation rho

data:  DF2p$OC_SATREL and DF2p$OA_SATREP
S = 5199199083, p-value < 2.2e-16
alternative hypothesis: true rho is not equal to 0
sample estimates:
      rho 
0.5194554 

Explorer et investiguer - Comparer des moyennes selon des groupes : t de Student

Vérifier la normalité (par groupe)

by(DF2p$OA_SATREP, DF2p$MA_SEXE, shapiro.test)
DF2p$MA_SEXE: 1

    Shapiro-Wilk normality test

data:  dd[x, ]
W = 0.83246, p-value < 2.2e-16

------------------------------------------------------------ 
DF2p$MA_SEXE: 2

    Shapiro-Wilk normality test

data:  dd[x, ]
W = 0.89514, p-value < 2.2e-16

Explorer et investiguer - Comparer des moyennes selon des groupes : t de Student

Vérifier l’homogénéité des variances (par groupe)

leveneTest(DF2p$OA_SATREP~DF2p$MA_SEXE)
Levene's Test for Homogeneity of Variance (center = median)
        Df F value    Pr(>F)    
group    1  83.562 < 2.2e-16 ***
      4017                      
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Explorer et investiguer - Comparer des moyennes selon des groupes : t de Student

rest<-t.test(DF2p$OA_SATREP~DF2p$MA_SEXE, var.equal=FALSE)
rest

    Welch Two Sample t-test

data:  DF2p$OA_SATREP by DF2p$MA_SEXE
t = 15.675, df = 4007.4, p-value < 2.2e-16
alternative hypothesis: true difference in means between group 1 and group 2 is not equal to 0
95 percent confidence interval:
 0.7308275 0.9397736
sample estimates:
mean in group 1 mean in group 2 
       8.597205        7.761905 
cohens_d(rest)
Cohen's d |       95% CI
------------------------
0.49      | [0.43, 0.55]

- Estimated using un-pooled SD.

Structurer et synthétiser l’information

struct Analyses factorielles Analyses factorielles ACP ACP Analyses factorielles->ACP AFC AFC Analyses factorielles->AFC ACM ACM Analyses factorielles->ACM AFM AFM Analyses factorielles->AFM AFE AFE Analyses factorielles->AFE CFA CFA Analyses factorielles->CFA Profils Profils k-means k-means Profils->k-means CAH CAH Profils->CAH

Structurer et synthétiser l’information

Les analyses factorielles - 2 grandes familles :

  • Les Analyses en Composantes Principales - ACP
  • Les Analyses Factorielles - FA (Factorial Analysis)

af_acp Analyses Factorielles Analyses Factorielles EFA EFA Analyses Factorielles->EFA CFA CFA Analyses Factorielles->CFA Analyses en Composantes Principales Analyses en Composantes Principales ACP ACP Analyses en Composantes Principales->ACP AFC AFC Analyses en Composantes Principales->AFC AFM AFM Analyses en Composantes Principales->AFM AFDM AFDM ACP->AFDM ACM ACM AFC->ACM AFC->AFDM AFMH AFMH AFM->AFMH

Structurer et synthétiser l’information

Les méthodes de classification :

Les méthodes de partitionnement ; Les nuées dynamiques ; Les approches latentes

clust Méthodes de partitionnement Méthodes de partitionnement CAH CAH Méthodes de partitionnement->CAH CDH CDH Méthodes de partitionnement->CDH Nuées dynamiques Nuées dynamiques k-means k-means Nuées dynamiques->k-means Approches latentes Approches latentes LPA LPA Approches latentes->LPA LCA LCA Approches latentes->LCA LTA LTA Approches latentes->LTA

Structurer et synthétiser l’information - avec une ACP

L’analyse de la matrice de corrélation

L’analyse des corrélations est une étape toujours essentielle dans l’analyse de données, et notamment dans le cadre des analyses multivariées.

Structurer et synthétiser l’information

# Matrice de corrélation
corres <- correlation(DF3c, method = "spearman")
summary(corres) 
# Correlation Matrix (spearman-method)

Parameter  | VA_DROITHOMO_rec | VA_EFTAUTO | VA_MERSEUL | VA_DEUXPAR
--------------------------------------------------------------------
VA_MARIDEP |          0.07*** |      0.05* |    0.13*** |   -0.14***
VA_COHAB   |          0.12*** |    0.08*** |    0.23*** |   -0.10***
VA_MARITJS |         -0.11*** |      0.04* |   -0.14*** |    0.29***
VA_DIVORC  |          0.11*** |     0.06** |    0.23*** |   -0.11***
VA_FEMENF  |         -0.11*** |    0.09*** |   -0.10*** |    0.32***
VA_HOMENF  |         -0.09*** |    0.07*** |   -0.10*** |    0.30***
VA_DEUXPAR |         -0.17*** |    0.13*** |   -0.13*** |           
VA_MERSEUL |          0.12*** |    0.12*** |            |           
VA_EFTAUTO |            -0.01 |            |            |           

Parameter  | VA_HOMENF | VA_FEMENF | VA_DIVORC | VA_MARITJS | VA_COHAB
----------------------------------------------------------------------
VA_MARIDEP |  -0.07*** |   -0.05** |   0.08*** |   -0.21*** |  0.22***
VA_COHAB   |  -0.09*** |  -0.08*** |   0.32*** |   -0.22*** |         
VA_MARITJS |   0.22*** |   0.22*** |  -0.20*** |            |         
VA_DIVORC  |  -0.10*** |  -0.09*** |           |            |         
VA_FEMENF  |   0.86*** |           |           |            |         
VA_HOMENF  |           |           |           |            |         
VA_DEUXPAR |           |           |           |            |         
VA_MERSEUL |           |           |           |            |         
VA_EFTAUTO |           |           |           |            |         

p-value adjustment method: Holm (1979)

La matrice de corrélation indique que l’ensemble des variables sont corrélées et donc partagent une part de variance commune. 2 variables sont extrêmement corrélées : VA_HOMENF et VA_FEMENF : rho = 0.86.

Structurer et synthétiser l’information

mat<-cor(DF3c, method = "spearman")
corrplot(mat, method="color")

Structurer et synthétiser l’information

Tester la multicolinéarité avec le VIF

vifstep(DF3p, method= "spearman")
No variable from the 9 input variables has collinearity problem. 

The linear correlation coefficients ranges between: 
min correlation ( VA_DROITHOMO_rec ~ VA_EFTAUTO ):  -0.005517665 
max correlation ( VA_DEUXPAR ~ VA_FEMENF ):  0.3213396 

---------- VIFs of the remained variables -------- 
         Variables      VIF
1       VA_MARIDEP 1.088643
2         VA_COHAB 1.203353
3       VA_MARITJS 1.160486
4        VA_DIVORC 1.152735
5        VA_FEMENF 1.120145
6       VA_DEUXPAR 1.166733
7       VA_MERSEUL 1.151349
8       VA_EFTAUTO 1.044956
9 VA_DROITHOMO_rec 1.050424

Structurer et synthétiser l’information

Les données sont-elles factorisables ? :

Test de KMO & Test de Bartlett

Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = DF3p)
Overall MSA =  0.71
MSA for each item = 
      VA_MARIDEP         VA_COHAB       VA_MARITJS        VA_DIVORC 
            0.70             0.71             0.72             0.72 
       VA_FEMENF       VA_DEUXPAR       VA_MERSEUL       VA_EFTAUTO 
            0.67             0.67             0.73             0.60 
VA_DROITHOMO_rec 
            0.79 
$chisq
[1] 2448.433

$p.value
[1] 0

$df
[1] 36

Structurer et synthétiser l’information

Les données sont-elles factorisables ? :

Test de KMO & Test de Bartlett

# Is the data suitable for Factor Analysis?


  - Sphericity: Bartlett's test of sphericity suggests that there is sufficient significant correlation in the data for factor analysis (Chisq(36) = 2448.43, p < .001).
  - KMO: The Kaiser, Meyer, Olkin (KMO) overall measure of sampling adequacy suggests that data seems appropriate for factor analysis (KMO = 0.71). The individual KMO scores are: VA_MARIDEP (0.70), VA_COHAB (0.71), VA_MARITJS (0.72), VA_DIVORC (0.72), VA_FEMENF (0.67), VA_DEUXPAR (0.67), VA_MERSEUL (0.73), VA_EFTAUTO (0.60), VA_DROITHOMO_rec (0.79).

Structurer et synthétiser l’information - avec une ACP

Les contributions par dimension

DF3B<-subset(DF3, select = -VA_HOMENF)
res <- prcomp(DF3B, center = TRUE, scale = TRUE)
pander(factoextra::get_eig(res))
  eigenvalue variance.percent cumulative.variance.percent
Dim.1 2.063 22.92 22.92
Dim.2 1.335 14.83 37.75
Dim.3 0.9643 10.71 48.46
Dim.4 0.8955 9.95 58.41
Dim.5 0.8891 9.879 68.29
Dim.6 0.7746 8.606 76.9
Dim.7 0.7304 8.116 85.02
Dim.8 0.6798 7.553 92.57
Dim.9 0.6689 7.432 100

Structurer et synthétiser l’information - avec une ACP

Contributions par dimension

par(mfrow=c(1,1))
fviz_screeplot(res, addlabels = TRUE)

Structurer et synthétiser l’information - avec une ACP

Projection graphique pour les 2 premères dimensions

fviz_pca_var(res, col.var = "cos2", 
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"), repel = TRUE )

Structurer et synthétiser l’information - avec une ACP

Contribution de chaque variable sur les dimension 1-2

fviz_contrib(res, choice = "var", axes = c(1,2))

Structurer et synthétiser l’information - avec une ACP

Autre fonction du package FactoMineR : PCA()

res <- PCA(DF3p, graph = TRUE)

res
**Results for the Principal Component Analysis (PCA)**
The analysis was performed on 4023 individuals, described by 9 variables
*The results are available in the following objects:

   name               description                          
1  "$eig"             "eigenvalues"                        
2  "$var"             "results for the variables"          
3  "$var$coord"       "coord. for the variables"           
4  "$var$cor"         "correlations variables - dimensions"
5  "$var$cos2"        "cos2 for the variables"             
6  "$var$contrib"     "contributions of the variables"     
7  "$ind"             "results for the individuals"        
8  "$ind$coord"       "coord. for the individuals"         
9  "$ind$cos2"        "cos2 for the individuals"           
10 "$ind$contrib"     "contributions of the individuals"   
11 "$call"            "summary statistics"                 
12 "$call$centre"     "mean of the variables"              
13 "$call$ecart.type" "standard error of the variables"    
14 "$call$row.w"      "weights for the individuals"        
15 "$call$col.w"      "weights for the variables"          

Structurer et synthétiser l’information - avec une ACP

Contributions par composantes

       eigenvalue percentage of variance cumulative percentage of variance
comp 1  2.0629978              22.922198                          22.92220
comp 2  1.3345394              14.828216                          37.75041
comp 3  0.9642858              10.714287                          48.46470
comp 4  0.8954556               9.949507                          58.41421
comp 5  0.8890678               9.878531                          68.29274
comp 6  0.7745587               8.606208                          76.89895
comp 7  0.7304482               8.116091                          85.01504
comp 8  0.6797760               7.553067                          92.56810
comp 9  0.6688706               7.431896                         100.00000

Structurer et synthétiser l’information - avec une ACP

Contributions par variable

$coord
                       Dim.1      Dim.2        Dim.3       Dim.4       Dim.5
VA_MARIDEP        0.41935003 0.30533935 -0.586663226 -0.28632543  0.33044206
VA_COHAB          0.61553833 0.30141926 -0.080801456  0.17948577  0.11838149
VA_MARITJS       -0.56064635 0.29180644  0.364744961  0.07054445  0.02122729
VA_DIVORC         0.56134713 0.18632886  0.200167992  0.57074344  0.02140805
VA_FEMENF        -0.41026458 0.54683725 -0.067210112  0.07875940  0.37979754
VA_DEUXPAR       -0.49485622 0.52334183 -0.001373077  0.17228458  0.11867762
VA_MERSEUL        0.55524492 0.29907349  0.206024137  0.12137959 -0.21199485
VA_EFTAUTO        0.09145378 0.60652390  0.039388475 -0.41923539 -0.59627660
VA_DROITHOMO_rec  0.38595410 0.01871947  0.626067596 -0.47345253  0.45402049

$cor
                       Dim.1      Dim.2        Dim.3       Dim.4       Dim.5
VA_MARIDEP        0.41935003 0.30533935 -0.586663226 -0.28632543  0.33044206
VA_COHAB          0.61553833 0.30141926 -0.080801456  0.17948577  0.11838149
VA_MARITJS       -0.56064635 0.29180644  0.364744961  0.07054445  0.02122729
VA_DIVORC         0.56134713 0.18632886  0.200167992  0.57074344  0.02140805
VA_FEMENF        -0.41026458 0.54683725 -0.067210112  0.07875940  0.37979754
VA_DEUXPAR       -0.49485622 0.52334183 -0.001373077  0.17228458  0.11867762
VA_MERSEUL        0.55524492 0.29907349  0.206024137  0.12137959 -0.21199485
VA_EFTAUTO        0.09145378 0.60652390  0.039388475 -0.41923539 -0.59627660
VA_DROITHOMO_rec  0.38595410 0.01871947  0.626067596 -0.47345253  0.45402049

$cos2
                       Dim.1        Dim.2        Dim.3       Dim.4        Dim.5
VA_MARIDEP       0.175854452 0.0932321176 3.441737e-01 0.081982254 0.1091919556
VA_COHAB         0.378887432 0.0908535708 6.528875e-03 0.032215143 0.0140141766
VA_MARITJS       0.314324331 0.0851510009 1.330389e-01 0.004976520 0.0004505979
VA_DIVORC        0.315110600 0.0347184423 4.006722e-02 0.325748077 0.0004583045
VA_FEMENF        0.168317023 0.2990309767 4.517199e-03 0.006203043 0.1442461741
VA_DEUXPAR       0.244882682 0.2738866727 1.885340e-06 0.029681977 0.0140843779
VA_MERSEUL       0.308296916 0.0894449509 4.244595e-02 0.014733006 0.0449418158
VA_EFTAUTO       0.008363794 0.3678712454 1.551452e-03 0.175758314 0.3555457865
VA_DROITHOMO_rec 0.148960570 0.0003504185 3.919606e-01 0.224157301 0.2061346095

$contrib
                      Dim.1       Dim.2        Dim.3      Dim.4       Dim.5
VA_MARIDEP        8.5242191  6.98608957 3.569209e+01  9.1553675 12.28162305
VA_COHAB         18.3658670  6.80785978 6.770685e-01  3.5976258  1.57627760
VA_MARITJS       15.2362902  6.38055356 1.379662e+01  0.5557528  0.05068206
VA_DIVORC        15.2744031  2.60152996 4.155119e+00 36.3779136  0.05154888
VA_FEMENF         8.1588562 22.40705502 4.684502e-01  0.6927247 16.22442904
VA_DEUXPAR       11.8702348 20.52293650 1.955167e-04  3.3147345  1.58417366
VA_MERSEUL       14.9441224  6.70230877 4.401801e+00  1.6453083  5.05493685
VA_EFTAUTO        0.4054194 27.56540920 1.608913e-01 19.6278081 39.99085189
VA_DROITHOMO_rec  7.2205879  0.02625763 4.064776e+01 25.0327646 23.18547696

Structurer et synthétiser l’information - avec une CAH

Analyse de la matrice de corrélation

# Matrice de corrélation
corcah <- correlation(DF3c, method = "spearman")
summary(corcah)
# Correlation Matrix (spearman-method)

Parameter  | VA_DROITHOMO_rec | VA_EFTAUTO | VA_MERSEUL | VA_DEUXPAR
--------------------------------------------------------------------
VA_MARIDEP |          0.07*** |      0.05* |    0.13*** |   -0.14***
VA_COHAB   |          0.12*** |    0.08*** |    0.23*** |   -0.10***
VA_MARITJS |         -0.11*** |      0.04* |   -0.14*** |    0.29***
VA_DIVORC  |          0.11*** |     0.06** |    0.23*** |   -0.11***
VA_FEMENF  |         -0.11*** |    0.09*** |   -0.10*** |    0.32***
VA_HOMENF  |         -0.09*** |    0.07*** |   -0.10*** |    0.30***
VA_DEUXPAR |         -0.17*** |    0.13*** |   -0.13*** |           
VA_MERSEUL |          0.12*** |    0.12*** |            |           
VA_EFTAUTO |            -0.01 |            |            |           

Parameter  | VA_HOMENF | VA_FEMENF | VA_DIVORC | VA_MARITJS | VA_COHAB
----------------------------------------------------------------------
VA_MARIDEP |  -0.07*** |   -0.05** |   0.08*** |   -0.21*** |  0.22***
VA_COHAB   |  -0.09*** |  -0.08*** |   0.32*** |   -0.22*** |         
VA_MARITJS |   0.22*** |   0.22*** |  -0.20*** |            |         
VA_DIVORC  |  -0.10*** |  -0.09*** |           |            |         
VA_FEMENF  |   0.86*** |           |           |            |         
VA_HOMENF  |           |           |           |            |         
VA_DEUXPAR |           |           |           |            |         
VA_MERSEUL |           |           |           |            |         
VA_EFTAUTO |           |           |           |            |         

p-value adjustment method: Holm (1979)

VA_HOMENF et VA_FEMENF sont très corrélés (.86). Seule l’une de ces variables va être conservée, il s’agira de VA_FEMENF.

Structurer et synthétiser l’information

mat<-cor(DF3p, method = "spearman")
corrplot(mat, method="color")

Structurer et synthétiser l’information

Tester la multicolinéarité avec le VIF

vifstep(DF3p, method= "spearman")
No variable from the 9 input variables has collinearity problem. 

The linear correlation coefficients ranges between: 
min correlation ( VA_DROITHOMO_rec ~ VA_EFTAUTO ):  -0.005517665 
max correlation ( VA_DEUXPAR ~ VA_FEMENF ):  0.3213396 

---------- VIFs of the remained variables -------- 
         Variables      VIF
1       VA_MARIDEP 1.088643
2         VA_COHAB 1.203353
3       VA_MARITJS 1.160486
4        VA_DIVORC 1.152735
5        VA_FEMENF 1.120145
6       VA_DEUXPAR 1.166733
7       VA_MERSEUL 1.151349
8       VA_EFTAUTO 1.044956
9 VA_DROITHOMO_rec 1.050424

Structurer et synthétiser l’information - avec une CAH

Réalisation du dendogramme

# MAtrice de dissimilarité
d <- dist(DF3p, method = "euclidean")

# CAH - méthode de Ward
hc1 <- hclust(d, method = "ward" )

# Obtenir le dendogramme
plot(hc1, cex = 0.6, hang = -1)

Structurer et synthétiser l’information - avec une CAH

Constitution des profils / des classes

# Couper l'arbre (le dendogramme) en 5 classes
sub_grps <- cutree(hc1, k = 5)
DF3p$cluster <- sub_grps
table(DF3p$cluster)

   1    2    3    4    5 
1671  713  228  546  865 
# Visualiser les profils
fviz_cluster(list(data = DF3p, cluster = sub_grps))

Modéliser et prévoir

Modèles de régression, modèles en équations structurelles, etc.

mod Régressions Régressions Linéaires Linéaires Régressions->Linéaires Logistiques Logistiques Régressions->Logistiques etc. etc. Régressions->etc. Médiations Médiations Régressions->Médiations Modérations Modérations Régressions->Modérations SEM SEM SEM->etc. Pistes causales Pistes causales SEM->Pistes causales SEM->Médiations SEM->Modérations

Modéliser et prévoir - Régression logistique

De quoi sont constituées nos classes ?

model<-vglm(factor(DF3p$cluster)~DF3p$VA_MARIDEP+DF3p$VA_COHAB+DF3p$VA_MARITJS+DF3p$VA_DIVORC+DF3p$VA_FEMENF+DF3p$VA_DEUXPAR+DF3p$VA_MERSEUL+DF3p$VA_EFTAUTO+DF3p$VA_DROITHOMO_rec, family=multinomial)

summary(model)

Call:
vglm(formula = factor(DF3p$cluster) ~ DF3p$VA_MARIDEP + DF3p$VA_COHAB + 
    DF3p$VA_MARITJS + DF3p$VA_DIVORC + DF3p$VA_FEMENF + DF3p$VA_DEUXPAR + 
    DF3p$VA_MERSEUL + DF3p$VA_EFTAUTO + DF3p$VA_DROITHOMO_rec, 
    family = multinomial)

Coefficients: 
                         Estimate Std. Error z value Pr(>|z|)    
(Intercept):1            2.820918   0.135807  20.772  < 2e-16 ***
(Intercept):2           -0.406287   0.199158  -2.040 0.041347 *  
(Intercept):3           -3.874172   0.461252  -8.399  < 2e-16 ***
(Intercept):4           -0.237987   0.191072  -1.246 0.212935    
DF3p$VA_MARIDEP:1       -0.140062   0.103333  -1.355 0.175278    
DF3p$VA_MARIDEP:2       -3.157150   0.154208 -20.473  < 2e-16 ***
DF3p$VA_MARIDEP:3       -0.987698   0.222832  -4.432 9.32e-06 ***
DF3p$VA_MARIDEP:4        0.875476   0.155710   5.622 1.88e-08 ***
DF3p$VA_COHAB:1         -1.993226   0.102092 -19.524  < 2e-16 ***
DF3p$VA_COHAB:2         -2.305061   0.155878 -14.788  < 2e-16 ***
DF3p$VA_COHAB:3         -2.419639   0.268583  -9.009  < 2e-16 ***
DF3p$VA_COHAB:4         -2.157162   0.141188 -15.279  < 2e-16 ***
DF3p$VA_MARITJS:1        0.465449   0.097746   4.762 1.92e-06 ***
DF3p$VA_MARITJS:2        0.820948   0.125878   6.522 6.95e-11 ***
DF3p$VA_MARITJS:3       -0.424552   0.227342  -1.867 0.061837 .  
DF3p$VA_MARITJS:4        0.647436   0.121985   5.307 1.11e-07 ***
DF3p$VA_DIVORC:1        -2.790887   0.124236 -22.464  < 2e-16 ***
DF3p$VA_DIVORC:2        -4.314020   0.188304 -22.910  < 2e-16 ***
DF3p$VA_DIVORC:3        -2.649191   0.271158  -9.770  < 2e-16 ***
DF3p$VA_DIVORC:4        -3.558549   0.171506 -20.749  < 2e-16 ***
DF3p$VA_FEMENF:1         0.254764   0.118684   2.147 0.031827 *  
DF3p$VA_FEMENF:2         0.627845   0.152465   4.118 3.82e-05 ***
DF3p$VA_FEMENF:3         1.414510   0.228320   6.195 5.82e-10 ***
DF3p$VA_FEMENF:4         3.085573   0.153967  20.040  < 2e-16 ***
DF3p$VA_DEUXPAR:1        0.365905   0.145753   2.510 0.012058 *  
DF3p$VA_DEUXPAR:2       -0.189924   0.186249  -1.020 0.307854    
DF3p$VA_DEUXPAR:3        3.999044   0.256920  15.565  < 2e-16 ***
DF3p$VA_DEUXPAR:4       -0.192403   0.179685  -1.071 0.284270    
DF3p$VA_MERSEUL:1       -0.340501   0.079461  -4.285 1.83e-05 ***
DF3p$VA_MERSEUL:2       -0.483084   0.115590  -4.179 2.92e-05 ***
DF3p$VA_MERSEUL:3       -0.042230   0.218374  -0.193 0.846657    
DF3p$VA_MERSEUL:4       -0.372201   0.111653  -3.334 0.000857 ***
DF3p$VA_EFTAUTO:1        0.002568   0.076966   0.033 0.973386    
DF3p$VA_EFTAUTO:2       -0.259981   0.116574  -2.230 0.025736 *  
DF3p$VA_EFTAUTO:3       -0.022200   0.188790  -0.118 0.906392    
DF3p$VA_EFTAUTO:4       -0.245998   0.108133  -2.275 0.022908 *  
DF3p$VA_DROITHOMO_rec:1 -0.414108   0.081252  -5.097 3.46e-07 ***
DF3p$VA_DROITHOMO_rec:2 -0.918854   0.113273  -8.112 4.99e-16 ***
DF3p$VA_DROITHOMO_rec:3 -0.753565   0.175144  -4.303 1.69e-05 ***
DF3p$VA_DROITHOMO_rec:4 -0.435242   0.106790  -4.076 4.59e-05 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Names of linear predictors: log(mu[,1]/mu[,5]), log(mu[,2]/mu[,5]), 
log(mu[,3]/mu[,5]), log(mu[,4]/mu[,5])

Residual deviance: 3696.423 on 16052 degrees of freedom

Log-likelihood: -1848.212 on 16052 degrees of freedom

Number of Fisher scoring iterations: 8 


Reference group is level  5  of the response

Modéliser et prévoir - Régression logistique

model2<-vglm(factor(DF4$cluster)~DF4$VA_MARIDEP.y+DF4$VA_COHAB.y+DF4$VA_MARITJS.y+DF4$VA_DIVORC.y+DF4$VA_FEMENF.y+DF4$VA_DEUXPAR.y+DF4$VA_MERSEUL.y+DF4$VA_EFTAUTO.y+DF4$VA_DROITHOMO_rec.y+DF4$MA_SEXE+DF4$MA_AGEM_rec+DF4$NBENFTOTM_rec, family=multinomial)

summary(model2)

Call:
vglm(formula = factor(DF4$cluster) ~ DF4$VA_MARIDEP.y + DF4$VA_COHAB.y + 
    DF4$VA_MARITJS.y + DF4$VA_DIVORC.y + DF4$VA_FEMENF.y + DF4$VA_DEUXPAR.y + 
    DF4$VA_MERSEUL.y + DF4$VA_EFTAUTO.y + DF4$VA_DROITHOMO_rec.y + 
    DF4$MA_SEXE + DF4$MA_AGEM_rec + DF4$NBENFTOTM_rec, family = multinomial)

Coefficients: 
                           Estimate Std. Error z value Pr(>|z|)    
(Intercept):1             3.3448589  0.3806611   8.787  < 2e-16 ***
(Intercept):2             0.2202829  0.5218523   0.422 0.672939    
(Intercept):3            -3.0820581  0.9052870  -3.405 0.000663 ***
(Intercept):4             0.1064326  0.5144653   0.207 0.836104    
DF4$VA_MARIDEP.y:1       -0.1384747  0.1033003  -1.341 0.180081    
DF4$VA_MARIDEP.y:2       -3.1593988  0.1546723 -20.426  < 2e-16 ***
DF4$VA_MARIDEP.y:3       -0.9726454  0.2236805  -4.348 1.37e-05 ***
DF4$VA_MARIDEP.y:4        0.8779339  0.1555312   5.645 1.65e-08 ***
DF4$VA_COHAB.y:1         -1.9862333  0.1032162 -19.243  < 2e-16 ***
DF4$VA_COHAB.y:2         -2.2926853  0.1597691 -14.350  < 2e-16 ***
DF4$VA_COHAB.y:3         -2.3967630  0.2750364  -8.714  < 2e-16 ***
DF4$VA_COHAB.y:4         -2.1685377  0.1429979 -15.165  < 2e-16 ***
DF4$VA_MARITJS.y:1        0.4720858  0.0982193   4.806 1.54e-06 ***
DF4$VA_MARITJS.y:2        0.8299420  0.1268918   6.541 6.13e-11 ***
DF4$VA_MARITJS.y:3       -0.4031175  0.2315032  -1.741 0.081630 .  
DF4$VA_MARITJS.y:4        0.6302850  0.1235888   5.100 3.40e-07 ***
DF4$VA_DIVORC.y:1        -2.8068991  0.1252399 -22.412  < 2e-16 ***
DF4$VA_DIVORC.y:2        -4.3301487  0.1895442 -22.845  < 2e-16 ***
DF4$VA_DIVORC.y:3        -2.6480647  0.2744196  -9.650  < 2e-16 ***
DF4$VA_DIVORC.y:4        -3.6153900  0.1740032 -20.778  < 2e-16 ***
DF4$VA_FEMENF.y:1         0.2229676  0.1207650   1.846 0.064850 .  
DF4$VA_FEMENF.y:2         0.5935495  0.1547236   3.836 0.000125 ***
DF4$VA_FEMENF.y:3         1.3910741  0.2305679   6.033 1.61e-09 ***
DF4$VA_FEMENF.y:4         3.0842081  0.1561844  19.747  < 2e-16 ***
DF4$VA_DEUXPAR.y:1        0.3611021  0.1471428   2.454 0.014124 *  
DF4$VA_DEUXPAR.y:2       -0.1966700  0.1881057  -1.046 0.295779    
DF4$VA_DEUXPAR.y:3        3.9991204  0.2596267  15.403  < 2e-16 ***
DF4$VA_DEUXPAR.y:4       -0.1476571  0.1821884  -0.810 0.417674    
DF4$VA_MERSEUL.y:1       -0.3480708  0.0805917  -4.319 1.57e-05 ***
DF4$VA_MERSEUL.y:2       -0.4876798  0.1169146  -4.171 3.03e-05 ***
DF4$VA_MERSEUL.y:3       -0.0639996  0.2220142  -0.288 0.773142    
DF4$VA_MERSEUL.y:4       -0.3514942  0.1132148  -3.105 0.001905 ** 
DF4$VA_EFTAUTO.y:1       -0.0011189  0.0773777  -0.014 0.988462    
DF4$VA_EFTAUTO.y:2       -0.2484153  0.1179390  -2.106 0.035178 *  
DF4$VA_EFTAUTO.y:3       -0.0352062  0.1922351  -0.183 0.854687    
DF4$VA_EFTAUTO.y:4       -0.2338917  0.1093914  -2.138 0.032507 *  
DF4$VA_DROITHOMO_rec.y:1 -0.4115389  0.0817338  -5.035 4.78e-07 ***
DF4$VA_DROITHOMO_rec.y:2 -0.9297860  0.1141779  -8.143 3.85e-16 ***
DF4$VA_DROITHOMO_rec.y:3 -0.7519659  0.1769472  -4.250 2.14e-05 ***
DF4$VA_DROITHOMO_rec.y:4 -0.4473308  0.1077205  -4.153 3.29e-05 ***
DF4$MA_SEXE2:1           -0.2407138  0.1506236  -1.598 0.110017    
DF4$MA_SEXE2:2           -0.1494922  0.2094580  -0.714 0.475407    
DF4$MA_SEXE2:3           -0.2905275  0.3699232  -0.785 0.432235    
DF4$MA_SEXE2:4           -0.5365326  0.2104986  -2.549 0.010807 *  
DF4$MA_AGEM_rec:1        -0.0074291  0.0062269  -1.193 0.232847    
DF4$MA_AGEM_rec:2        -0.0084580  0.0087334  -0.968 0.332809    
DF4$MA_AGEM_rec:3        -0.0131547  0.0149075  -0.882 0.377551    
DF4$MA_AGEM_rec:4        -0.0005664  0.0086521  -0.065 0.947805    
DF4$NBENFTOTM_rec:1      -0.0348629  0.0749401  -0.465 0.641781    
DF4$NBENFTOTM_rec:2      -0.1452102  0.1043724  -1.391 0.164144    
DF4$NBENFTOTM_rec:3      -0.0383095  0.1584776  -0.242 0.808986    
DF4$NBENFTOTM_rec:4      -0.0083635  0.0999876  -0.084 0.933339    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Names of linear predictors: log(mu[,1]/mu[,5]), log(mu[,2]/mu[,5]), 
log(mu[,3]/mu[,5]), log(mu[,4]/mu[,5])

Residual deviance: 3684.221 on 16040 degrees of freedom

Log-likelihood: -1842.111 on 16040 degrees of freedom

Number of Fisher scoring iterations: 8 


Reference group is level  5  of the response

Modéliser et prévoir - Régression logistique

Calculer la taille d’effet

summary(model, Wald=TRUE)

Call:
vglm(formula = factor(DF3p$cluster) ~ DF3p$VA_MARIDEP + DF3p$VA_COHAB + 
    DF3p$VA_MARITJS + DF3p$VA_DIVORC + DF3p$VA_FEMENF + DF3p$VA_DEUXPAR + 
    DF3p$VA_MERSEUL + DF3p$VA_EFTAUTO + DF3p$VA_DROITHOMO_rec, 
    family = multinomial)

Coefficients: 
                         Estimate Std. Error z value Pr(>|z|)    
(Intercept):1            2.820918   0.135807  20.772  < 2e-16 ***
(Intercept):2           -0.406287   0.199158  -2.040 0.041347 *  
(Intercept):3           -3.874172   0.461252  -8.399  < 2e-16 ***
(Intercept):4           -0.237987   0.191072  -1.246 0.212935    
DF3p$VA_MARIDEP:1       -0.140062   0.103333  -1.355 0.175278    
DF3p$VA_MARIDEP:2       -3.157150   0.154208 -20.473  < 2e-16 ***
DF3p$VA_MARIDEP:3       -0.987698   0.222832  -4.432 9.32e-06 ***
DF3p$VA_MARIDEP:4        0.875476   0.155710   5.622 1.88e-08 ***
DF3p$VA_COHAB:1         -1.993226   0.102092 -19.524  < 2e-16 ***
DF3p$VA_COHAB:2         -2.305061   0.155878 -14.788  < 2e-16 ***
DF3p$VA_COHAB:3         -2.419639   0.268583  -9.009  < 2e-16 ***
DF3p$VA_COHAB:4         -2.157162   0.141188 -15.279  < 2e-16 ***
DF3p$VA_MARITJS:1        0.465449   0.097746   4.762 1.92e-06 ***
DF3p$VA_MARITJS:2        0.820948   0.125878   6.522 6.95e-11 ***
DF3p$VA_MARITJS:3       -0.424552   0.227342  -1.867 0.061837 .  
DF3p$VA_MARITJS:4        0.647436   0.121985   5.307 1.11e-07 ***
DF3p$VA_DIVORC:1        -2.790887   0.124236 -22.464  < 2e-16 ***
DF3p$VA_DIVORC:2        -4.314020   0.188304 -22.910  < 2e-16 ***
DF3p$VA_DIVORC:3        -2.649191   0.271158  -9.770  < 2e-16 ***
DF3p$VA_DIVORC:4        -3.558549   0.171506 -20.749  < 2e-16 ***
DF3p$VA_FEMENF:1         0.254764   0.118684   2.147 0.031827 *  
DF3p$VA_FEMENF:2         0.627845   0.152465   4.118 3.82e-05 ***
DF3p$VA_FEMENF:3         1.414510   0.228320   6.195 5.82e-10 ***
DF3p$VA_FEMENF:4         3.085573   0.153967  20.040  < 2e-16 ***
DF3p$VA_DEUXPAR:1        0.365905   0.145753   2.510 0.012058 *  
DF3p$VA_DEUXPAR:2       -0.189924   0.186249  -1.020 0.307854    
DF3p$VA_DEUXPAR:3        3.999044   0.256920  15.565  < 2e-16 ***
DF3p$VA_DEUXPAR:4       -0.192403   0.179685  -1.071 0.284270    
DF3p$VA_MERSEUL:1       -0.340501   0.079461  -4.285 1.83e-05 ***
DF3p$VA_MERSEUL:2       -0.483084   0.115590  -4.179 2.92e-05 ***
DF3p$VA_MERSEUL:3       -0.042230   0.218374  -0.193 0.846657    
DF3p$VA_MERSEUL:4       -0.372201   0.111653  -3.334 0.000857 ***
DF3p$VA_EFTAUTO:1        0.002568   0.076966   0.033 0.973386    
DF3p$VA_EFTAUTO:2       -0.259981   0.116574  -2.230 0.025736 *  
DF3p$VA_EFTAUTO:3       -0.022200   0.188790  -0.118 0.906392    
DF3p$VA_EFTAUTO:4       -0.245998   0.108133  -2.275 0.022908 *  
DF3p$VA_DROITHOMO_rec:1 -0.414108   0.081252  -5.097 3.46e-07 ***
DF3p$VA_DROITHOMO_rec:2 -0.918854   0.113273  -8.112 4.99e-16 ***
DF3p$VA_DROITHOMO_rec:3 -0.753565   0.175144  -4.303 1.69e-05 ***
DF3p$VA_DROITHOMO_rec:4 -0.435242   0.106790  -4.076 4.59e-05 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Names of linear predictors: log(mu[,1]/mu[,5]), log(mu[,2]/mu[,5]), 
log(mu[,3]/mu[,5]), log(mu[,4]/mu[,5])

Residual deviance: 3696.423 on 16052 degrees of freedom

Log-likelihood: -1848.212 on 16052 degrees of freedom

Number of Fisher scoring iterations: 8 


Reference group is level  5  of the response
confint(model, level=0.95)
                              2.5 %      97.5 %
(Intercept):1            2.55474174  3.08709390
(Intercept):2           -0.79662890 -0.01594556
(Intercept):3           -4.77820837 -2.97013553
(Intercept):4           -0.61248169  0.13650755
DF3p$VA_MARIDEP:1       -0.34259106  0.06246752
DF3p$VA_MARIDEP:2       -3.45939190 -2.85490812
DF3p$VA_MARIDEP:3       -1.42444153 -0.55095434
DF3p$VA_MARIDEP:4        0.57028968  1.18066243
DF3p$VA_COHAB:1         -2.19332210 -1.79312969
DF3p$VA_COHAB:2         -2.61057597 -1.99954666
DF3p$VA_COHAB:3         -2.94605193 -1.89322666
DF3p$VA_COHAB:4         -2.43388444 -1.88043864
DF3p$VA_MARITJS:1        0.27386971  0.65702879
DF3p$VA_MARITJS:2        0.57423175  1.06766490
DF3p$VA_MARITJS:3       -0.87013382  0.02102944
DF3p$VA_MARITJS:4        0.40834884  0.88652294
DF3p$VA_DIVORC:1        -3.03438607 -2.54738826
DF3p$VA_DIVORC:2        -4.68308862 -3.94495207
DF3p$VA_DIVORC:3        -3.18065166 -2.11773015
DF3p$VA_DIVORC:4        -3.89469481 -3.22240347
DF3p$VA_FEMENF:1         0.02214826  0.48738013
DF3p$VA_FEMENF:2         0.32901938  0.92667147
DF3p$VA_FEMENF:3         0.96701210  1.86200887
DF3p$VA_FEMENF:4         2.78380184  3.38734324
DF3p$VA_DEUXPAR:1        0.08023365  0.65157586
DF3p$VA_DEUXPAR:2       -0.55496491  0.17511640
DF3p$VA_DEUXPAR:3        3.49549082  4.50259798
DF3p$VA_DEUXPAR:4       -0.54457950  0.15977399
DF3p$VA_MERSEUL:1       -0.49624233 -0.18476003
DF3p$VA_MERSEUL:2       -0.70963706 -0.25653191
DF3p$VA_MERSEUL:3       -0.47023660  0.38577561
DF3p$VA_MERSEUL:4       -0.59103730 -0.15336518
DF3p$VA_EFTAUTO:1       -0.14828213  0.15341750
DF3p$VA_EFTAUTO:2       -0.48846236 -0.03149907
DF3p$VA_EFTAUTO:3       -0.39222114  0.34782126
DF3p$VA_EFTAUTO:4       -0.45793372 -0.03406170
DF3p$VA_DROITHOMO_rec:1 -0.57335894 -0.25485743
DF3p$VA_DROITHOMO_rec:2 -1.14086562 -0.69684191
DF3p$VA_DROITHOMO_rec:3 -1.09684169 -0.41028845
DF3p$VA_DROITHOMO_rec:4 -0.64454734 -0.22593651
# Fit the null model (intercept-only model)
null_model <- vglm(factor(DF3p$cluster) ~ 1, family = multinomial)

# Log-likelihood of the fitted model and null model
log_likelihood_fitted <- logLik(model)
log_likelihood_null <- logLik(null_model)

# McFadden's R² calculation
McFadden_R2 <- 1 - (log_likelihood_fitted / log_likelihood_null)
print(McFadden_R2)
[1] 0.6800364
coefs <- coef(model)
coefs
          (Intercept):1           (Intercept):2           (Intercept):3 
            2.820917823            -0.406287231            -3.874171950 
          (Intercept):4       DF3p$VA_MARIDEP:1       DF3p$VA_MARIDEP:2 
           -0.237987070            -0.140061767            -3.157150010 
      DF3p$VA_MARIDEP:3       DF3p$VA_MARIDEP:4         DF3p$VA_COHAB:1 
           -0.987697932             0.875476055            -1.993225893 
        DF3p$VA_COHAB:2         DF3p$VA_COHAB:3         DF3p$VA_COHAB:4 
           -2.305061315            -2.419639297            -2.157161540 
      DF3p$VA_MARITJS:1       DF3p$VA_MARITJS:2       DF3p$VA_MARITJS:3 
            0.465449251             0.820948327            -0.424552190 
      DF3p$VA_MARITJS:4        DF3p$VA_DIVORC:1        DF3p$VA_DIVORC:2 
            0.647435892            -2.790887165            -4.314020346 
       DF3p$VA_DIVORC:3        DF3p$VA_DIVORC:4        DF3p$VA_FEMENF:1 
           -2.649190906            -3.558549140             0.254764194 
       DF3p$VA_FEMENF:2        DF3p$VA_FEMENF:3        DF3p$VA_FEMENF:4 
            0.627845423             1.414510486             3.085572542 
      DF3p$VA_DEUXPAR:1       DF3p$VA_DEUXPAR:2       DF3p$VA_DEUXPAR:3 
            0.365904758            -0.189924253             3.999044402 
      DF3p$VA_DEUXPAR:4       DF3p$VA_MERSEUL:1       DF3p$VA_MERSEUL:2 
           -0.192402756            -0.340501180            -0.483084484 
      DF3p$VA_MERSEUL:3       DF3p$VA_MERSEUL:4       DF3p$VA_EFTAUTO:1 
           -0.042230496            -0.372201241             0.002567683 
      DF3p$VA_EFTAUTO:2       DF3p$VA_EFTAUTO:3       DF3p$VA_EFTAUTO:4 
           -0.259980717            -0.022199941            -0.245997709 
DF3p$VA_DROITHOMO_rec:1 DF3p$VA_DROITHOMO_rec:2 DF3p$VA_DROITHOMO_rec:3 
           -0.414108186            -0.918853767            -0.753565070 
DF3p$VA_DROITHOMO_rec:4 
           -0.435241926 

Modéliser et prévoir - Régression logistique

Présenter les résultats avec stargazer

library(stargazer)
stargazer(model1, type="text")

=========================================================
                            Dependent variable:          
                  ---------------------------------------
                      2         3         4         5    
                     (1)       (2)       (3)       (4)   
---------------------------------------------------------
VA_MARIDEP        -3.017*** -0.848*** 1.016***    0.140  
                   (0.126)   (0.203)   (0.133)   (0.103) 
                                                         
VA_COHAB          -0.312**   -0.426*   -0.164   1.993*** 
                   (0.127)   (0.257)   (0.107)   (0.102) 
                                                         
VA_MARITJS        0.355***  -0.890***  0.182**  -0.465***
                   (0.086)   (0.209)   (0.082)   (0.098) 
                                                         
VA_DIVORC         -1.523***   0.142   -0.768*** 2.791*** 
                   (0.153)   (0.264)   (0.138)   (0.124) 
                                                         
VA_FEMENF         0.373***  1.160***  2.831***  -0.255** 
                   (0.105)   (0.199)   (0.117)   (0.119) 
                                                         
VA_DEUXPAR        -0.556*** 3.633***  -0.558*** -0.366** 
                   (0.122)   (0.241)   (0.120)   (0.146) 
                                                         
VA_MERSEUL         -0.143     0.298    -0.032   0.340*** 
                   (0.091)   (0.209)   (0.088)   (0.079) 
                                                         
VA_EFTAUTO        -0.263***  -0.025   -0.249***  -0.003  
                   (0.093)   (0.177)   (0.084)   (0.077) 
                                                         
VA_DROITHOMO_rec  -0.505*** -0.339**   -0.021   0.414*** 
                   (0.085)   (0.161)   (0.079)   (0.081) 
                                                         
Constant          -3.227*** -6.695*** -3.059*** -2.821***
                   (0.154)   (0.451)   (0.145)   (0.136) 
                                                         
---------------------------------------------------------
Akaike Inf. Crit. 3,776.423 3,776.423 3,776.423 3,776.423
=========================================================
Note:                         *p<0.1; **p<0.05; ***p<0.01

Synthèse

  • Se familiariser avec ses données - les décrire

  • Explorer et investiguer - tester des premiers liens / croisements

  • Structurer et synthétiser - résumer l’information

  • Modéliser et prévoir - Mettre en évidence des relations complexes

Ressources en ligne

Bibliographie indicative

  • Bakker, A., Gravemeijer, K.P.E. An Historical Phenomenology of Mean and Median. Educ Stud Math 62, 149–168 (2006). https://doi.org/10.1007/s10649-006-7099-8
  • Benzecri J.-P. (1973), L’analyse des données, Paris, Dunod, vol. 2 : Correspondances
  • Bergsma, W. A bias-correction for Cramér’s V and Tschuprow’s T. J. Korean Stat. Soc. 42, 323–328 (2013). https://doi.org/10.1016/j.jkss.2012.10.002
  • Bertrand, F., & Maumy-Bertrand, M. (2023). Initiation à la statistique avec R (4e édition.). Dunod.
  • Sylvain Brouard, Viviane Le Hay. Les Français et la fiscalité. 2012, 12 p. ⟨halshs-00718416
  • Cornillon et al., Statistique avec R PUR (2012)
  • Cramer, H., Mathematical Methods Of Statistics, 1946. Princeton University Press.
  • Fisher, R. A. (1922). On the Interpretation of χ2 from Contingency Tables, and the Calculation of P. Journal of the Royal Statistical Society, 85(1), 87–94. https://doi.org/10.2307/2340521 . (P.145)
  • Fleuret, S. and Apparicio, P. (2011), Essai de typologie des centres de santé et de services sociaux au Québec. The Canadian Geographer / Le Géographe canadien, 55: 143-157. https://doi.org/10.1111/j.1541-0064.2010.00318.x
  • Heath, T. L. (2013- Rééd.). A History of Greek Mathematics. Cambridge: Cambridge University Press. https://doi.org/10.1017/CBO9781139600576
  • Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied Logistic Regression (3rd ed.). Wiley. DOI: https://doi.org/10.1002/9781118548387
  • Howell, D. C. (2008). Méthodes statistiques en sciences humaines (2e éd.). De Boeck Supérieur.
  • François Husson, Sébastien Lê, Jérome Pagès. Analyse de données avec R. Presses Universitaires de Rennes, 2016, Pratique de la statistique, Husson, 978-2-7535-4869-5. ⟨hal-01292429⟩
  • Jubénot M.N., Eudes D. (2022). “Analyse de données sous R pour les sciences humaines”. Ellipses
  • Klein, G. K. & Dabney, A. (2013) The Cartoon Introduction to Statistics, Ed, Hill & Wang Inc., U.S., 240p.
  • Lebart L., Morineau A., Piron M., 1995, Statistique exploratoire multidimensionnelle, Paris, Dunod.
  • Makowski, D., Ben-Shachar, M. S., Patil, I., & Lüdecke, D. (2020). Methods and algorithms for correlation analysis in R. Journal of Open Source Software, 5(51), 2306. https://doi.org/10.21105/joss.02306
  • Makowski, D., Wiernik, B. M., Patil, I., Lüdecke, D., & Ben-Shachar, M. S. (2022). correlation: Methods for correlation analysis [R package]. https://CRAN.R-project.org/package=correlation (Original work published 2020)
  • Pages, J-P., et al., (1979), Analyse factorielle : Un peu d’histoire et de géométrie, Revue de statistiques appliquée, tome 27, n°1, p.5-28.
  • Pagès J., Analyse Factorielle multiple avec R EDP Sciences (2013)
  • Tabachnick Barbara et Fidell Linda, Using Multivariate Statistics, Pearson International, 2013.