Analyse bivarié

Licence de démographie:

Analyse statistique bivariée

Travaux pratiques

Adolphe Quételet

Exercice 5 (corrigé)

Fréquence conditionnelle * Effectif attendu * Fréquence conditionnelle attendue * Statistique khi-carréConclusion 1 * Mesures d'association * Coefficient de Pearson * Coefficient de Cramére * Conclusion 2 * Mesures d'association pour les tableau 2x2 

 

 

          Statistique khi-carré:

Logements: date d'emménagement selon l'âge de la personne de référence

Source: INSEE Alsace. Fiche profil "Logements: date d'emménagement"
Zone d'emploi: Molsheim-Schrimeck

Données:

 

Durée d’occupation

 

Age

< 2 ans

2 - 9 ans

plus de 9 ans

total

15-29

1606

1592

140

3338

30-39

1761

5393

1393

8547

40-49

675

3053

5148

8876

50-59

341

1343

5132

6816

60-74

221

1227

7380

8828

75 +

95

393

3836

4324

Total

4699

13001

23029

40729

En fait, l’âge et la durée d’occupation sont des variables quantitatives, toutefois dans cet exercice elles peuvent être considérées comme des variables nominales.

*********

Conclusion symbolique:

La graphique (à droite) donne déjà une idée que la durée de l'occupation d'un logement dépend de l'âge de la personne de référence.

Fig. 1 La durée d'occupation d'un logement selon l'âge
de la personne de référence

 

 1. Calculer la fréquence conditionnelle en colonnes

 

Durée d’occupation

 

Age

< 2 ans

2 - 9 ans

plus de 9 ans

total

15-29

34.2%

12.2%

0.6%

8%

30-39

37.5%

41.5%

6.0%

21%

40-49

14.4%

23.5%

22.4%

22%

50-59

7.3%

10.3%

22.3%

17%

60-74

4.7%

9.4%

32.0%

22%

75 +

2.0%

3.0%

16.7%

11%

Total

100.0%

100.0%

100.0%

100%

    Apparemment, il existe l’association entre l’âge et la durée d’occupation d’un logement.

 

2. Calculer l'efffectif attendu:

On suppose que s’il n’y aucune relation entre les variables, les fréquences dans les cellules du tableau croisé doivent être proportionnelles aux valeurs marginales.

 Soit

nij – la fréquence (l’effectif) d’une cellule se trouvant sur le croisement de la ligne i et de la colonne j

mij – la fréquence (l’effectif) attendue dans la cellule se trouvant sur le croisement de la ligne i et de la colonne j, si les variables sont indépendantes ou « indifférentes »  l’une par rapport à l’autre. 

 

 

 Effectif attendu :

 

Durée d’occupation

 

Age

< 2 ans

2 - 9 ans

plus de 9 ans

total

15-29

385

1066

1887

3338

30-39

986

2728

4833

8547

40-49

1024

2833

5019

8876

50-59

786

2176

3854

6816

60-74

1019

2818

4992

8828

75 +

499

1380

2445

4324

Total

4699

13001

23029

40729

3. Calculer la fréquence conditionnelle en colonnes pour l'effectif attendu

 

Durée d’occupation

 

Age

< 2 ans

2 - 9 ans

plus de 9 ans

total

15-29

8%

8%

8%

8%

30-39

21%

21%

21%

21%

40-49

22%

22%

22%

22%

50-59

17%

17%

17%

17%

60-74

22%

22%

22%

22%

75 +

11%

11%

11%

11%

Total

100%

100%

100%

100%

Les structures de l'effectif attendu (fréquence conditionnelle en colonnes) sont les même (Sic!)

Or c'est la structure attendue sous la condition qu'il n'y a aucune association entre les variables

 

4. Calculer la statistique khi-carré

On sait que  χ2 = khi – deux ou khi carré

  où O = ni j  à effectif observé et  à effectif espéré (attendu).

 Formule développée

 ++   Calculer d'abord pour chaque cellule

 

Durée d’occupation

Age

< 2 ans

2 - 9 ans

plus de 9 ans

15-29

3870.464

260.144

1617.757

30-39

608.962

2602.681

2448.176

40-49

118.972

17.038

3.333

50-59

252.247

318.708

423.863

60-74

624.461

898.225

1142.894

75 +

326.961

706.152

791.542

++ Calculer ensuite pour la somme des valeurs

Nombre de dergés de liberté est égale à 10: on a trois modalités pour la variable "durée" et six modalités pour la variable "âge".

     DL = (n-1)(m-1) = (3-1)(6-1) = 2 x 5 = 10

++ Chercher la valeur critique de χ²  dans le tableau Valeurs critiques de khi-carré

Pour 10 DL et la probabilité 0.005 la valeur de χ²  dans le tableau  est égale à 25,18818 ce qui est largement inférieur à la statistique de khi-carré dans notre tableau.

Donc on peut dire qu'avec la probabilité supérieur à 99,5% il y a une association entre l'âge et la duréé d'occupation de logement.

En travaillant dans l'Excel on peut trouver la valeur critique de khi-carré avec la fonction  =KHIDEUX.INVERSE("probabilité";"degrés_liberté").

Dans notre cas =KHIDEUX.INVERSE(0.005;10) = 25,18805486

 

On sait que la valeur de la statistique χ²  dépend beaucoup du nombre d'observations.

5. Pour niveler l'effet du nombre d'observations, on calcule le coefficient χ²  standardisé de Pearson (coefficient de contingence - C) et le coefficient  fc de Cramér (fi de Cramér) :

       χ²  standardisé ou coefficient C de contingence de Pearson

    

     fc le coefficient  de Cramér (fi de Cramér)

k est la plus petite valeur entre le nombre de ligne (6 dans cet exercice) et de colonne (3 dans cette exercice).

 

On voit que l'association entre les deux variables est importante, mais pas très forte.

 

Rappel:

Dans le cas des tableaux 2 x 2  on peut utiliser comme une mesure d'association des statistique assez simples comme f ou f²

D

Variable B Variable A Valeurs
marginales
Modalité A1 présente Modalité A1 absente

Modalité B1 présente
 

a b a+b

Modalité B1 absente
 

c d c+d
Valeurs
marginales
a+c b+d a+b+c+d

l'indice d'association de Yule (Q) et l'indice de contingence de Pearson (Ф).

Les formules sont simples:

L'indice d'association de Yule (Q)

L'indice de contingence de Pearson (Ф)

La valeur de l'indice de contingence est toujours à peu près deux fois inférieur de l'indice d'association,
puisque ce dernier montre les liens mutuels (association) de deux variable,
alors que le premier (l'indice de contingence) caractérise le lien unilatéral (contingence)