Analyse bivarié

Licence de démographie:

Analyse statistique bivariée

Travaux pratiques

Adolphe Quételet

Exercice 2 (corrigé)

Données * Construction d'un tableau croisé * Statistiques marginales * Statistiques conditionnelles * Présentation graphique * Comparaison des moyennes * Moyenne des moyennes * Variance des moyennes * Moyenne des variance * Le rapport de détermination * Covarience * Coefficient de corrélation * Conclusions

Decomposition des statistiques marginales (cours)

Données :

Source : Enquête sur l’emploi de 1997, INSEE résultats, série « Emploi – Revenus » n°127-128, sept.1997.

France: Chômeur (BIT) en mars 1997 selon le sexe, l’âge et l’ancienneté de chômage (en milliers)

Ancienneté de chômage Age (hommes) Age (femmes)
15-24 25-49 50 et + Total 15-24 25-49 50 et + Total
Non renseigné 19.7 56.4 11.2 87.3 15.5 40.4 9.7 95.6
Moins de 3 mois 71.1 182.1 23.1 276.3 64.9 182.8 18.2 256.9
De 3 mois à 1 an 149.9 391.9 57 598.8 157.3 395.1 50.9 603.3
De 1 an à moins de 2 ans 36.5 187 51.5 275 46.7 226.7 46.2 319.6
2 ans et plus 24.4 181.8 79.6 285.8 22.8 245.6 75.6 344
Total 301.6 999.2 222.4 1523.2 307.2 1120.6 200.6 1628.4

Devoirs:

bullet

1. Construire le tableau de contingence pour les deux sexes confondus.

bullet

2. Calculer les statistiques conditionnelles pour chaque de deux variables

bullet

3. Comparer la durée moyenne de chômage pour chaque groupe d'âge

bullet

4. Est-ce que les différences entre les durées moyennes du chômage sont statistiquement signifiantes?

bullet

5. Calculer la moyenne des moyennes et comparer le résultat avec la moyenne marginale.

bullet

6. Calculer la moyenne des variances et comparer le résultat avec la variance marginale.

bullet

7. Calculer la variance résiduelle et le rapport entre la variance expliquée et la variance générale (marginale).

 

Etape 1:

Eliminer les données non définies et construire le tableau de contingence.

 

 
Ancienneté de chômage Age 
15-24 25-49 50 et + Total
Moins de 3 mois 136 364.9 41.3 533.2
De 3 mois à 1 an 307.2 787 107.9 1202.1
De 1 an à moins de 2 ans 83.2 413.7 97.7 594.6
2 ans et plus 47.2 427.4 155.2 629.8
Total 573.6 1993 402.1 2959.7

 

Etape 2:

Calculer des statistiques marginales (uniquement)

 Il faut définir les centres des intérvalles pour chaque des variables (x et y)

 

Ancienneté de chômage     Age  Y      
X     15-24 25-49 50 et + Total
      y1 y2 y3  
      20 37.5 57.5 Ni Ni x Xi Ni x Xi²
Moins de 3 mois x1 1.5 136 364.9 41.3 542.2 813.3 1219.95
De 3 mois à 1 an x2 7.5 307.2 787 107.9 1202.1 9015.75 67618.125
De 1 an à moins de 2 ans x3 18.0 83.2 413.7 97.7 594.6 10702.8 192650.4
2 ans et plus (4 an max) x4 36.0 47.2 427.4 155.2 629.8 22672.8 816220.8
Total   Nj 573.6 1993 402.1 2968.7 43204.65 1077709.275
  Nj x Yj 11472 74737.5 23120.75 109330.25
  Nj x Yj² 229440 2802656 1329443.1 4361539.38

N= 2968.7

 

=36.8
=14.6
   

Etape 3:

Calculs des statistiques conditionnelles
Ancienneté de chômage       Age  Y                
X       15-24 25-49 50 et + Total          
        y1 y2 y3   Somme de   Moyenne Variance Ecart type
        20 37.5 57.5 Ni (Yj*Nij) (Yj² * Nij) Yi Yi Yi
      Yj² 400 1406.25 3306.25            
    Xi Xi²                  
Moins de 3 mois x1 1.5 2.25 136 364.9 41.3 542.2 18778.5 704088.8 34.63 99.1 9.95
De 3 mois à 1 an x2 7.5 56.25 307.2 787 107.9 1202.1 41860.75 1586343 34.82 107.0 10.34
De 1 an à moins de 2 ans x3 18.0 324 83.2 413.7 97.7 594.6 22795.5 938066.3 38.34 107.9 10.39
2 ans et plus (4 an max) x4 36.0 1296 47.2 427.4 155.2 629.8 25895.5 1133041 41.12 108.4 10.41
Total   Nj   573.6 1993 402.1 2968.7 109330.25 4361539 36.83 112.9 10.63
  Somme de Somme(Xi *Nij) 5704.8 29282.85 8217 43204.65          
    Somme(Xi² *Nij) 105714 733038.98 238956.3 1077709.275          
    MoyenneXj 9.95 14.69 20.44 14.55          
    VarianceXj 85.38 151.93 176.67 151.22          
    Ecart type Xj 9.24 12.33 13.29 12.30          
    Erreur type Xj 0.386 0.276 0.663 0.226          
 

 

 

Etape 4:

Présentation graphique des moyennes

 

Fig 1. Ancienneté moyenne de chômage selon l'âge

 

Etape 5:

comparaison des durées moyennes de chômage dans les groupe d'âge


Question:  
Est-ce que les différences entre les durées moyennes du chômage sont statistiquement signifiantes?
En supposant la distribution normale de la durée de chômage, calculons la distance entre les moyenne  (valeur critique de Z)


Valeur Z

 

Age

15-24 25-49 50 et +
15-24

x

   
25-49 -10.01

x

 
50 et + -13.68 -8.00

x

 

 

 

Il est évident que la différence de la durée de chômage est signifiante. 

 

5. Calculer la moyenne des moyennes et comparer le résultat avec la moyenne marginale. Moyenne des moyennes de l'ancienneté

= (9.95*573.6+14.96*1993+20.44*402.1)*(1/2968.7)=14.55
= (34.63*542.2+34.82*1202.1+38.34*594.6+41.12*629.8)*(1/2968.7)=36.8
Les moyennes des moyennes sont égales aux moyennes marginales

6. Calculer la variance des moyennes (variance expliquée) et comparer le résultat avec la variance marginale.

Et

Calculer la moyenne des variances (variance résiduelle)

 

Calculs de la moyenne des moyennes et de la variance moyenne

Varible = Ancienneté

 

 

 

 

Y1

Y2

Y3

Total

Nj

573.6

1993.0

402.1

2968.7

MoyenneXj

9.9

14.7

20.4

14.6

Nj * Xj

5704.8

29282.9

8217.0

43204.7

V(Xj)

85.4

151.9

176.7

142.4

Nj* V(Xj)

48976.3

302790.5

71040.1

422806.9

Xj ²

98.9

215.9

417.6

211.8

Nj * Xj ²

56737.7

430248.5

167916.2

654902.4

1/N*Somme (Nj * Xj ²) =

220.6

 

1/N*Somme (Nj * Xj ²) - (X bar)² =

8.80

 

             

 

Un autre méthode de calcul de la variance des moyennes

 

Y1

Y2

Y3

Total

Xj - X bar

-4.61

0.14

5.88

 

(Xj - X bar)²

21.23

0.02

34.60

 

Nj*(Xj - X bar)²

12178.49

38.76

13911.00

26128.24

 

1/N*Somme [Nj*(Xj - X bar)²]  =

8.80

Moyenne des moyennes =

14.6

Moyenne des variance =

142.4

Variance des moyennes =

8.80

Variance générales =

151.22

h²(y/x) = 1 - (moyenne des variance / variance de X) =

0.058

 

Variance résiduelle (intra-groupe) c'est la moyenne des variances

 

Les moyennes des variances sont inférieures aux variances marginales

Variance "expliquée" c' est la variance des moyennes

La somme de la variance expliquée (moyenne des variances conditionnelles ) et la variance résiduelle (variance des moyennes conditionnelles) font la variance marinale.

  

7. Calculer le rapport entre la variance expliquée et la variance générale (marginale). Le rapport entre la variance expliquée et la variance générale ou le rapport de détermination de x en y

Le rapport de détermination de y en x

On peut conclure que seulement ~6% de la variation de variable X (durée de chômage) est expliquée par la variation de la variable Y (âge)

8. Estimation de la covariance et du coefficient de corrélation

Covariance 1

 

 

 

 

Y1

Y2

Y3

Total

Somme(Xi *Nij)

5705

29283

8217

 

Yi*Somme(Xi *Nij)

114096.0

1098106.9

472477.5


1684680.4

1/N  {Somme[Yj*Somme(Xi *Nij)]} =

567.5

1/N  {Somme[Yj*Somme(Xi *Nij)]} - (Xbar * Ybar)=

31.5

Cov(x,y)=

31.5

r =

0.2

r² =

0.058

 

Covariance 2

 

 

 

 

 

 

X1

X2

X3

X4

Total

Somme(Yj *Nij)

18779

41861

22796

25896

 

Xi*Somme(Yj *Nij)

28167.75

313956

410319

932238

1684680.4

 

1/N  {Somme[Xi*Somme(Yj *Nij)]} =

567.481

1/N  {Somme[Xi*Somme(Yj *Nij)]} - (Xbar * Ybar)=

31.514

Cov(x,y)=

31.514

r =

0.241

r² =

0.058

Donc, la covariance de l'âge et l'ancienneté de chômage = 31.5

 

 

9. Conclusion tirées de l'analyse bi-varié

1. Le découpage des groupes d'age selon l'ancienneté de chômage n'explique que 6% de variation d'age

2. Le découpage des groupes d'ancienneté de chômage selon l'age n'explique que 5.8% de variation d'ancienneté

3. La corrélation entre l'âge et l'ancienneté de chômage est positive mais faible r=0.24, le rapport de détermination r²=0.058

4. Il faut chercher les causes d'ancienneté de chômage ailleurs.