Analyse bivarié

Licence de démographie:

Analyse statistique bivariée

Travaux pratiques

Adolphe Quételet

Exercice 4 (corrigé)

[Régression à partir des données observées] [Régression à partir des données transformées]

Régression linéaire (transformation des données):

Prix de vin en gros en 1972 selon les millésimes

L'analyse de données brutes donne:

Fig.1  Prix de vin en 1972 selon les millésimes

(régression: Ŷ = - 0.63 X + 122.48)

Le même analyse des données transformées donne:

Fig.2  Prix de vin en 1972 selon les millésimes

(régression: Ŷ = exp[0.03*(1972-X) + 1.4]

Source: "The Chicago Maroon" vendredi 10 novembre 1972

 

 

 

      Analyse des données brutes:

1. Variable X => l'an de récolte (millésime) . Variable Y => le prix de vin en gros
 

2. Calculer le millésime "moyen" et le prix moyen.

3. Calculer les variance et la covariance .

 

 

 

4. Estimer les paramètres de la régression et le coefficient de corrélation et le rapport de détermination

    

 

Voila la présentation de vos calculs dans l'Excel

# d'obser- Année Prix X-Xbar Y-Ybar (X-Xbar)² (Y-Ybar)² A*B Valeurs Varience  
vation X Y A B C D E estimées residuelle Expliquée
1 1890 50.00 -45.64 35.44 2083.27 1255.89 -1617.52 43.19 46.44 819.33
2 1900 35.00 -35.64 20.44 1270.41 417.74 -728.49 36.91 3.66 499.64
3 1920 25.00 -15.64 10.44 244.70 108.96 -163.29 24.37 0.40 96.24
4 1930 11.00 -5.64 -3.56 31.84 12.68 20.10 18.10 50.41 12.52
5 1934 15.00 -1.64 0.44 2.70 0.19 -0.72 15.59 0.35 1.06
6 1935 13.00 -0.64 -1.56 0.41 2.44 1.00 14.96 3.86 0.16
7 1940 6.98 4.36 -7.58 18.98 57.48 -33.03 11.83 23.51 7.47
8 1941 10.00 5.36 -4.56 28.70 20.81 -24.44 11.20 1.44 11.29
9 1944 5.99 8.36 -8.57 69.84 73.47 -71.63 9.32 11.09 27.47
10 1948 8.96 12.36 -5.60 152.70 31.38 -69.22 6.81 4.61 60.05
11 1950 6.98 14.36 -7.58 206.13 57.48 -108.85 5.56 2.02 81.07
12 1952 4.99 16.36 -9.57 267.56 91.61 -156.56 4.30 0.47 105.23
13 1955 5.98 19.36 -8.58 374.70 73.64 -166.11 2.42 12.66 147.37
14 1960 4.98 24.36 -9.58 593.27 91.80 -233.38 -0.71 32.42 233.33
Moyenne 1935.64 14.56 0.00 0.00 381.80 163.97 -239.44 14.56 13.81 150.16

Le rapport de détermination est élevé, mais la valeur estimée pour l'année 1960 est négative (voir la figure 1). Cela n'est pas bon.

Apparemment le lien entre le millésime et le prix n'est pas tout à fait linéaire. Est-t-il  possible de résoudre le problème en transformant nos données?

 

         Transformation des données

1. Transformons le millésime en âge. La nouvelle variable explicative sera X'=1972-X.

2. Transformons le prix en logarithme de prix pour essayer résoudre le problème de non linéarité. La nouvelle variable dépendante sera Y' = ln(Y)

3. Refaisons les calculs avec ces deux nouvelles variables:

Ancienne variables Nouvelles variables                  
# d'obser- Année Prix Age ln (Prix) X'-X'bar Y'-Y'bar (X'-X'bar)² (Y'-Y'bar)² A*B Valeur Variance   Prix estimé
vation     X' Y' A B C D E estimée de Y' résiduelle expliquée

exp(ŷ')

1 1890 50.00 82 3.91 45.64 1.52 2083.27 2.30 69.24 3.97 0.00 2.48 53.00
2 1900 35.00 72 3.56 35.64 1.16 1270.41 1.35 41.36 3.63 0.00 1.51 37.53
3 1920 25.00 52 3.22 15.64 0.82 244.70 0.68 12.89 2.93 0.08 0.29 18.82
4 1930 11.00 42 2.40 5.64 0.00 31.84 0.00 0.02 2.59 0.04 0.04 13.33
5 1934 15.00 38 2.71 1.64 0.31 2.70 0.10 0.51 2.45 0.07 0.00 11.61
6 1935 13.00 37 2.56 0.64 0.17 0.41 0.03 0.11 2.42 0.02 0.00 11.21
7 1940 6.98 32 1.94 -4.36 -0.45 18.98 0.20 1.97 2.24 0.09 0.02 9.44
8 1941 10.00 31 2.30 -5.36 -0.09 28.70 0.01 0.50 2.21 0.01 0.03 9.12
9 1944 5.99 28 1.79 -8.36 -0.60 69.84 0.37 5.06 2.11 0.10 0.08 8.22
10 1948 8.96 24 2.19 -12.36 -0.20 152.70 0.04 2.50 1.97 0.05 0.18 7.16
11 1950 6.98 22 1.94 -14.36 -0.45 206.13 0.20 6.49 1.90 0.00 0.25 6.68
12 1952 4.99 20 1.61 -16.36 -0.79 267.56 0.62 12.88 1.83 0.05 0.32 6.24
13 1955 5.98 17 1.79 -19.36 -0.61 374.70 0.37 11.74 1.73 0.00 0.45 5.62
14 1960 4.98 12 1.61 -24.36 -0.79 593.27 0.62 19.23 1.55 0.00 0.71 4.73
Moyenne 1935.64 14.56 36.36 2.39 0.00 0.00 381.80 0.49 13.18 2.39 0.04 0.45 14.48

 

 

 la variance de la variable explicative n'a pas changé (sic!)

transformation logarithmique a diminué la variance (sic!)   

 

 

    

      le coefficient de corrélation reste inchangé après la transformation des données

 le rapport de détermination reste inchangé après la transformation des données

 

Nouvelle équation de régression est

(Voir la figure 2)

Le problème des valeurs négatives est donc résolu!