Analyse bivarié
Site d'Alexandre Avdeev pour les étudiants en démographie

Elements de la statistique descriptive

Adolphe Quételet
 

Distribution F ] Accueil ] Analyse bivariée ] [ Statistique ] Bibliographie ] Analyse univariée ] Distribution Z ] Distribution t ] Distribution X² ] Etudiants à l'UMB ]


 

       
« De nos jours, la culture statistique est devenue un élément de la culture générale. Instrument de la connaissance des phénomènes collectifs, la statistique est désormais indispensable à celui qui veut éclairer une décision, porter un jugement, analyser la situation, prévoir un au moins esquisser la future. L’administrateur, au service de l’Etat ou de la firme, l’homme d’action, ministre, syndicaliste ou chef d’entreprise, l’ingénieur, le chercheur sont devenus des utilisateurs de la statistique. »

Gérard Calot     

Gérard Calot – Cours de la statistique descriptive –2e édition.
Paris ; Bruxelles ; Montréal : Dumon, , 1973 (XXI+483),
c.V (avant-propos à la deuxième édition)

Gérard Calot

Univers
et
unité statistique :

Espace d'observation

Effectif

« Les ensembles étudiés par la Statistique Descriptive portent le nom général d’univers statistique ou de population. Leurs éléments sont les unités statistiques ou individus. Cette terminologie, que la statistique a héritée de son premier champ d’action : la démographie, s’applique aussi bien à des ensembles de personnes humaines qu’à des ensembles d’objets concrets ou abstraits : personnel d’un établissement, clientèle d’un magasin, population de la France ; production d’un atelier, parc d’automobile d’une société ; ensemble des années écoulées depuis 1950, ensemble des accidents survenus au cours d’une période etc. » (Callot, 1973, p.4)

Ex. Population d’une ville => ensemble étudié.         Unité statistique => habitant

Les synonymes : Univers statistique = population =ensemble statistique

Le protocole statistique définit l’espace d’observation, par exemple, le sexe, l’age et l’état matrimonial  des habitants qu’on enregistre de façon quelconque.

On peut parler aussi de l’effective,  à savoir, – du nombre d’unités statistique que l’univers statistique comporte.

 

Caractère (variable)

Dans l’exemple ci-dessus on a introduit tacitement le concept de critère permettant d’identifier univers statistique à la base d'un attribut dont les unités statistiques possèdent.  
Autrement dit, on observe un univers statistique du point de vue d’un ou de plusieurs caractères dont les unités d’observation possèdent.

Exemples des caractères :

        le lieu de résidence permanente ;

        le sexe ;

        l’âge ;

        la qualification ;

        le nombre d’enfant à charge ;

        etc.

 
Modalités (variant, niveaux

« Chacun des caractères étudiés peut présenter deux ou plusieurs modalités. Les modalités sont différentes situations où les individus peuvent se trouver à égard du caractère considéré. 
Les modalités d’un même caractère sont à la fois incompatibles et exhaustives : chaque individu de la population présent une et une seulement des modalité du caractère envisagé. » (Callot, 1973, p.5)

On appelle « dichotomiques » les caractères plus simple ne comportent que deux modalités :

  •  un étudiant peut être du sexe masculin ou féminin

  • un étudiant peut avoir plus ou moins de 25 ans

Le nombre des modalités d’un caractère varie selon le degré de détail, par exemple, état matrimonial peut comporter suivant le cas :

  • deux modalités : marié, non marié ;

  • trois modalités : célibataire, marié, veuf ou divorcé ;

  • quatre modalités :          célibataire, marié, veuf, divorcé ;

  • cinq modalités :  célibataire, marié, veuf, divorcé, non déclaré ;

etc. (premier mariage….)

De nouveau :  On appelle « effectif » le nombre d’individus qui correspondent à une modalité du caractère (ou à quelques-unes d’entre elles réunies).

 
Caractères qualitatifs

Un caractère est considéré « qualitatif » lorsque il n’est pas mesurable et il n’y a, a priori, aucune hiérarchie entre ses modalités, même s’il est d’usage de les énumérer dans un certain ordre, plus ou moins conventionnel.

Exemple des caractères qualitatifs :

        le sexe ;

        la nationalité ;

        la profession ;

        l’état matrimonial ;

        la couleur ;

        à continuer…

Les modalités d’un caractère qualitatif ne permettent que de distinguer et de classifier les unités sans aucune hiérarchie

 

Nomenclature,
rubriques


Les rubriques
d’une nomenclature sont des modalités d’un caractère qualitatif. Or une nomenclature est toujours établie de telle façon que chaque individu d’une population puisse  être rattaché à une et une seulement des rubriques. Donc les rubriques d’une nomenclature sont toujours incompatibles et exhaustives.

Exemple de la nomenclature :

1. Les catégories socio-professionnelles de l’INSEE

2. Modalités de l'état matrimonial comme nomenclature.

 

 

Caractères quantitatifs

Lorsque les modalités d’un caractère sont mesurables (1 et 2) ou repérables (les degrés Celsius – °C), il est considéré « quantitatif ». Autrement dit, il existe un nombre correspondant à chacune des modalités d’un caractère  quantitatif.

Les exemples des caractères quantitatifs :

 –        l’âge ;

        le poids ;

        la taille ;

        le nombre d’enfants ;

        la surface et le nombre de pièces dans un logement ;

        l’étendue des exportations agricoles ;

        etc.

En fait, les modalités d’un caractère quantitatif sont différentes valeurs possibles permettant non seulement de distinguer les unités statistiques, mais aussi d’établir leur hiérarchie non arbitraire

 

Variable statistique 

Le nombre correspondant à la modalité d’un caractère quantitatif se varie d’une unité statistique à l’autre. C’est pourquoi on l’appelle « variable statistique ».  Les valeurs d’une variable statistique sont des modalités d’un caractère quantitatif.

Aujourd’hui il est d’usage d’appliquer le terme « variable » à tous les caractères qu’ils soient quantitatifs ou qualitatifs. On parle tout simplement des variables qualitatives ou des variables quantitatives. Un tel langage courant n’est qu’une sorte d’argot utilisé par les statisticiens puisque les caractères qualitatifs et ceux quantitatifs se ressemblent comme deux gouttes d’eau, après être numérisés pour l’analyse statistique

En fait, dans la statistique d’aujourd’hui on utilise les termes :

  • variables alfa numérique = variables qualitatives = variables nominales ;

  •  variables numériques comprenant celles ordinal, d’intervalle et de rapports ;

 
Variables statistiques discrètes

Une variable statistique est dite « discrète » (ou discontinue) lorsque ses valeurs possibles d’une variable sont les nombres isolés (le plus souvent ce sont les nombres entiers) :

  •         le nombre de frères et de sœurs

  •         le nombre de pièces dans un logement

  •         le nombre d’employés dans une entreprise

  •         l’âge exprimé en années révolues 

 
Variables statistiques continues

Une variable statistique est dite « continue » si elle peut prendre à priori un nombre infini de valeurs dans un intervalle quelconque.

  • le diamètre d’une pièce

  • la température d’un corps

  • l’âge exact d’une personne exprimé en années, dixièmes, centièmes, etc. d’année.

 

Passage d’un type variable à l’autre

Comme le type d’une variable détermine en partie son mode de traitement dans l’analyse statistique, il est parfois intéressant et utile de passer d’un type à l’autre.

 
De Qualitative
 à
 Quantitative

Par définition, le passage d’une variable qualitative à en celle quantitative n’est jamais possible. Cependant, on peut tenter de « quantifier » certains caractères qualitatifs en attribuant d’une façon plus ou moins arbitraire à leurs modalités les valeurs d’une variable quantitative qui, en fait, n’est pas présente dans l’observation.
Par exemple, on peut attribuer aux catégories socio–professionnelles les valeurs ordonnées correspondantes à une durée imaginaire de la formation. Ainsi, on peut synthétiser un indice représentant le niveau de développement qui, à son tour, permet de comparer les régions ou les pays, ou de l’utiliser en qualité d’une variable explicative dans des modèles. Donc, pour « quantifier » un caractère qualitatif il faut impérativement introduire un principe d’ordonner ses modalités. Ce qui n’est pas toujours évident.
 

 

De Quantitative
à
Qualitative

Catégorisation

Au contraire, il est bien facile de transformer une variable quantitative en une variable qualitative en regroupant des valeurs et en considérant les groupes comme les modalités d’un caractère qualitatif.  Cette opération dite « catégorisation » est toujours possible, en plus,  elle est intégrée pratiquement dans tous les logiciels d’analyse statistique. Par exemple, on peut regrouper les individus d’une population humaine selon la taille du corps en deux catégories : moins de 1m et 70 cm et 1m 70 cm ou plus (la taille du corps humain est une variable quantitative et continue)

Exemples des réductions :

  • les résultats à un examen dans les systèmes « de points » peuvent être réduits a des catégories : « refusé », « admis mention passable »,  « admis mention assez bien »,  « admis mention excellent » ;

  • age d’une personne en trois postes : moins de 20 ans ; 20 à moins de 65 ans, 65 ans ou plus (= jeunes ; adultes ; personnes âgées) ;

  • l’époque de construction d’un logement : 1980 ou avant, 1981 ou après (anciens, récents) ;

La catégorisation est un moyen de réduire les données réelles pour construire les tableaux ou pour la représentation graphiques des données.

 
Méthodes de catégorisation:

Intervalles

Extrémités

Amplitude

Il existe deux approches générales pour trancher  un ensemble de valeurs possibles d’une variable statistique continue :

1. Définir les classes (ou des tranches) avec une amplitude constante

Ce type de découpage est souvent utilisé pour simplifier la perception des données groupées (p.ex. les tranches de salaires avec l’amplitudes de 100 euros) ainsi que dans le cas d’existence d’un découpage conventionnel (p.ex. groups d’âge dans la démographie – voir Base de données OMS : causes de décès).
Chaque classe a ses extrémités (les bornes d’intervalle) dont la différence est dite l’amplitude.  Ainsi dans la classe (intervalle) de salaire de 1000 à moins de 1100 euros, les extrémités sont 1000 et 1100, l’amplitude est 100 et le centre d’intervalle est 1050 euros.

Parfois une extrémité de la première et/ou de la dernière classe n’est pas déterminée. Par exemple, le salaire inférieur de 1000 euros (implicitement il peut se varier de 0 à 999 euros) ; ou l’âge 75 ans ou plus (implicitement il peut aller jusqu’à l’infini). Telles classes sont dites « classes ouvertes ».

2. Partager les unités statistiques ordonnées en groupes dont les effectifs soient à peu près égaux.

« Lorsqu’on définit un découpage, le nombre des classes à retenir dépend de la précision des mesures effectuées et de l’effectif de la population. Un découpage comportant un nombre élevé des classes risque de faire apparaître des irrégularités accidentelles en raison d’effectif par classe trop faibles. Au contraire, un nombre trop limité de classes conduit à une perte d’information. » (Callot, 1973, p.9)

Pour réconcilier les deux approches on retient notamment en domaine économique et démographique des classes d’amplitudes variables. Le plus souvent l’amplitude des classes est consécutivement croissante.

 
  Méthode formelle de découpage  
Définir l’amplitude ou le nombre d’intervalles

Il arrive souvent qu’à priori il n’y aucun indice permettant d’établir le principe de découpage. Par exemple, nous avons 200 (2000) pièces étudiées dont diamètre varie de 49,961 mm à 49.918 mm.  Dans ce cas il est possible de définir l’amplitude optimale des classes avec la formule suivante :

                          

où        k – amplitude optimale des classes ;
            n
– effectif total de la population ;
            xmin – la limite supérieur de valeur observée
            xmin – la limite inférieur de valeur observée

Respectivement, le nombre des classes (m) :       

Donc la solution du problème est :    

 

Le graphique ci-dessous nous montre que cette simple formule tient bien compte à l’effectif de la population : on voit que l’effectif s'accroît en progression géométrique tandis que celui d'intervalle s'accroît en progression arithmétique.

 

 
Partager un intervalle

Parfois nous ne possédons que des données qui sont déjà irréversiblement groupées, tandis que il nous faut de diviser une des classes données en deux parties.

  Nombre de pièces fabriquées durant une journée de travail (intervalles)

Nombre d’ouvriers
 (effectif ou fréquence)

50-70

2

75-100

18

100-125

32

125-150

30

150-175

11

175-200

6

200 ou plus

1

Total

100

Il nous faut trouver le nombre d’ouvriers qui fabriquent de 100 à 120 pièces par jour, c’est-à-dire de diviser l’effectif de la classe 100-125 en deux parties : ceux qui fabriquent 100-120 et ceux qui fabriquent 120-125.  Il est évident, la proportion de classe 100-125 qui nous intéresse - Q est égale :

 

L’autre partie de classe est égale 1 – Q = 1–0.8 = 0.2

Respectivement l’effectif se divise en FQ0 et F – FQ0 .

Comme l’amplitude de nos classes dans cet exemple est constante on peut utiliser la formule suivante (en supposant que la densité de la série  varie comme la parabole) :

où        A –      effectif de la classe précédente ;

            B –      effectif de la classe à diviser ;

            C –      effectif de la classe suivante ;

DF-1 –  accroissement, augmentation, incrément de l’effectif dans la classe B par rapport de celui de classe A (DF-1 = B–A)

D2F-1–  deuxième incrément de l’effectif [D2F-1= (C–B) – (B–A) = C – 2B+ A]

Or la solution :

Q = 0.8 ;         A=18 ;             B=32 ;             C=30 ;

DF-1 = 32–18 = 14 ;                D2F-1= 30 – 2•32 + 18 = –16

 

Donc les 25 ouvriers fabriquent entre 100 et 120 pièces par jour et les 7 ouvriers fabriquent 120-125.