Site d'Alexandre Avdeev pour les étudiants en démographie Elements de la statistique descriptive |
||
|
|
Gérard Calot Gérard Calot –
Cours de la statistique descriptive –2e édition. |
||||||||||||||||||||
Univers Espace d'observation Effectif |
« Les ensembles étudiés par la Statistique Descriptive portent le nom général d’univers statistique ou de population. Leurs éléments sont les unités statistiques ou individus. Cette terminologie, que la statistique a héritée de son premier champ d’action : la démographie, s’applique aussi bien à des ensembles de personnes humaines qu’à des ensembles d’objets concrets ou abstraits : personnel d’un établissement, clientèle d’un magasin, population de la France ; production d’un atelier, parc d’automobile d’une société ; ensemble des années écoulées depuis 1950, ensemble des accidents survenus au cours d’une période etc. » (Callot, 1973, p.4) Ex. Population d’une ville => ensemble étudié. Unité statistique => habitant Les synonymes : Univers statistique = population =ensemble statistique Le protocole statistique définit l’espace d’observation, par exemple, le sexe, l’age et l’état matrimonial des habitants qu’on enregistre de façon quelconque. On peut parler aussi de l’effective, à savoir, – du nombre d’unités statistique que l’univers statistique comporte. |
|
||||||||||||||||||
Caractère (variable) |
Dans l’exemple
ci-dessus on a introduit tacitement le concept de critère permettant
d’identifier univers statistique à la base d'un attribut dont les
unités statistiques possèdent. Exemples des caractères : – le lieu de résidence permanente ; – le sexe ; – l’âge ; – la qualification ; – le nombre d’enfant à charge ; – etc. |
|||||||||||||||||||
Modalités (variant, niveaux |
« Chacun
des caractères étudiés peut présenter deux ou plusieurs
modalités. Les modalités sont différentes situations où les
individus peuvent se trouver à égard du caractère considéré. On appelle « dichotomiques » les caractères plus simple ne comportent que deux modalités :
Le nombre des modalités d’un caractère varie selon le degré de détail, par exemple, état matrimonial peut comporter suivant le cas :
etc. (premier mariage….) De nouveau : On appelle « effectif » le nombre d’individus qui correspondent à une modalité du caractère (ou à quelques-unes d’entre elles réunies). |
|||||||||||||||||||
Caractères qualitatifs |
Un caractère est considéré « qualitatif » lorsque il n’est pas mesurable et il n’y a, a priori, aucune hiérarchie entre ses modalités, même s’il est d’usage de les énumérer dans un certain ordre, plus ou moins conventionnel. Exemple des caractères qualitatifs : – le sexe ; – la nationalité ; – la profession ; – l’état matrimonial ; – la couleur ; – à continuer… Les modalités d’un caractère qualitatif ne permettent que de distinguer et de classifier les unités sans aucune hiérarchie |
|||||||||||||||||||
Nomenclature, rubriques |
Exemple de la nomenclature : 1. Les catégories socio-professionnelles de l’INSEE 2. Modalités de l'état matrimonial comme nomenclature.
|
|||||||||||||||||||
Caractères quantitatifs |
Lorsque les modalités d’un caractère sont mesurables (1 et 2) ou repérables (les degrés Celsius – °C), il est considéré « quantitatif ». Autrement dit, il existe un nombre correspondant à chacune des modalités d’un caractère quantitatif. Les exemples des caractères quantitatifs : – l’âge ; – le poids ; – la taille ; – le nombre d’enfants ; – la surface et le nombre de pièces dans un logement ; – l’étendue des exportations agricoles ; – etc. En fait, les modalités d’un caractère quantitatif sont différentes valeurs possibles permettant non seulement de distinguer les unités statistiques, mais aussi d’établir leur hiérarchie non arbitraire |
|||||||||||||||||||
Variable statistique |
Le nombre correspondant à la modalité d’un caractère quantitatif se varie d’une unité statistique à l’autre. C’est pourquoi on l’appelle « variable statistique ». Les valeurs d’une variable statistique sont des modalités d’un caractère quantitatif. Aujourd’hui il est d’usage d’appliquer le terme « variable » à tous les caractères qu’ils soient quantitatifs ou qualitatifs. On parle tout simplement des variables qualitatives ou des variables quantitatives. Un tel langage courant n’est qu’une sorte d’argot utilisé par les statisticiens puisque les caractères qualitatifs et ceux quantitatifs se ressemblent comme deux gouttes d’eau, après être numérisés pour l’analyse statistique En fait, dans la statistique d’aujourd’hui on utilise les termes :
|
|||||||||||||||||||
Variables statistiques discrètes |
Une variable statistique est dite « discrète » (ou discontinue) lorsque ses valeurs possibles d’une variable sont les nombres isolés (le plus souvent ce sont les nombres entiers) :
|
|||||||||||||||||||
Variables statistiques continues |
Une variable statistique est dite « continue » si elle peut prendre à priori un nombre infini de valeurs dans un intervalle quelconque.
|
|||||||||||||||||||
Passage d’un type variable à l’autre |
Comme le type d’une variable détermine en partie son mode de traitement dans l’analyse statistique, il est parfois intéressant et utile de passer d’un type à l’autre. |
|||||||||||||||||||
De
Qualitative à Quantitative |
Par définition,
le passage d’une variable qualitative à en celle quantitative n’est jamais
possible.
Cependant, on peut tenter de « quantifier » certains caractères qualitatifs
en attribuant d’une façon plus ou moins arbitraire à leurs modalités les
valeurs d’une variable quantitative qui, en fait, n’est pas présente dans
l’observation. |
|||||||||||||||||||
De Quantitative Catégorisation |
Au contraire, il est bien facile de transformer une variable quantitative en une variable qualitative en regroupant des valeurs et en considérant les groupes comme les modalités d’un caractère qualitatif. Cette opération dite « catégorisation » est toujours possible, en plus, elle est intégrée pratiquement dans tous les logiciels d’analyse statistique. Par exemple, on peut regrouper les individus d’une population humaine selon la taille du corps en deux catégories : moins de 1m et 70 cm et 1m 70 cm ou plus (la taille du corps humain est une variable quantitative et continue) Exemples des réductions :
La catégorisation est un moyen de réduire les données réelles pour construire les tableaux ou pour la représentation graphiques des données. |
|||||||||||||||||||
Méthodes
de catégorisation: Intervalles Extrémités Amplitude |
Il existe deux approches générales pour trancher un ensemble de valeurs possibles d’une variable statistique continue : 1. Définir les classes (ou des tranches) avec une amplitude constante
Ce type de découpage est souvent
utilisé pour simplifier la perception des données groupées (p.ex. les
tranches de salaires avec l’amplitudes de 100 euros) ainsi que dans le cas
d’existence d’un découpage conventionnel (p.ex. groups d’âge dans la
démographie – voir Base de données OMS : causes de décès). 2. Partager les unités statistiques ordonnées en groupes dont les effectifs soient à peu près égaux.
Pour réconcilier les deux approches on retient notamment en domaine économique et démographique des classes d’amplitudes variables. Le plus souvent l’amplitude des classes est consécutivement croissante. |
|||||||||||||||||||
Méthode formelle de découpage | ||||||||||||||||||||
Définir l’amplitude ou le nombre d’intervalles |
Il arrive souvent qu’à priori il n’y aucun indice permettant d’établir le principe de découpage. Par exemple, nous avons 200 (2000) pièces étudiées dont diamètre varie de 49,961 mm à 49.918 mm. Dans ce cas il est possible de définir l’amplitude optimale des classes avec la formule suivante :
où k – amplitude optimale des
classes ; Respectivement, le nombre des classes (m) : Donc la solution du problème est :
Le graphique ci-dessous nous montre que cette simple formule tient bien compte à l’effectif de la population : on voit que l’effectif s'accroît en progression géométrique tandis que celui d'intervalle s'accroît en progression arithmétique.
|
|||||||||||||||||||
Partager un intervalle |
Parfois nous ne possédons que des données qui sont déjà irréversiblement groupées, tandis que il nous faut de diviser une des classes données en deux parties.
Il nous faut trouver le nombre d’ouvriers qui fabriquent de 100 à 120 pièces par jour, c’est-à-dire de diviser l’effectif de la classe 100-125 en deux parties : ceux qui fabriquent 100-120 et ceux qui fabriquent 120-125. Il est évident, la proportion de classe 100-125 qui nous intéresse - Q est égale :
L’autre partie de classe est égale 1 – Q = 1–0.8 = 0.2 Respectivement l’effectif se divise en FQ0 et F – FQ0 . Comme l’amplitude de nos classes dans cet exemple est constante on peut utiliser la formule suivante (en supposant que la densité de la série varie comme la parabole) :
où A – effectif de la classe précédente ; B – effectif de la classe à diviser ; C – effectif de la classe suivante ; DF-1 – accroissement, augmentation, incrément de l’effectif dans la classe B par rapport de celui de classe A (DF-1 = B–A) D2F-1– deuxième incrément de l’effectif [D2F-1= (C–B) – (B–A) = C – 2B+ A] Or la solution : Q = 0.8 ; A=18 ; B=32 ; C=30 ; DF-1 = 32–18 = 14 ; D2F-1= 30 – 2•32 + 18 = –16
Donc les 25 ouvriers fabriquent entre 100 et 120 pièces par jour et les 7 ouvriers fabriquent 120-125. |