Des effectifs par classe aux probabilités continues.
Quelle est la probabilité pour une personne de mesurer exactement 1,70 m ?
Le graphique ci-dessous est tiré d'une étude parue en 1981 sur la taille des français (https://www.persee.fr/doc/estat_0336-1454_1981_num_132_1_4474). La taille est la variable à étudier : on cherche à estimer la distribution des tailles dans la population en interrogeant un échantillon de personnes adultes.
Variable aléatoire discrète
La courbe a été établie à partir des tailles annoncées par les personnes elle-mêmes. Les gens interrogés ont indiqué une taille au centimètre près, ce qui rend ces données discrètes, c'est-à-dire prenant un nombre fini de valeurs, ici des entiers.
Les auteurs ont donc pu calculer un effectif pour chaque valeur donnée, et en divisant par le nombre total de personnes ils en ont déduit des fréquences. Par exemple, 13% des personnes interrogées ont déclaré mesurer 1,70m. La somme des fréquences de toutes les variables données doit être égale à 1.
D'après le graphique en fréquence, il est compliqué de trouver la médiane de la valeur étudiée, il faudrait tracer le graphique en fréquence cumulée.
Variable aléatoire continue
Cette courbe discrète a peu de chances de refléter la distribution réelle. D'une part, la taille est en fait une variable continue, et mesurer exactement 1,70 m est peu probable. D'autre part, on remarque que la courbe est "en dents de scie" : les valeurs multiples de 5 et 10 cm sont plus citées que leurs voisines. Pour proposer une distribution plus réaliste, les auteurs ont lissé la courbe des effectifs pour approcher la fonction de densité . Cette fois, la représentation par une courbe est justifiée.
Par définition de la fonction de densité, l'aire totale sous la courbe est égale à 1, et la probabilité d'avoir une valeur inférieure ou égale à x est égale à l'aire sous la courbe de moins l'infini à x - ici, comme il s'agit d'une taille de personnes adultes, le graphique est restreint à l'intervalle 1,40 - 1,90m.
Notation mathématique
Si on note f la fonction de densité et P(x<X) la probabilité que x soit inférieur (ou égal) à X, la relation entre les deux s'écrit :
P(x<X) = \int_{-\infty}^X f(x)dx
Il est plus facile de trouver la médiane graphiquement : avançons que la moitié des français environ étaient plus grands que 1,70m et l'autre moitié en-dessous
A partir de cette fonction de densité, on peut retrouver la probabilité de "mesurer 1,70m", compris comme la probabilité de mesurer "entre 1,695 et 1,705m", pour prendre en compte la précision de la donnée. Ce sera donc la différence entre la probabilité de mesurer moins de 1,705m et celle de mesurer moins de 1,695m : graphiquement, ce sera la différence entre les deux aires calculées respectivement jusque 1,705 et 1,695 .
P(X_{min}<x<X_{max}) = \int_{X_{min}}^{X_{max}} f(x)dx
figure du document source | figure annotée |
---|---|
![]() |
|
fréquence des tailles discrètes annoncées | lissage et calcul des probabilités à partir des aires sous la courbe |