Démonstration du théorème central limite (TCL)

le théorème central limite

Introduction

Le théorème central limite (TCL) est un théorème très important en biostatistique. Ce théorème nous dit que, quelle que soit la distribution d’une variable aléatoire X, la somme de cette variable (S(x)), et par extension, la moyenne (moy(x)), puisque la moyenne est une somme divisée par une constant), suivent une distribution normale.

Autrement dit, même si une variable ne suit pas une distribution normale, la moyenne de cette variable suit une distribution normale.

C’est le recours à ce théorème qui nous permet, entre autres, d’estimer l’intervalle de confiance d’une moyenne, en employant la formule :

$$IC = \bar{x} \pm z_{1-\frac{\alpha}{2}}\;\frac{sd(x)}{\sqrt{n}}$$

On parle d’approximation normale de l’intervalle de confiance, puisque le terme Z1_α/2 est le quantile de la loi normale correspondant à la probabilité 1−α/2 .

Pour un intervalle de confiance à 95%, α = 0.05 et le quantile correspondant à la probabilité 0.975 (les 5% sont répartis pour moitié à droite, pour moitié à gauche) est égal à 1.965.

Il est courant d’accepter l’application de ce théorème lorsque le nombre de données est au moins égale à 30 (c’est un chiffre que l’on retrouve souvent, je ne sais pas d’où il vient, et je ne doute que ce nombre soit toujours suffisant).

Démonstration

A partir d’une loi uniforme

Pour cela, nous allons simuler 50 valeurs d’une variable X, selon une loi uniforme, en spécifiant une valeur minimum de 10 et une valeur maximale de 20.

La loi uniforme spécifie que la densité de probabilité est constante sur l’intervalle [min; max]

distribution uniforme

Autrement dit, la probabilité de sélectionner une valeur entre le min et le max spécifiés est la même, elle est constante.

 

Nous allons, à présent, afficher les 6 premières valeurs simulées et visualiser la distribution de l’ensemble des 50 valeurs :

 

échantillon loi uniforme

Comme nous pouvons le voir la distribution de la variable x a plutôt une forme uniforme, et absolument pas normale (on dit aussi gaussienne). Une distribution gaussienne à une forme en cloche comme ceci :

 

échantillon distribution gaussienne

 

Enfin, nous calculons la moyenne (moy(x)):

 

Pour évaluer la distribution de la moyenne de x (moy(x)), une seule valeur n’est pas suffisante ! Il nous faut donc recommencer la simulation d’un échantillon de valeurs un grand nombre de fois (10 000 par exemple), et stocker la moyenne de chaque échantillon dans un vecteur :

 

A présent que la moyenne de chaque échantillon simulé est contenue dans le vecteur, nous allons pouvoir visualiser la distribution de ces moyennes :

distribution de la moyenne d'un échantillon uniforme

 

Nous pouvons voir que les moyennes ont bien une distribution gaussienne !

 

A partir d’une loi log-normale

Essayons, à présent, avec une autre distribution, log-normale par exemple, qui est une distribution asymétrique :

 

distribution selon loi log-normal

Comme attendu, nous pouvons voir que la distribution de la variable x est bien asymétrique, et absolument pas normale.

 

distribution de la moyenne d'un échantillon selon loi log-normal avec n=50

Bien que la distribution ne soit pas parfaitement gaussienne, elle en a globalement la forme.

Si nous augmentons la taille des échantillons générés à 100, nous pouvons voir que la “normalité” s’améliore :

 

distribution de la moyenne d'un échantillon selon loi log-normal avec n=100

La normalité s’améliore encore davantage avec n=200 !

distribution de la moyenne d'un échantillon selon loi log-normal avec n=200

 

 

J’espère que cette petite démonstration vous permettra de mieux comprendre ce théorème central limite, et son implication dans le calcul de l’intervalle de confiance.

 

Si cet article vous a plu, ou vous a été utile, et si vous le souhaitez, vous pouvez soutenir ce blog en faisant un don sur sa page Tipeee 🙏

👉 Cliquez ici pour soutenir le blog Statistiques et Logiciel R

 

Consultez d’autres articles dédiés aux biostatistiques

Partager l'article
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

14 commentaires

  1. DRANON Wenceslas Répondre

    Bonjour Madame.
    Vous accomplissez un travail formidable.
    Vos articles regorgent beaucoup d’intérêt et de pertinence.

    Merci.

  2. Koua TANOH Répondre

    Félicitations, Madame !
    Grâce à vous, je comprends mieux ce théorème.
    Merci beaucoup.

  3. Yoann Répondre

    Hey !

    Merci pour cet article, mais j’ai deux petites questions concernant l’application pratique du théorème.

    1) Mettons que le labo où je bosse me demande une analyse statistique sur les résultats de 100 prélèvements concernant un gène X.

    Les valeurs ne suivent pas une loi normale (on va dire qu’elles sont uniformes). Comme est-ce que le CTL s’applique ? Je ne peux pas générer des valeurs aléatoires pour obtenir plusieurs moyennes comme on le fait ici, puisque je dois travailler sur ces 100 prélèvements.

    2) Dans le cas où l’on peut appliquer le CTL, celui-ci ne sert bien qu’à déterminer les intervalles de confiance n’est-ce pas ? Est-ce que cela ne revient pas au même que de calculer les intervalles de confiance via le SEM ?

    Merci d’avance ^^

    • Claire Della Vedova Auteur de l’articleRépondre

      Hi Yoann,

      1) la moyenne des 100 valeurs suit théoriquement une loi normale. Pas besoin de générer des valeurs aléatoires. Vous allez estimer une moyenne à partir de vos 100 prélèvements, et vous allez utiliser une approximation normale pour estimer l’intervalle de confiance de la moyenne
      2) oui c’est la même chose, c’est une explication de la formule. On utilise cette formule parce que le TCL dit que la moyenne suit une loi normale quelle que soit la distribution de la variable.
      Bonne continuation.

  4. SABRI ASSIA Répondre

    BONJOUR Mme CLAIRE DELLA VEDORA

    Merci Infiniment pour votre collaboration

    veuillez nous informer sur logiciel “R” réseau neurone artificiel

    et merci d’avance

    • Claire Della Vedova Auteur de l’articleRépondre

      Bonjour Sabri Assia,

      à priori, ça ne sera pas pour tout de suite, tout de suite…
      Bonne continuation.

  5. Ibrahima Répondre

    Merci Claire pour cette belle démonstration qui vient nous édifier d’avantage et comme d’habitude.
    Un Grand Merci.

  6. MOISE BASSE Répondre

    Merci beaucoup Claire.

    Bien cordialement, avec toute notre attention.

    Moïse,

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *