Estimation d’une proportionModifier
Une situation relativement simple est l’estimation d’une proportion. Par exemple, nous pouvons souhaiter estimer la proportion de résidents d’une communauté qui ont au moins 65 ans.
L’estimateur d’une proportion est p ^ = X / n {\displaystyle {\hat {p}}=X/n}.
, où X est le nombre d’observations » positives » (par exemple, le nombre de personnes parmi les n personnes échantillonnées qui ont au moins 65 ans). Lorsque les observations sont indépendantes, cet estimateur a une distribution binomiale (mise à l’échelle) (et est également la moyenne d’échantillon des données d’une distribution de Bernoulli). La variance maximale de cette distribution est de 0,25n, ce qui se produit lorsque le véritable paramètre est p = 0,5. En pratique, puisque p est inconnu, la variance maximale est souvent utilisée pour évaluer la taille de l’échantillon. Si une estimation raisonnable de p est connue, la quantité p ( 1 – p ) {\displaystyle p(1-p)}.
peut être utilisée à la place de 0,25.
Pour un n suffisamment grand, la distribution de p ^ {\displaystyle {\hat {p}}}.
sera étroitement approximée par une distribution normale. En utilisant celle-ci et la méthode de Wald pour la distribution binomiale, on obtient un intervalle de confiance de la forme ( p ^ – Z 0.25 n , p ^ + Z 0.25 n ) {\displaystyle \left({\widehat {p}}-Z{\sqrt {\frac {0.25}{n}},\quad {\widehat {p}}+Z{\sqrt {\frac {0.25}{n}}} droite)}
, où Z est un score Z standard pour le niveau de confiance souhaité (1,96 pour un intervalle de confiance de 95 %). Si nous souhaitons avoir un intervalle de confiance d’une largeur totale de W unités (W/2 de chaque côté de la moyenne de l’échantillon), nous résoudrons Z 0,25 n = W / 2 {\displaystyle Z{\sqrt {\frac {0.25}{n}}}=W/2}
pour n, ce qui donne la taille de l’échantillon
n = Z 2 W 2 {\displaystyle n={\frac {Z^{2}}{W^{2}}}}
, dans le cas de l’utilisation de 0,5 comme estimation la plus prudente de la proportion. (Remarque : W/2 = marge d’erreur.)
Sinon, la formule serait Z p ( 1 – p ) n = W / 2 {\displaystyle Z{\sqrt {\frac {p(1-p)}{n}}}=W/2}
, ce qui donne n = 4 Z 2 p ( 1 – p ) W 2 {\displaystyle n={\frac {4Z^{2}p(1-p)}{W^{2}}}}
.
Par exemple, si nous souhaitons estimer la proportion de la population américaine qui soutient un candidat présidentiel particulier, et que nous voulons que la largeur de l’intervalle de confiance à 95 % soit au maximum de 2 points de pourcentage (0,02), il nous faudrait une taille d’échantillon de (1,962)/(0,022) = 9604. Il est raisonnable d’utiliser l’estimation de 0,5 pour p dans ce cas, car les courses présidentielles sont souvent proches de 50/50, et il est également prudent d’utiliser une estimation conservatrice. La marge d’erreur dans ce cas est de 1 point de pourcentage (la moitié de 0,02).
Ce qui précède est communément simplifié….
( p ^ – 1.96 0.25 n , p ^ + 1.96 0.25 n ) {\displaystyle \left({\widehat {p}}-1.96{\sqrt {\frac {0.25}{n}},{\widehat {p}}+1.96{\sqrt {\frac {0.25}{n}}}\right)}
formera un intervalle de confiance à 95% pour la proportion réelle. Si cet intervalle doit avoir une largeur maximale de W unités, l’équation
4 0,25 n = W {\displaystyle 4{\sqrt {\frac {0,25}{n}}}=W}.
peut être résolue pour n, ce qui donne n = 4/W2 = 1/B2 où B est la limite d’erreur sur l’estimation, c’est-à-dire, l’estimation est généralement donnée comme étant à l’intérieur de ± B. Ainsi, pour B = 10 %, il faut n = 100, pour B = 5 %, il faut n = 400, pour B = 3 %, l’exigence se rapproche de n = 1000, tandis que pour B = 1 %, une taille d’échantillon de n = 10000 est nécessaire. Ces chiffres sont souvent cités dans les reportages sur les sondages d’opinion et autres enquêtes par sondage. Cependant, il faut toujours se rappeler que les résultats rapportés peuvent ne pas correspondre à la valeur exacte, car les chiffres sont de préférence arrondis. Sachant que la valeur du n est le nombre minimum de points d’échantillonnage nécessaires pour acquérir le résultat souhaité, le nombre de répondants doit alors se situer sur ou au-dessus du minimum.
Estimation d’une moyenneEdit
Une proportion est un cas particulier de moyenne. Lorsque l’on estime la moyenne de la population à l’aide d’un échantillon indépendant et identiquement distribué (iid) de taille n, où chaque valeur de données a une variance σ2, l’erreur standard de la moyenne de l’échantillon est :
σ n . {\displaystyle {\frac {\sigma }{\sqrt {n}}.}
Cette expression décrit quantitativement comment l’estimation devient plus précise à mesure que la taille de l’échantillon augmente. En utilisant le théorème central limite pour justifier l’approximation de la moyenne de l’échantillon avec une distribution normale, on obtient un intervalle de confiance de la forme
( x ¯ – Z σ n , x ¯ + Z σ n ) {\displaystyle \left({\bar {x}}-{\frac {Z\sigma }{\sqrt {n}},\quad {\bar {x}}+{\frac {Z\sigma }{\sqrt {n}}} droite)}
, où Z est un score Z standard pour le niveau de confiance souhaité (1.96 pour un intervalle de confiance de 95 %).
Si nous souhaitons avoir un intervalle de confiance dont la largeur totale est de W unités (W/2 de chaque côté de la moyenne de l’échantillon), nous résoudrons
Z σ n = W / 2 {\displaystyle {\frac {Z\sigma }{\sqrt {n}}}=W/2}
pour n, ce qui donne la taille de l’échantillon
n = 4 Z 2 σ 2 W 2 {\displaystyle n={\frac {4Z^{2}\sigma ^{2}}{W^{2}}}}
. (Remarque : W/2 = marge d’erreur.)
Par exemple, si l’on souhaite estimer la quantité par laquelle un médicament abaisse la pression artérielle d’un sujet avec un intervalle de confiance de 95 % d’une largeur de six unités, et que l’on sait que l’écart-type de la pression artérielle dans la population est de 15, la taille d’échantillon requise est de 4 × 1.96 2 × 15 2 6 2 = 96,04 {\displaystyle {\frac {4\times 1.96^{2}\times 15^{2}}{6^{2}}}=96.04}
, qui serait arrondi à 97, car la valeur obtenue est la taille minimale de l’échantillon, et les tailles d’échantillon doivent être des entiers et doivent se situer sur ou au-dessus du minimum calculé.