Schatting van een proportieEdit
Een betrekkelijk eenvoudige situatie is de schatting van een aandeel. We willen bijvoorbeeld schatten welk deel van de inwoners van een gemeenschap minstens 65 jaar oud is.
De schatter van een proportie is p ^ = X / n {\displaystyle {{p}}=X/n}
, waarbij X het aantal “positieve” waarnemingen is (bijvoorbeeld het aantal mensen uit de n bemonsterde mensen dat ten minste 65 jaar oud is). Wanneer de waarnemingen onafhankelijk zijn, heeft deze schatter een (geschaalde) binomiale verdeling (en is hij ook het steekproefgemiddelde van gegevens uit een Bernoulli verdeling). De maximale variantie van deze verdeling is 0,25n, hetgeen zich voordoet als de ware parameter p = 0,5 is. Aangezien p onbekend is, wordt in de praktijk vaak de maximale variantie gebruikt om de steekproefgrootte te bepalen. Als een redelijke schatting voor p bekend is, is de grootheid p ( 1 – p ) {Displaystyle p(1-p)}
kan worden gebruikt in plaats van 0,25.
Voor voldoende grote n is de verdeling van p ^ {{displaystyle {p}}
dicht benaderd worden door een normale verdeling. Gebruik hiervan en van de Wald methode voor de binomiale verdeling, levert een betrouwbaarheidsinterval op van de vorm ( p ^ – Z 0.25 n , p ^ + Z 0.25 n ) {\left({widehat {p}}-Z{\sqrt {\frac {0.25}{n}}},\quad {widehat {p}}+Z{\sqrt {\frac {0.25}{n}}}}
, waarbij Z een standaard Z-score is voor het gewenste betrouwbaarheidsniveau (1,96 voor een betrouwbaarheidsinterval van 95%).
Als we een betrouwbaarheidsinterval willen met een totale breedte van W eenheden (W/2 aan elke kant van het steekproefgemiddelde), lossen we
Z 0,25 n = W / 2 {\displaystyle Z{\sqrt {\frac {0.25}{n}}=W/2}
voor n, wat de steekproefgrootte oplevert
n = Z 2 W 2 {{\displaystyle n={\frac {Z^{2}}{W^{2}}}}
, in het geval van het gebruik van .5 als de meest conservatieve schatting van de proportie. (Opmerking: W/2 = foutenmarge.)
Anders zou de formule zijn Z p ( 1 – p ) n = W / 2 {{\displaystyle Z{\sqrt {\frac {p(1-p)}{n}}=W/2}
, waaruit volgt n = 4 Z 2 p ( 1 – p ) W 2 {{\displaystyle n={\frac {4Z^{2}p(1-p)}{W^{2}}}}
.
Als we bijvoorbeeld willen schatten welk deel van de bevolking van de VS een bepaalde presidentskandidaat steunt en we willen dat het 95%-betrouwbaarheidsinterval maximaal 2 procentpunten (0,02) breed is, dan hebben we een steekproefgrootte nodig van (1,962)/(0,022) = 9604. Het is redelijk om in dit geval de 0,5 schatting voor p te gebruiken omdat de presidentsverkiezingen vaak dicht bij 50/50 liggen, en het is ook verstandig om een voorzichtige schatting te gebruiken. De foutmarge is in dit geval 1 procentpunt (de helft van 0,02).
Het voorgaande wordt meestal vereenvoudigd…
( p ^ – 1,96 0,25 n , p ^ + 1,96 0,25 n ) {Displaystyle \left({widehat {p}}-1,96{\sqrt {\frac {0.25}{n}},{widehat {p}}+1.96{\sqrt {\frac {0.25}{n}}}}rechts)}
het betrouwbaarheidsinterval van 95% voor de ware proportie. Als dit interval niet meer dan W eenheden breed moet zijn, is de vergelijking
4 0,25 n = W {\displaystyle 4{\sqrt {0,25}{n}}=W}
kan worden opgelost voor n, wat n = 4/W2 = 1/B2 oplevert, waarbij B de foutgrens van de schatting is, d.w.z., voor B = 10% is dus n = 100 vereist, voor B = 5% n = 400, voor B = 3% n = 1000, terwijl voor B = 1% een steekproefgrootte van n = 10000 vereist is. Deze getallen worden vaak genoemd in nieuwsberichten over opiniepeilingen en andere steekproefenquêtes. Bedenk echter altijd dat de gerapporteerde resultaten mogelijk niet de exacte waarde zijn, aangezien getallen bij voorkeur naar boven worden afgerond. In de wetenschap dat de waarde van de n het minimum aantal steekproefpunten is dat nodig is om het gewenste resultaat te verkrijgen, moet het aantal respondenten dan op of boven het minimum liggen.
Schatting van een gemiddeldeEdit
Een proportie is een speciaal geval van een gemiddelde. Bij schatting van het populatiegemiddelde met behulp van een onafhankelijk en identiek verdeelde (iid) steekproef van grootte n, waarbij elke gegevenswaarde variantie σ2 heeft, is de standaardfout van het steekproefgemiddelde:
σ n . {\displaystyle {\frac {\sigma }{\sqrt {n}}.}
Deze uitdrukking beschrijft kwantitatief hoe de schatting nauwkeuriger wordt naarmate de steekproefgrootte toeneemt. Gebruikmaking van de centrale limiettheorema om de benadering van het steekproefgemiddelde met een normale verdeling te rechtvaardigen, levert een betrouwbaarheidsinterval op van de vorm
( x ¯ – Z σ n , x ¯ + Z σ n ) {\displaystyle \left({{\bar {x}}-{\frac {Z\sigma }{\sqrt {n}}},\quad {bar {x}}+{\frac {Z\sigma }{\sqrt {n}}} rechts)}
, waarbij Z een standaard Z-score is voor de gewenste mate van betrouwbaarheid (1.96 voor een 95% betrouwbaarheidsinterval).
Als we een betrouwbaarheidsinterval willen hebben dat in totaal W eenheden breed is (W/2 aan elke kant van het steekproefgemiddelde), zouden we
Z σ n = W / 2 {{\displaystyle {\frac {Z\sigma }{\sqrt {n}}=W/2}
voor n, wat de steekproefgrootte oplevert
n = 4 Z 2 σ 2 W 2 {Displaystyle n={\frac {4Z^{2}sigma ^{2}}{W^{2}}}}
. (Opmerking: W/2 = foutmarge.)
Als we bijvoorbeeld willen schatten met hoeveel een geneesmiddel de bloeddruk van een proefpersoon verlaagt met een betrouwbaarheidsinterval van 95% dat zes eenheden breed is, en we weten dat de standaardafwijking van de bloeddruk in de populatie 15 is, dan is de vereiste steekproefgrootte 4 × 1.96 2 × 15 2 6 2 = 96,04 {\displaystyle {\frac {4 maal 1,96^{2} maal 15^{2}}{6^{2}}=96,04}
, wat naar boven afgerond zou worden op 97, omdat de verkregen waarde de minimale steekproefgrootte is, en steekproefgroottes gehele getallen moeten zijn en op of boven het berekende minimum moeten liggen.