Uppskattning av en andelRedigera
En relativt enkel situation är uppskattning av en proportion. Vi kan till exempel vilja uppskatta andelen invånare i ett samhälle som är minst 65 år gamla.
Skattaren av en andel är p ^ = X / n {\displaystyle {\hat {p}}=X/n}.
, där X är antalet ”positiva” observationer (t.ex. antalet personer av de n utvalda som är minst 65 år gamla). När observationerna är oberoende har denna skattare en (skalad) binomialfördelning (och är också stickprovsmedelvärdet för data från en Bernoulli-fördelning). Den maximala variansen för denna fördelning är 0,25n, vilket inträffar när den sanna parametern är p = 0,5. I praktiken, eftersom p är okänd, används ofta den maximala variansen för bedömningar av urvalsstorleken. Om en rimlig uppskattning av p är känd, kan kvantiteten p ( 1 – p ) {\displaystyle p(1-p)}
kan användas i stället för 0,25.
För tillräckligt stora n är fördelningen av p ^ {\displaystyle {\hat {p}}}
kommer att närma sig en normalfördelning. Genom att använda denna och Wald-metoden för binomialfördelningen får man ett konfidensintervall av formen ( p ^ – Z 0,25 n , p ^ + Z 0,25 n ) {\displaystyle \left({\widehat {p}}-Z{\sqrt {\frac {\frac {0,25}{n}}},\quad {\widehat {p}}+Z{\sqrt {\frac {\0.25}{n}}}\right)}
, där Z är en standard Z-score för den önskade konfidensnivån (1,96 för ett konfidensintervall på 95 %).
Om vi vill ha ett konfidensintervall som är W-enheter totalt sett i bredd (W/2 på varje sida av provets medelvärde), skulle vi lösa
Z 0,25 n = W / 2 {\displaystyle Z{\sqrt {\frac {\frac {0.25}{n}}}=W/2}
För n, vilket ger stickprovsstorleken
n = Z 2 W 2 {\displaystyle n={\frac {Z^{2}}}{W^{2}}}}
, i fallet att använda 0,5 som den mest konservativa uppskattningen av andelen. (Anmärkning: W/2 = felmarginal.)
I annat fall skulle formeln vara Z p ( 1 – p ) n = W / 2 {\displaystyle Z{\sqrt {\frac {p(1-p)}{n}}}=W/2}
, vilket ger n = 4 Z 2 p ( 1 – p ) W 2 {\displaystyle n={\frac {4Z^{2}p(1-p)}{W^{2}}}}
.
Om vi till exempel är intresserade av att uppskatta hur stor andel av den amerikanska befolkningen som stöder en viss presidentkandidat, och vi vill att bredden på det 95-procentiga konfidensintervallet ska vara högst 2 procentenheter (0,02), skulle vi behöva ett urval på (1,962)/(0,022) = 9604. Det är rimligt att använda uppskattningen 0,5 för p i det här fallet eftersom presidentvalen ofta är nära 50/50, och det är också klokt att använda en försiktig uppskattning. Felmarginalen i detta fall är 1 procentenhet (hälften av 0,02).
Ovanstående är vanligen förenklat…
( p ^ – 1.96 0.25 n , p ^ + 1.96 0.25 n ) {\displaystyle \left({\widehat {p}}}-1.96{\sqrt {\frac {0.25}{n}}},{\widehat {p}}}+1.96{\sqrt {\frac {0.25}{n}}}}\right)}
bildar ett 95-procentigt konfidensintervall för den sanna andelen. Om detta intervall inte behöver vara mer än W enheter brett, kan ekvationen
4 0,25 n = W {\displaystyle 4{\sqrt {\frac {\frac {0,25}{n}}}=W}
kan lösas för n, vilket ger n = 4/W2 = 1/B2 där B är felgränsen på uppskattningen, dvs, uppskattningen brukar anges som inom ± B. Så för B = 10 % krävs n = 100, för B = 5 % krävs n = 400, för B = 3 % är kravet ungefär n = 1000, medan det för B = 1 % krävs en provstorlek på n = 10000. Dessa siffror nämns ofta i nyhetsrapporter om opinionsundersökningar och andra urvalsundersökningar. Kom dock alltid ihåg att de resultat som rapporteras kanske inte är det exakta värdet eftersom siffrorna företrädesvis avrundas uppåt. Eftersom man vet att värdet på n är det minsta antalet urvalspunkter som behövs för att få det önskade resultatet, måste antalet respondenter då ligga på eller över miniminivån.
Uppskattning av ett medelvärdeRedigera
En andel är ett specialfall av ett medelvärde. När man uppskattar populationens medelvärde med hjälp av ett oberoende och identiskt fördelat (iid) urval av storlek n, där varje datavärde har varians σ2, är standardfelet för urvalets medelvärde:
σ n . {\displaystyle {\frac {\sigma }{\sqrt {n}}}}.}
Detta uttryck beskriver kvantitativt hur skattningen blir mer exakt när urvalsstorleken ökar. Genom att använda det centrala gränsvärdessatsen för att motivera att approximera provets medelvärde med en normalfördelning får man ett konfidensintervall av formen
( x ¯ – Z σ n , x ¯ + Z σ n ) {\displaystyle \left({\bar {x}}}-{\frac {Z\sigma }{\sqrt {n}}},\quad {\bar {x}}+{\frac {Z\sigma }{\sqrt {n}}}\right)}
, där Z är en standard Z-score för den önskade konfidensnivån (1.96 för ett 95-procentigt konfidensintervall).
Om vi vill ha ett konfidensintervall som är W-enheter totalt sett i bredd (W/2 på varje sida av provets medelvärde), skulle vi lösa
Z σ n = W / 2 {\displaystyle {\frac {Z\sigma }{\sqrt {n}}}=W/2}
för n, vilket ger provstorleken
n = 4 Z 2 σ 2 W 2 {\displaystyle n={\frac {4Z^{2}\sigma ^{2}}}{W^{2}}}}
. (Anmärkning: W/2 = felmarginal.)
Om vi till exempel är intresserade av att uppskatta hur mycket ett läkemedel sänker blodtrycket hos en försöksperson med ett 95-procentigt konfidensintervall som är sex enheter brett, och vi vet att standardavvikelsen för blodtrycket i populationen är 15, är den erforderliga stickprovsstorleken 4 × 1.96 2 × 15 2 6 2 = 96.04 {\displaystyle {\frac {4\times 1.96^{2}\times 15^{2}}}{6^{2}}}=96.04}}
, vilket skulle avrundas uppåt till 97, eftersom det erhållna värdet är den minsta stickprovsstorleken, och stickprovsstorlekarna måste vara heltal och ligga på eller över det beräknade minimum.