Określanie liczebności próby

Oszacowanie proporcjiEdit

Główny artykuł: Proporcja populacji

Względnie prostą sytuacją jest szacowanie proporcji. Przykładowo, możemy chcieć oszacować odsetek mieszkańców pewnej społeczności, którzy mają co najmniej 65 lat.

Estymatorem proporcji jest p ^ = X / n {p>

=X/n}.

^hat p = X/n

, gdzie X jest liczbą „pozytywnych” obserwacji (np. liczbą osób z n badanych, które mają co najmniej 65 lat). Gdy obserwacje są niezależne, estymator ten ma rozkład dwumianowy (skalowany) (i jest również średnią próbkową danych z rozkładu Bernoulliego). Maksymalna wariancja tego rozkładu wynosi 0,25n, co ma miejsce, gdy prawdziwy parametr wynosi p = 0,5. W praktyce, ponieważ p jest nieznane, maksymalna wariancja jest często używana do oszacowania wielkości próby. Jeśli znane jest rozsądne oszacowanie dla p, to wielkość p ( 1 – p ) {p(1-p)}

{displaystyle p(1-p)}

może być użyta w miejsce 0,25.

Dla dostatecznie dużego n, rozkład p ^ {{displaystyle {{p}}}

{{hat {p}}

będzie ściśle przybliżony przez rozkład normalny. Wykorzystując to oraz metodę Walda dla rozkładu dwumianowego, otrzymujemy przedział ufności w postaci ( p ^ – Z 0.25 n , p ^ + Z 0.25 n ) {displaystyle }left({widehat {p}}-Z{sqrt {frac {0.25}{n}},}quad {widehat {p}}+Z{sqrt {frac {0.25}{n}}}} right)}

{displaystyle \left({{widehat {p}}-Z{sqrt {{frac {0.25}{n}}},\quad {widehat {p}}+Z{sqrt {{sqrt {{frac {0.25}{n}}}})}

, gdzie Z jest standardowym wynikiem Z dla pożądanego poziomu ufności (1,96 dla 95% przedziału ufności).

Jeśli chcemy mieć przedział ufności, który ma całkowitą szerokość W jednostek (W/2 po każdej stronie średniej z próby), rozwiązalibyśmy

Z 0.25 n = W / 2 {{displaystyle Z{sqrt {{frac {0.25}{n}}}=W/2}

{displaystyle Z{sqrt {{frac {0.25}{n}}}}=W/2}

dla n, uzyskując wielkość próby

n = Z 2 W 2 {{displaystyle n={{frac {Z^{2}}}{W^{2}}}}

{displaystyle n={displayfrac {Z^{2}}}{W^{2}}}}

, w przypadku użycia .5 jako najbardziej konserwatywnego oszacowania proporcji. (Uwaga: W/2 = margines błędu.)

W przeciwnym razie wzór byłby Z p ( 1 – p ) n = W / 2 {{displaystyle Z{sqrt {{frac {p(1-p)}{n}}}=W/2}

{displaystyle Z{sqrt {{frac {p(1-p)}{n}}}=W/2}}

, co daje n = 4 Z 2 p ( 1 – p ) W 2 {{displaystyle n= {{displayfrac {4Z^{2}p(1-p)}{W^{2}}}}

{displaystyle n={displayfrac {4Z^{2}p(1-p)}{W^{2}}}}

.

Na przykład, jeśli jesteśmy zainteresowani oszacowaniem proporcji populacji USA, która popiera określonego kandydata na prezydenta i chcemy, aby szerokość 95% przedziału ufności wynosiła co najwyżej 2 punkty procentowe (0,02), wtedy potrzebowalibyśmy wielkości próby (1,962)/(0,022) = 9604. Rozsądnie jest użyć oszacowania 0,5 dla p w tym przypadku, ponieważ wyścigi prezydenckie są często zbliżone do 50/50, a także rozsądnie jest użyć konserwatywnego oszacowania. Margines błędu w tym przypadku wynosi 1 punkt procentowy (połowa z 0,02).

Powyższe dane można powszechnie uprościć…

( p ^ – 1,96 0,25 n , p ^ + 1,96 0,25 n ) { {przeznaczenie}-1,96{sqrt {frac {0.25}{n}},{{widehat {p}}+1.96{sqrt {0.25}{n}}}}right)}

{displaystyle \left({{widehat {p}}-1.96{sqrt {0.25}{n}}},{widehat {p}}+1.96{sqrt {0.25}{n}}}}}}right)}

Powstanie 95% przedział ufności dla prawdziwej proporcji. Jeśli przedział ten ma mieć szerokość nie większą niż W jednostek, to równanie

4 0,25 n = W {{displaystyle 4{{sqrt {{frac {0,25}{n}}}=W}}

{displaystyle 4{sqrt {{frac {0.25}{n}}}=W}}

może być rozwiązane dla n, dając n = 4/W2 = 1/B2 gdzie B jest granicą błędu na oszacowaniu, tzn, szacunek jest zwykle podawany w granicach ± B. Zatem dla B = 10% wymagana jest próba n = 100, dla B = 5% wymagana jest próba n = 400, dla B = 3% wymagana jest próba n = 1000, natomiast dla B = 1% wymagana jest próba n = 10000. Liczby te są często przytaczane w doniesieniach o badaniach opinii publicznej i innych badaniach reprezentacyjnych. Należy jednak zawsze pamiętać, że podawane wyniki mogą nie być dokładną wartością, ponieważ liczby są zazwyczaj zaokrąglane w górę. Wiedząc, że wartość n jest minimalną liczbą punktów próby potrzebnych do uzyskania pożądanego wyniku, liczba respondentów musi leżeć na lub powyżej tego minimum.

Oszacowanie średniejEdit

Porcja jest specjalnym przypadkiem średniej. Podczas szacowania średniej populacji przy użyciu niezależnej i identycznie rozłożonej (iid) próby o rozmiarze n, gdzie każda wartość danych ma wariancję σ2, błąd standardowy średniej z próby wynosi:

σ n . {{displaystyle {{frac {{sigma }{sqrt {{n}}}.}

{displaystyle {{displayfrac {{sigma }{sqrt {n}}.}

To wyrażenie opisuje ilościowo, w jaki sposób oszacowanie staje się bardziej precyzyjne wraz ze wzrostem wielkości próby. Wykorzystanie centralnego twierdzenia granicznego do uzasadnienia aproksymacji średniej z próby rozkładem normalnym daje przedział ufności w postaci

( x – Z σ n , x – Z σ n + Z σ n ) {displaystyle \left({{bar {x}}-{frac {Z}sigma }{sqrt {n}},\quad {{{bar {x}}+{{frac {{sigma }{sqrt {n}}}}prawo)}

{displaystyle \left({{bar {x}}-{frac {{sigma }{sqrt {n}},\quad {{bar {x}}+{frac {Zsigma }}} right)}

, gdzie Z jest standardowym Z-score dla pożądanego poziomu ufności (1.96 dla 95% przedziału ufności).

Jeśli chcemy mieć przedział ufności, który ma całkowitą szerokość W jednostek (W/2 po każdej stronie średniej z próby), rozwiązalibyśmy

Z σ n = W / 2 {{displaystyle {{displayfrac {{sqrt {n}}}=W/2}

{displaystyle {{displayfrac {{sqrt {n}}}=W/2}

dla n, uzyskując wielkość próby

n = 4 Z 2 σ 2 W 2 {{displaystyle n= {{displayfrac {4Z^{2}}\sigma ^{2}}{W^{2}}}}

{displaystyle n={displayfrac {4Z^{2}}sigma ^{2}}{W^{2}}}}

. (Uwaga: W/2 = margines błędu.)

Na przykład, jeśli jesteśmy zainteresowani oszacowaniem wartości, o jaką lek obniża ciśnienie krwi u badanej osoby z 95% przedziałem ufności o szerokości sześciu jednostek i wiemy, że odchylenie standardowe ciśnienia krwi w populacji wynosi 15, wówczas wymagana wielkość próby wynosi 4 × 1.96 2 × 15 2 6 2 = 96,04 {{displaystyle {{frac {4 razy 1,96^{2}}}{6^{2}}}}=96,04}.

{displaystyle {{displayfrac {4times 1.96^{2}}} 15^{2}}{6^{2}}}}=96.04}

, co należałoby zaokrąglić do 97, ponieważ uzyskana wartość jest minimalną liczebnością próby, a liczebności prób muszą być liczbami całkowitymi i muszą leżeć na lub powyżej obliczonego minimum.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *