Stanovení velikosti vzorku

Odhad podíluUpravit

Hlavní článek:

Relativně jednoduchou situací je odhad podílu. Například můžeme chtít odhadnout podíl obyvatel obce, kteří mají alespoň 65 let.

Odhad podílu je p ^ = X / n {\displaystyle {\hat {p}}=X/n}.

\hat p = X/n

, kde X je počet „pozitivních“ pozorování (např. počet osob z n osob zařazených do vzorku, kterým je alespoň 65 let). Jsou-li pozorování nezávislá, má tento odhad (škálované) binomické rozdělení (a je také výběrovým průměrem dat z Bernoulliho rozdělení). Maximální rozptyl tohoto rozdělení je 0,25n, což nastane, když je skutečný parametr p = 0,5. Protože p není známo, v praxi se pro posouzení velikosti vzorku často používá maximální rozptyl. Pokud je znám rozumný odhad p, je veličina p ( 1 – p ) {\displaystyle p(1-p)}

{\displaystyle p(1-p)}

lze použít místo 0,25.

Při dostatečně velkém n je rozdělení p ^ {\displaystyle {\hat {p}})

{\hat {p}}

bude přesně aproximováno normálním rozdělením. Při použití této a Waldovy metody pro binomické rozdělení získáme interval spolehlivosti ve tvaru ( p ^ – Z 0,25 n , p ^ + Z 0,25 n ) {\displaystyle \left({\widehat {p}}-Z{\sqrt {\frac {0,25}{n}}},\quad {\widehat {p}}+Z{\sqrt {\frac {0.25}{n}}}\pravo)}

{\displaystyle \left({\widehat {p}}-Z{\sqrt {\frac {0.25}{n}}},\quad {\widehat {p}}+Z{\sqrt {\frac {0.25}{n}}}\right)}

, kde Z je standardní Z-skóre pro požadovanou úroveň spolehlivosti (1,96 pro 95% interval spolehlivosti).

Pokud bychom chtěli mít interval spolehlivosti o celkové šířce W jednotek (W/2 na každé straně výběrového průměru), řešili bychom

Z 0,25 n = W / 2 {\displaystyle Z{\sqrt {\frac {0.25}{n}}}=W/2}

{\displaystyle Z{\sqrt {\frac {0,25}{n}}}=W/2}

pro n, čímž získáme velikost vzorku

n = Z 2 W 2 {\displaystyle n={\frac {Z^{2}}{W^{2}}}}

{\displaystyle n={\frac {Z^{2}}{W^{2}}}}

, v případě použití 0,5 jako nejkonzervativnějšího odhadu podílu. (Poznámka: W/2 = chybové rozpětí.)

Jinak by vzorec byl Z p ( 1 – p ) n = W / 2 {\displaystyle Z{\sqrt {\frac {p(1-p)}{n}}}=W/2}

{\displaystyle Z{\sqrt {\frac {p(1-p)}{n}}}=W/2}

, což dává n = 4 Z 2 p ( 1 – p ) W 2 {\displaystyle n={\frac {4Z^{2}p(1-p)}{W^{2}}}}

{\displaystyle n={\frac {4Z^{2}p(1-p)}{W^{2}}}}

.

Pokud nás například zajímá odhad podílu obyvatel USA, kteří podporují určitého prezidentského kandidáta, a chceme, aby šířka 95% intervalu spolehlivosti byla nejvýše 2 procentní body (0,02), pak bychom potřebovali velikost vzorku (1,962)/(0,022) = 9604. V tomto případě je rozumné použít odhad 0,5 pro p, protože prezidentské závody jsou často blízké 50/50, a je také rozumné použít konzervativní odhad. Chybovost je v tomto případě 1 procentní bod (polovina z 0,02).

Výše uvedené je běžně zjednodušené…

( p ^ – 1,96 0,25 n , p ^ + 1,96 0,25 n ) {\displaystyle \left({\widehat {p}}-1,96{\sqrt {\frac {0.25}{n}}},{\widehat {p}}+1.96{\sqrt {\frac {0.25}{n}}}\right)}

{\displaystyle \left({\widehat {p}}-1.96{\sqrt {\frac {0,25}{n}}},{\widehat {p}}+1,96{\sqrt {\frac {0,25}{n}}}}\right)}

bude tvořit 95% interval spolehlivosti pro skutečný podíl. Pokud tento interval nemá být širší než W jednotek, platí rovnice

4 0,25 n = W {\displaystyle 4{\sqrt {\frac {0,25}{n}}}=W}}.

{\displaystyle 4{\sqrt {\frac {0.25}{n}}}=W}

můžeme řešit pro n, čímž získáme n = 4/W2 = 1/B2, kde B je hranice chyby odhadu, tj, odhad se obvykle udává v rozmezí ± B. Takže pro B = 10 % je třeba n = 100, pro B = 5 % je třeba n = 400, pro B = 3 % se požadavek blíží n = 1000, zatímco pro B = 1 % je třeba velikost vzorku n = 10000. Tato čísla jsou často uváděna ve zprávách o průzkumech veřejného mínění a jiných výběrových šetřeních. Vždy však mějte na paměti, že uváděné výsledky nemusí odpovídat přesné hodnotě, protože čísla se přednostně zaokrouhlují nahoru. Víme-li, že hodnota n je minimální počet výběrových bodů potřebných k získání požadovaného výsledku, musí pak počet respondentů ležet na tomto minimu nebo nad ním.

Odhad průměruPravda

Podíl je zvláštním případem průměru. Při odhadu populačního průměru pomocí nezávislého a identicky rozděleného (iid) vzorku o velikosti n, kde každá hodnota dat má rozptyl σ2, je směrodatná chyba výběrového průměru:

σ n . {\displaystyle {\frac {\sigma }{\sqrt {n}}}.}.

{\displaystyle {\frac {\sigma }{\sqrt {n}}}.}

Tento výraz kvantitativně popisuje, jak se odhad zpřesňuje s rostoucí velikostí vzorku. Použitím centrální limitní věty pro zdůvodnění aproximace výběrového průměru normálním rozdělením získáme interval spolehlivosti ve tvaru

( x – Z σ n , x – + Z σ n ) {\displaystyle \left({\bar {x}}-{\frac {Z\sigma }{\sqrt {n}}},\quad {\bar {x}}+{\frac {Z\sigma }{\sqrt {n}}}\right)}

{\displaystyle \left({\bar {x}}-{\frac {Z\sigma }{\sqrt {n}}},\quad {\bar {x}}+{\frac {Z\sigma }{\sqrt {n}}}\right)}

, kde Z je standardní Z-skóre pro požadovanou úroveň spolehlivosti (1.96 pro 95% interval spolehlivosti).

Přejeme-li si interval spolehlivosti o celkové šířce W jednotek (W/2 na každé straně výběrového průměru), vyřešíme

Z σ n = W / 2 {\displaystyle {\frac {Z\sigma }{\sqrt {n}}=W/2}

{\displaystyle {\frac {Z\sigma }{\sqrt {n}}=W/2}

pro n, čímž získáme velikost vzorku

n = 4 Z 2 σ 2 W 2 {\displaystyle n={\frac {4Z^{2}\sigma ^{2}}{W^{2}}}}

{\displaystyle n={\frac {4Z^{2}\sigma ^{2}}{W^{2}}}}

. (Poznámka: W/2 = rozpětí chyby.)

Pokud nás například zajímá odhad množství, o které lék snižuje krevní tlak subjektu, s 95% intervalem spolehlivosti širokým šest jednotek, a víme, že směrodatná odchylka krevního tlaku v populaci je 15, pak je požadovaná velikost vzorku 4 × 1.96 2 × 15 2 6 2 = 96,04 {\displaystyle {\frac {4\krát 1,96^{2}\krát 15^{2}}{6^{2}}}=96,04}

{\displaystyle {\frac {4\times 1,96^{2}\times 15^{2}}}{6^{2}}}=96,04}

, což by se zaokrouhlilo na 97, protože získaná hodnota je minimální velikost vzorku a velikosti vzorků musí být celá čísla a musí ležet na vypočteném minimu nebo nad ním.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *