AránybecslésSzerkesztés
Viszonylag egyszerű helyzet az arány becslése. Például szeretnénk megbecsülni egy közösségben azon lakosok arányát, akik legalább 65 évesek.
Az arány becslője p ^ = X / n {\displaystyle {\hat {p}}=X/n}
, ahol X a “pozitív” megfigyelések száma (pl. az n mintavételezett személy közül azoknak a száma, akik legalább 65 évesek). Ha a megfigyelések függetlenek, akkor ez a becslő (skálázott) binomiális eloszlású (és egyben a Bernoulli-eloszlásból származó adatok mintaátlaga). Ennek az eloszlásnak a maximális szórása 0,25n, ami akkor fordul elő, ha a valódi paraméter p = 0,5. A gyakorlatban, mivel p ismeretlen, gyakran a maximális varianciát használják a mintanagyság becsléséhez. Ha a p-re vonatkozóan ismert egy ésszerű becslés, akkor a p ( 1 – p ) {\displaystyle p(1-p)} mennyiséget kell használni.
használható a 0,25 helyett.
Elég nagy n esetén a p ^ {\displaystyle {\hat {p}}} eloszlása {\displaystyle}
eloszlását szorosan közelíti a normális eloszlás. Ezt és a binomiális eloszlásra vonatkozó Wald-módszert alkalmazva a ( p ^ – Z 0.25 n , p ^ + Z 0.25 n ) {\displaystyle \left({\widehat {p}}-Z{\sqrt {\frac {\frac {0.25}{n}}},\quad {\widehat {p}}+Z{\sqrt {\frac {0.25}{n}}}}\right)}
, ahol Z a kívánt megbízhatósági szintre vonatkozó szabványos Z-pontszám (1,96 95%-os megbízhatósági intervallum esetén).
Ha olyan konfidenciaintervallumot szeretnénk, amelynek teljes szélessége W egység (W/2 a mintaátlag mindkét oldalán), akkor megoldjuk
Z 0,25 n = W / 2 {\displaystyle Z{\sqrt {\frac {0.25}{n}}}=W/2}
az n-re, így megkapjuk a minta méretét
n = Z 2 W 2 {\displaystyle n={{\frac {Z^{2}}{W^{2}}}}
, abban az esetben, ha az arány legkonzervatívabb becsléséhez .5-t használunk. (Megjegyzés: W/2 = hibahatár.)
Máskülönben a képlet a következő lenne: Z p ( 1 – p ) n = W / 2 {\displaystyle Z{\sqrt {\frac {p(1-p)}{n}}}=W/2}
, amiből n = 4 Z 2 p ( 1 – p ) W 2 {\displaystyle n={\frac {4Z^{2}p(1-p)}{W^{2}}}}
.
Ha például azt szeretnénk megbecsülni, hogy az USA lakosságának mekkora hányada támogat egy adott elnökjelöltet, és azt szeretnénk, hogy a 95%-os konfidenciaintervallum szélessége legfeljebb 2 százalékpont (0,02) legyen, akkor (1,962)/(0,022) = 9604 mintanagyságra lenne szükségünk. Ebben az esetben ésszerű a p-re vonatkozó 0,5-ös becslést használni, mivel az elnökválasztási versenyek gyakran közel 50/50 arányúak, és az is bölcs dolog, ha konzervatív becslést használunk. A hibahatár ebben az esetben 1 százalékpont (0,02 fele).
A fentiekben leírtak általában egyszerűsített…
( p ^ – 1.96 0.25 n , p ^ + 1.96 0.25 n ) {\displaystyle \left({\widehat {p}}-1.96{\sqrt {\frac {0.25}{n}}},{\widehat {p}}+1.96{\sqrt {\frac {0.25}{n}}}\right)}
A valódi arányra 95%-os konfidenciaintervallumot képez. Ha ennek az intervallumnak legfeljebb W egység szélesnek kell lennie, akkor az egyenlet
4 0.25 n = W {\displaystyle 4{\sqrt {\frac {\frac {0.25}{n}}}=W}}
megoldható n-re, így n = 4/W2 = 1/B2, ahol B a becslés hibahatára, azaz, a becslést általában ± B-n belül szokták megadni. Így B = 10% esetén n = 100, B = 5% esetén n = 400, B = 3% esetén a követelmény megközelítőleg n = 1000, míg B = 1% esetén n = 10000 mintaméretre van szükség. Ezeket a számokat gyakran idézik a közvélemény-kutatásokról és egyéb mintavételes felmérésekről szóló hírekben. Ne feledje azonban mindig, hogy a közölt eredmények nem feltétlenül a pontos értékek, mivel a számokat lehetőleg felfelé kerekítik. Tudva, hogy az n értéke a kívánt eredmény eléréséhez szükséges mintavételi pontok minimális száma, a válaszadók számának ekkor a minimumon vagy a minimum felett kell lennie.
Az átlag becsléseSzerkesztés
Az arányszám az átlag speciális esete. Ha a populáció átlagát becsüljük egy n méretű, független és azonos eloszlású (iid) minta segítségével, ahol minden egyes adatérték σ2 szórással rendelkezik, a minta átlagának standard hibája:
σ n . {\displaystyle {\frac {\sigma }{\sqrt {n}}}.}
Ez a kifejezés kvantitatíve leírja, hogy a becslés a minta méretének növekedésével egyre pontosabbá válik. Ha a központi határértéktételt használjuk a mintaátlag normális eloszlással való közelítésének igazolására, akkor egy olyan konfidenciaintervallumot kapunk, amelynek formája
( x ¯ – Z σ n , x ¯ + Z σ n ) {\displaystyle \left({\bar {x}}-{\frac {Z\sigma }{\sqrt {n}}},\quad {\bar {x}}+{\frac {Z\sigma }{\sqrt {n}}}\right)}
, ahol Z a kívánt megbízhatósági szintre vonatkozó standard Z-pontszám (1.96 95%-os konfidenciaintervallum esetén).
Ha olyan konfidenciaintervallumot szeretnénk, amelynek szélessége összesen W egység (W/2 a mintaátlag mindkét oldalán), akkor megoldjuk
Z σ n = W / 2 {\displaystyle {\frac {Z\sigma }{\sqrt {n}}}=W/2}
for n, ami a minta méretét adja
n = 4 Z 2 σ 2 W 2 {\displaystyle n={\frac {4Z^{2}\sigma ^{2}}{W^{2}}}}
. (Megjegyzés: W/2 = hibahatár.)
Ha például azt szeretnénk megbecsülni, hogy egy gyógyszer mennyivel csökkenti egy alany vérnyomását egy hat egység széles, 95%-os konfidenciaintervallummal, és tudjuk, hogy a populációban a vérnyomás szórása 15, akkor a szükséges mintaméret 4 × 1.96 2 × 15 2 6 2 = 96.04 {\displaystyle {\frac {4\times 1.96^{2}\times 15^{2}}{6^{2}}}=96.04}}
, amit 97-re kerekítenénk fel, mert a kapott érték a minimális mintaméret, és a mintaméreteknek egész számoknak kell lenniük, és a számított minimumon vagy a felett kell feküdniük.