サンプルサイズの決定

割合の推定 編集

Main article: 人口比率

比較的単純な状況は、割合の推定である。

割合の推定式は p ^ = X / n {displaystyle {hat {p}}=X/n} です。

\ p = X/n

, ここで X は「正の」オブザベーションの数です (例えば n 人のサンプリングのうち、65 歳以上の人の数). オブザベーションが独立であるとき,この推定量は(スケーリングされた)二項分布を持つ(そして,ベルヌーイ分布からのデータの標本平均でもある). この分布の最大分散は0.25nであり,これは真のパラメータがp = 0.5であるときに発生する. 実際には,pが未知であるため,標本サイズの評価には最大分散がよく使われる. p の妥当な推定値がわかっている場合、量 p ( 1 – p ) {\displaystyle p(1-p)} が得られます。

{displaystyle p(1-p)}

は、0.25の代わりに使うことができるかもしれません。

For sufficiently large n, the distribution of p ^ {displaystyle {hat {p}}} {displaystyle {hat {p}}}.

{hat {p}}

は、正規分布で近似されるでしょう。 これと二項分布のWald法を用いると、( p ^ – Z 0.25 n , p ^ + Z 0.25 n ) {displaystyle \left({}widehat {p}}-Z{sqrt {}frac {0.25}{n}}},\quad {}widehat {p}}+Z{sqrt {}frac {0.25}}} の形の信頼区間が求まる。25}{n}}}right)}

{displaystyle \left({}widehat {p}}-Z{sqrt {}frac {0.25}{n}}}, \quad {}widehat {p}+Z{sqrt {}frac {0.25}{n}}}right)}

, ここで、Zは希望する信頼度の標準Zスコアです(95%信頼区間では1.96です)。

幅が合計でW単位(サンプル平均の両側でW/2)である信頼区間を持ちたい場合、次のように解きます

Z 0.25 n = W / 2 {displaystyle Z{sqrt {displc {0.25}{n}}=W/2}

{happydisplaystyle Z{sqrt {0.25}{n}}=W/2}

for n, y yield the sample size

n = Z 2 W 2 {happydisplaystyle n={frac {Z^{2}}{W^{2}}}} {p} {p} = Z^{2}{W}{2}} {div> iv} iv style {{sqrt {0.24}{2}}}} {div} div} div}

iv style {{frac {0.25}{n}}}=W/2

{displaystyle n={hintfrac {Z^{2}}{W^{2}}}

、割合の最も保守的な推定値として .5 を使う場合です。 (注:W/2=誤差の範囲。)

さもなければ、式は Z p ( 1 – p ) n = W / 2 {displaystyle Z{sqrt {http(1-p)}{n}}}=W/2}

{displaystyle Z{sqrt {http(1-p)}{n}}=W/2} , となり、n = 4 Z 2 p ( 1 – p ) W 2 {displaystyle n={Thatfrac {4Z^{2}p(1-p)}{W^{2}}}} となる。

{displaystyle n={{frac {4Z^{2}p(1-p)}{W^{2}}}}

.

例えば、特定の大統領候補を支持するアメリカ人口の割合を推定することに興味があり、95%信頼区間の幅を最大でも2%ポイント(0.02)にしたい場合、(1.962)/(0.022)=9604のサンプルサイズが必要になります。 大統領選は半々に近いことが多いので、この場合pの推定値を0.5とするのは妥当であり、また保守的な推定値を用いるのが賢明である。 この場合の誤差は1%ポイント(0.02の半分)です。

前述を一般的に簡略化すると…。

( p ^ – 1.96 0.25 n , p ^ + 1.96 0.25 n ) {displaystyle \left({}widehat {p}}-1.96{sqrt {}frac {0.25}{n}},{Widehat {p}}+1.96{sqrt {}frac {0.25}{n}}}right)}

{Displaystyle \left({}whidehat {p}}-1.96{sqrt {}frac {0.25}{n}},{}widehat {p}}+1.96{sqrt {}frac {0.25}{n}}}right)}

は真の割合の95%信頼区間を形成することになる。 この区間がW単位以下の幅である必要がある場合、式

4 0.25 n = W {displaystyle 4{sqrt {frac {0.25}{n}}}=W} は、真の割合の95%信頼区間を形成します。

{displaystyle 4{sqrt {0.25}{n}}=W}

はnについて解くと、n = 4/W2 = 1/B2 となり、Bは推定値の誤差、即ち。 つまり、B = 10%では n = 100、B = 5%では n = 400、B = 3%では n = 1000 に近似し、B = 1%では n = 10000 のサンプルサイズが必要です。 この数字は、世論調査やその他のサンプル調査の報道でよく引用される。 ただし、数値は切り上げられることが望ましいので、報告された結果が正確な値でない可能性があることを常に覚えておいてください。 n の値が望ましい結果を得るために必要なサンプル ポイントの最小数であることを知って、回答者の数は最小値以上でなければなりません。

平均の推定

比率は平均の特殊なケースです。 各データ値が分散 σ2 を持つ、サイズ n の独立同分布 (iid) サンプルを使用して母平均を推定する場合、サンプル平均の標準誤差は

σ n . {displaystyle {frac {sigma }{sqrt {n}}}.} }.

{displaystyle { {frac {sigma }{sqrt {n}}}.}

この式はサンプルサイズが大きくなると推定値がより正確になるか定量的に記述しています。 中心極限定理を使用して、標本平均を正規分布で近似することを正当化すると、次の形式の信頼区間が得られます

( x ¯ – Z σ n , x ¯ + Z σ n ) {displaystyle \left({}bar {x}}-{}frac {Z}sigma }{sqrt {n}}}.{},\quad {bar {x}}+{hrac {Zsigma }{sqrt {n}}}right)}

{displaystyle \left({harr {x}}-{hrac {Zsigma }{sqrt {n}}},\quad {bar {x}}+{hrac {Zhigma }{sqrt {n}}}right)}

, ここでZは希望の信頼度に対する標準Zスコア(1.96で95%信頼区間)。

幅が合計でW単位(標本平均の両側でW/2)の信頼区間を持ちたい場合。 を解くことになる

Z σ n = W / 2 {displaystyle {} {Zfrac {Zsigma }{sqrt {n}}}=W/2}

{displaystyle {} {Zfrac {Zsigma }{sqrt {n}}=W/2}

nを指定する。 yielding sample size

n = 4 Z 2 σ 2 W 2 {displaystyle n={frac {4Z^{2}sigma ^{2}}{W^{2}}}}}.

{displaystyle n={Thinkfrac {4Z^{2}}sigma ^{2}}}

. (注:W/2=誤差の範囲)

例えば、ある薬が被験者の血圧を下げる量を、6単位幅の95%信頼区間で推定することに興味があり、母集団の血圧の標準偏差が15であるとわかっている場合、必要なサンプルサイズは4×1です。96 2 × 15 2 6 2 = 96.04} {displaystyle { {4times 1.96^{2}times 15^{2}}{6^{2}}}=96.04} となります。

{displaystyle {4frac {4times 1.96^{2}}} 15^{2}}{6^{2}}=96.04}

、得られた値は最小サンプルサイズなので、切り上げは97となり、サンプルサイズは整数で計算上の最小値に含まれなければならないからです。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です