Bestimmung des Stichprobenumfangs

Schätzung eines AnteilsBearbeiten

Hauptartikel: Bevölkerungsanteil

Eine relativ einfache Situation ist die Schätzung eines Anteils. Man möchte zum Beispiel den Anteil der Einwohner einer Gemeinde schätzen, die mindestens 65 Jahre alt sind.

Der Schätzer eines Anteils ist p ^ = X / n {\displaystyle {\hat {p}}=X/n}

\hat p = X/n

, wobei X die Anzahl der „positiven“ Beobachtungen ist (z. B. die Anzahl der Personen unter den n in der Stichprobe erfassten Personen, die mindestens 65 Jahre alt sind). Wenn die Beobachtungen unabhängig sind, hat dieser Schätzer eine (skalierte) Binomialverteilung (und ist auch der Stichprobenmittelwert von Daten aus einer Bernoulli-Verteilung). Die maximale Varianz dieser Verteilung beträgt 0,25n, was eintritt, wenn der wahre Parameter p = 0,5 ist. Da p nicht bekannt ist, wird in der Praxis häufig die maximale Varianz für die Beurteilung des Stichprobenumfangs verwendet. Ist eine vernünftige Schätzung für p bekannt, so ist die Größe p ( 1 – p ) {\displaystyle p(1-p)}

{\displaystyle p(1-p)}

anstelle von 0,25 verwendet werden.

Für ausreichend großes n ist die Verteilung von p ^ {\displaystyle {\hat {p}}

{\hat {p}}

sehr gut durch eine Normalverteilung angenähert. Mit dieser und der Wald-Methode für die Binomialverteilung erhält man ein Konfidenzintervall der Form ( p ^ – Z 0.25 n , p ^ + Z 0.25 n ) {\displaystyle \left({\widehat {p}}-Z{\sqrt {\frac {0.25}{n}}},\quad {\widehat {p}}+Z{\sqrt {\frac {0.25}{n}}\right)}

{\displaystyle \left({\widehat {p}}-Z{\sqrt {\frac {0.25}{n}}},\quad {\widehat {p}}+Z{\sqrt {\frac {0.25}{n}}})}

, wobei Z ein Standard-Z-Score für das gewünschte Konfidenzniveau ist (1,96 für ein 95 %-Konfidenzintervall).

Wenn wir ein Konfidenzintervall wünschen, das insgesamt W Einheiten breit ist (W/2 auf jeder Seite des Stichprobenmittelwertes), würden wir

Z 0.25 n = W / 2 {\displaystyle Z{\sqrt {\frac {0.25}{n}}=W/2}

{\displaystyle Z{\sqrt {\frac {0.25}{n}}}=W/2}

für n, was den Stichprobenumfang ergibt

n = Z 2 W 2 {\displaystyle n={\frac {Z^{2}}{W^{2}}}}

{\displaystyle n={\frac {Z^{2}}{W^{2}}}}

, wenn man 0,5 als die konservativste Schätzung des Anteils verwendet. (Anmerkung: W/2 = Fehlermarge.)

Ansonsten wäre die Formel Z p ( 1 – p ) n = W / 2 {\displaystyle Z{\sqrt {\frac {p(1-p)}{n}}=W/2}

{\displaystyle Z{\sqrt {\frac {p(1-p)}{n}}=W/2}

, Daraus ergibt sich n = 4 Z 2 p ( 1 – p ) W 2 {\displaystyle n={\frac {4Z^{2}p(1-p)}{W^{2}}}}

{\displaystyle n={\frac {4Z^{2}p(1-p)}{W^{2}}}}

.

Wenn wir beispielsweise den Anteil der US-Bevölkerung schätzen wollen, der einen bestimmten Präsidentschaftskandidaten unterstützt, und die Breite des 95 %-Konfidenzintervalls höchstens 2 Prozentpunkte (0,02) betragen soll, dann benötigen wir eine Stichprobengröße von (1,962)/(0,022) = 9604. Es ist vernünftig, in diesem Fall die 0,5-Schätzung für p zu verwenden, weil die Präsidentschaftswahlen oft nahe bei 50/50 liegen, und es ist auch vernünftig, eine konservative Schätzung zu verwenden. Die Fehlermarge beträgt in diesem Fall 1 Prozentpunkt (die Hälfte von 0,02).

Das Vorstehende wird üblicherweise vereinfacht…

( p ^ – 1.96 0.25 n , p ^ + 1.96 0.25 n ) {\displaystyle \left({\widehat {p}}-1.96{\sqrt {\frac {0.25}{n}},{\widehat {p}}+1.96{\sqrt {\frac {0.25}{n}}\right)}

{\displaystyle \left({\widehat {p}}-1.96{\sqrt {\frac {0.25}{n}}},{\widehat {p}}+1.96{\sqrt {\frac {0.25}{n}}\right)}

wird ein 95%-Konfidenzintervall für den wahren Anteil gebildet. Wenn dieses Intervall nicht mehr als W Einheiten breit sein soll, gilt die Gleichung

4 0.25 n = W {\displaystyle 4{\sqrt {\frac {0.25}{n}}}=W}

{\displaystyle 4{\sqrt {\frac {0.25}{n}}=W}

kann für n gelöst werden, was n = 4/W2 = 1/B2 ergibt, wobei B die Fehlergrenze für die Schätzung ist, d.h., Für B = 10 % benötigt man also n = 100, für B = 5 % n = 400, für B = 3 % ungefähr n = 1000 und für B = 1 % einen Stichprobenumfang von n = 10000. Diese Zahlen werden häufig in Nachrichtenberichten über Meinungsumfragen und andere Stichprobenerhebungen genannt. Denken Sie jedoch immer daran, dass die gemeldeten Ergebnisse möglicherweise nicht dem genauen Wert entsprechen, da die Zahlen vorzugsweise aufgerundet werden. Wenn man weiß, dass der Wert von n die Mindestanzahl von Stichprobenpunkten ist, die benötigt werden, um das gewünschte Ergebnis zu erhalten, muss die Anzahl der Befragten auf oder über dem Minimum liegen.

Schätzung eines MittelwertsBearbeiten

Ein Anteil ist ein Spezialfall eines Mittelwerts. Bei der Schätzung des Mittelwerts der Grundgesamtheit anhand einer unabhängigen und identisch verteilten (iid) Stichprobe der Größe n, bei der jeder Datenwert eine Varianz σ2 hat, ist der Standardfehler des Stichprobenmittelwerts:

σ n . {\displaystyle {\frac {\sigma }{\sqrt {n}}.}

{\displaystyle {\frac {\sigma }{\sqrt {n}}.}

Dieser Ausdruck beschreibt quantitativ, wie die Schätzung mit zunehmendem Stichprobenumfang genauer wird. Die Verwendung des zentralen Grenzwertsatzes zur Rechtfertigung der Annäherung des Stichprobenmittelwerts mit einer Normalverteilung führt zu einem Konfidenzintervall der Form

( x ¯ – Z σ n , x ¯ + Z σ n ) {\displaystyle \left({\bar {x}}-{\frac {Z\sigma }{\sqrt {n}},\quad {\bar {x}}+{\frac {Z\sigma }{\sqrt {n}}}right)}

{\displaystyle \left({\bar {x}}-{\frac {Z\sigma }{\sqrt {n}},\quad {\bar {x}}+{\frac {Z\sigma }{\sqrt {n}}}\right)}

, wobei Z ein Standard-Z-Score für das gewünschte Konfidenzniveau ist (1.96 für ein 95%-Konfidenzintervall).

Wenn wir ein Konfidenzintervall wünschen, das insgesamt W Einheiten breit ist (W/2 auf jeder Seite des Stichprobenmittelwertes), würden wir

Z σ n = W / 2 {\displaystyle {\frac {Z\sigma }{\sqrt {n}}=W/2}

{\displaystyle {\frac {Z\sigma }{\sqrt {n}}=W/2}

für n lösen, ergibt sich der Stichprobenumfang

n = 4 Z 2 σ 2 W 2 {\displaystyle n={\frac {4Z^{2}\sigma ^{2}}{W^{2}}}}

{\displaystyle n={\frac {4Z^{2}\sigma ^{2}}{W^{2}}}}

. (Anmerkung: W/2 = Fehlermarge.)

Wenn wir beispielsweise den Betrag, um den ein Medikament den Blutdruck einer Person senkt, mit einem 95 %-Konfidenzintervall von sechs Einheiten schätzen wollen und wir wissen, dass die Standardabweichung des Blutdrucks in der Bevölkerung 15 beträgt, dann ist der erforderliche Stichprobenumfang 4 × 1.96 2 × 15 2 6 2 = 96,04 {\displaystyle {\frac {4\mal 1,96^{2}\mal 15^{2}}{6^{2}}=96,04}

{\displaystyle {\frac {4\times 1.96^{2}\times 15^{2}}{6^{2}}=96.04}

, was auf 97 aufgerundet würde, da der erhaltene Wert der Mindeststichprobenumfang ist und die Stichprobenumfänge ganzzahlig sein müssen und auf oder über dem berechneten Minimum liegen müssen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.