Stima di una proporzioneModifica
Una situazione relativamente semplice è la stima di una proporzione. Per esempio, potremmo voler stimare la proporzione di residenti in una comunità che hanno almeno 65 anni.
Lo stimatore di una proporzione è p^ = X / n {displaystyle {p}}=X/n}
, dove X è il numero di osservazioni “positive” (ad esempio il numero di persone su n campionati che hanno almeno 65 anni). Quando le osservazioni sono indipendenti, questo stimatore ha una distribuzione binomiale (scalata) (ed è anche la media campionaria dei dati di una distribuzione di Bernoulli). La varianza massima di questa distribuzione è 0,25n, che si verifica quando il vero parametro è p = 0,5. In pratica, poiché p è sconosciuto, la varianza massima è spesso usata per valutare la dimensione del campione. Se una stima ragionevole di p è nota, la quantità p ( 1 – p ) {\displaystyle p(1-p)}
può essere usata al posto di 0,25.
Per n sufficientemente grande, la distribuzione di p ^ {displaystyle {p}}
sarà strettamente approssimata da una distribuzione normale. Usando questo e il metodo Wald per la distribuzione binomiale, si ottiene un intervallo di confidenza della forma ( p ^ – Z 0.25 n , p ^ + Z 0.25 n ) {displaystyle \left({\widehat {p}-Z{sqrt {\frac {0.25}{n}},\quad {widehat {p}+Z{sqrt {\frac {0.25}{n}} a destra)}
, dove Z è un punteggio Z standard per il livello di confidenza desiderato (1,96 per un intervallo di confidenza del 95%).
Se vogliamo avere un intervallo di confidenza che sia largo complessivamente W unità (W/2 su ogni lato della media del campione), risolveremo
Z 0.25 n = W / 2 {displaystyle Z{sqrt {\frac {0.25}{n}}=W/2}
per n, ottenendo la dimensione del campione
n = Z 2 W 2 {displaystyle n={\frac {Z^{2}}{W^{2}}}}
, nel caso si usi .5 come stima più conservativa della proporzione. (Nota: W/2 = margine di errore.)
Altrimenti, la formula sarebbe Z p ( 1 – p ) n = W / 2 {displaystyle Z{sqrt {\frac {p(1-p)}{n}}=W/2}
, che produce n = 4 Z 2 p ( 1 – p ) W 2 {displaystyle n={{frac {4Z^{2}p(1-p)}{W^{2}}}}
.
Per esempio, se siamo interessati a stimare la proporzione della popolazione statunitense che sostiene un particolare candidato presidenziale, e vogliamo che la larghezza dell’intervallo di confidenza del 95% sia al massimo di 2 punti percentuali (0,02), allora avremmo bisogno di una dimensione del campione di (1,962)/(0,022) = 9604. È ragionevole usare la stima di 0,5 per p in questo caso perché le gare presidenziali sono spesso vicine al 50/50, ed è anche prudente usare una stima conservativa. Il margine di errore in questo caso è di 1 punto percentuale (la metà di 0,02).
Quanto sopra è comunemente semplificato…
( p ^ – 1.96 0.25 n , p ^ + 1.96 0.25 n ) {\displaystyle \left({{widehat {p}}-1.96{sqrt {\frac {0.25}{n}},{{widehat {p}}+1,96{sqrt {\frac {0,25}{n}}}destra)}
formerà un intervallo di confidenza del 95% per la proporzione vera. Se questo intervallo deve essere largo non più di W unità, l’equazione
4 0,25 n = W {\displaystyle 4{sqrt {\frac {0,25}{n}}=W}
può essere risolta per n, ottenendo n = 4/W2 = 1/B2 dove B è l’errore limite sulla stima, cioè, la stima è di solito data come entro ± B. Così, per B = 10% si richiede n = 100, per B = 5% si richiede n = 400, per B = 3% il requisito si avvicina a n = 1000, mentre per B = 1% è richiesta una dimensione del campione di n = 10000. Questi numeri sono citati spesso nei resoconti dei sondaggi d’opinione e di altre indagini campionarie. Tuttavia, ricordate sempre che i risultati riportati potrebbero non essere il valore esatto poiché i numeri sono preferibilmente arrotondati per eccesso. Sapendo che il valore di n è il numero minimo di punti campione necessari per acquisire il risultato desiderato, il numero di intervistati deve trovarsi su o sopra il minimo.
Stima di una mediaModifica
Una proporzione è un caso speciale di una media. Quando si stima la media della popolazione usando un campione indipendente e identicamente distribuito (iid) di dimensione n, dove ogni valore dei dati ha varianza σ2, l’errore standard della media del campione è:
σ n . {displaystyle {frac {sigma }{sqrt {n}}.}
Questa espressione descrive quantitativamente come la stima diventa più precisa all’aumentare della dimensione del campione. Usando il teorema del limite centrale per giustificare l’approssimazione della media del campione con una distribuzione normale si ottiene un intervallo di confidenza della forma
( x ¯ – Z σ n , x ¯ + Z σ n ) {displaystyle \left({\bar {x}-{frac {Z\sigma }{sqrt {n}},
, dove Z è uno Z-score standard per il livello di confidenza desiderato (1.96 per un intervallo di confidenza del 95%).
Se vogliamo avere un intervallo di confidenza che sia largo complessivamente W unità (W/2 su ogni lato della media del campione), risolveremmo
Z σ n = W / 2
per n, ottenendo la dimensione del campione
n = 4 Z 2 σ 2 W 2 {displaystyle n={frac {4Z^{2}sigma ^{2}}{W^{2}}}}
. (Nota: W/2 = margine di errore.)
Per esempio, se siamo interessati a stimare la quantità di cui un farmaco abbassa la pressione sanguigna di un soggetto con un intervallo di confidenza del 95% che è largo sei unità, e sappiamo che la deviazione standard della pressione sanguigna nella popolazione è 15, allora la dimensione del campione richiesta è 4 × 1.96 2 × 15 2 6 2 = 96,04 {displaystyle {frac {4 volte 1,96^{2} volte 15^{2}}{6^{2}}=96,04}
, che sarebbe arrotondato a 97, perché il valore ottenuto è la dimensione minima del campione, e le dimensioni del campione devono essere interi e devono trovarsi su o sopra il minimo calcolato.