Estimación de una proporciónEditar
Una situación relativamente sencilla es la estimación de una proporción. Por ejemplo, podemos querer estimar la proporción de residentes en una comunidad que tienen al menos 65 años.
El estimador de una proporción es p ^ = X / n {\displaystyle {\hat {p}}=X/n}
, donde X es el número de observaciones «positivas» (por ejemplo, el número de personas de las n muestreadas que tienen al menos 65 años). Cuando las observaciones son independientes, este estimador tiene una distribución binomial (a escala) (y también es la media muestral de los datos de una distribución Bernoulli). La varianza máxima de esta distribución es 0,25n, lo que ocurre cuando el parámetro verdadero es p = 0,5. En la práctica, como se desconoce p, se suele utilizar la varianza máxima para evaluar el tamaño de la muestra. Si se conoce una estimación razonable de p, la cantidad p ( 1 – p ) {\displaystyle p(1-p)}
puede utilizarse en lugar de 0,25.
Para un n suficientemente grande, la distribución de p ^ {\displaystyle {hat {p}}
, donde Z es una puntuación Z estándar para el nivel de confianza deseado (1,96 para un intervalo de confianza del 95%).
Si deseamos tener un intervalo de confianza que tenga una anchura total de W unidades (W/2 a cada lado de la media de la muestra), resolveríamos
Z 0,25 n = W / 2 {\displaystyle Z{{sqrt {\frac {0.25}{n}}=W/2}
para n, obteniendo el tamaño de la muestra
n = Z 2 W 2 {{desplegable n={frac {Z^{2}}{W^{2}}}}
, en el caso de utilizar 0,5 como la estimación más conservadora de la proporción. (Nota: W/2 = margen de error.)
De lo contrario, la fórmula sería Z p ( 1 – p ) n = W / 2 {\displaystyle Z{sqrt {\frac {p(1-p)}{n}}=W/2}
, lo que da como resultado n = 4 Z 2 p ( 1 – p ) W 2 {\displaystyle n={frac {4Z^{2}p(1-p)}{W^{2}}}}
.
Por ejemplo, si estamos interesados en estimar la proporción de la población estadounidense que apoya a un determinado candidato presidencial, y queremos que la anchura del intervalo de confianza del 95% sea como máximo de 2 puntos porcentuales (0,02), entonces necesitaríamos un tamaño de muestra de (1,962)/(0,022) = 9604. Es razonable utilizar la estimación de 0,5 para p en este caso porque las carreras presidenciales suelen estar cerca del 50/50, y también es prudente utilizar una estimación conservadora. El margen de error en este caso es de 1 punto porcentual (la mitad de 0,02).
Lo anterior se simplifica comúnmente…
( p ^ – 1,96 0,25 n , p ^ + 1,96 0,25 n ) {\displaystyle \left({\widehat {p}}-1,96{sqrt {\frac {0.25}{n}},{\widehat {p}+1,96{sqrt {\frac {0,25}{n}}}right)}
formará un intervalo de confianza del 95% para la proporción verdadera. Si este intervalo no debe tener más de W unidades de ancho, la ecuación
4 0,25 n = W {{displaystyle 4{sqrt {\frac {0,25}{n}}=W}
puede resolverse para n, dando como resultado n = 4/W2 = 1/B2 donde B es el límite de error en la estimación, es decir, la estimación se suele dar como dentro de ± B. Así, para B = 10% se requiere n = 100, para B = 5% se necesita n = 400, para B = 3% el requisito se aproxima a n = 1000, mientras que para B = 1% se requiere un tamaño de muestra de n = 10000. Estas cifras se citan a menudo en las noticias sobre sondeos de opinión y otras encuestas por muestreo. Sin embargo, recuerde siempre que los resultados comunicados pueden no ser el valor exacto, ya que los números se redondean preferentemente hacia arriba. Sabiendo que el valor de la n es el número mínimo de puntos de muestra necesarios para adquirir el resultado deseado, el número de encuestados entonces debe estar en o por encima del mínimo.
Estimación de una mediaEditar
Una proporción es un caso especial de una media. Cuando se estima la media de la población utilizando una muestra independiente e idénticamente distribuida (iid) de tamaño n, donde cada valor de los datos tiene una varianza σ2, el error estándar de la media de la muestra es:
σ n . {\displaystyle {\frac {\sigma }{{sqrt {n}}.}
Esta expresión describe cuantitativamente cómo la estimación se vuelve más precisa a medida que aumenta el tamaño de la muestra. Utilizando el teorema del límite central para justificar la aproximación de la media muestral con una distribución normal se obtiene un intervalo de confianza de la forma
( x ¯ – Z σ n , x ¯ + Z σ n ) {\displaystyle \left({\bar {x}}-{{frac {Z\sigma }{sqrt {n}},\quad {\bar {x}+{{frac {Z\sigma }{cuadrado {n}})}
para n, lo que da el tamaño de la muestra
n = 4 Z 2 σ 2 W 2 {\displaystyle n={\frac {4Z^{2}\sigma ^{2}}{W^{2}}}}
. (Nota: W/2 = margen de error.)
Por ejemplo, si estamos interesados en estimar la cantidad en la que un fármaco disminuye la presión arterial de un sujeto con un intervalo de confianza del 95% que es de seis unidades de ancho, y sabemos que la desviación estándar de la presión arterial en la población es de 15, entonces el tamaño de la muestra requerido es 4 × 1.96 2 × 15 2 6 2 = 96.04 {\displaystyle {\frac {4\times 1.96^{2}\times 15^{2}}{6^{2}}=96.04}
, que se redondearía a 97, porque el valor obtenido es el tamaño mínimo de la muestra, y los tamaños de las muestras deben ser enteros y estar sobre el mínimo calculado.