Stimarea unei proporțiiEdit
O situație relativ simplă este estimarea unei proporții. De exemplu, putem dori să estimăm proporția de locuitori dintr-o comunitate care au cel puțin 65 de ani.
Stimatorul unei proporții este p ^ = X / n {\displaystyle {\hat {p}}=X/n}.
, unde X este numărul de observații „pozitive” (de exemplu, numărul de persoane din cele n persoane eșantionate care au cel puțin 65 de ani). Atunci când observațiile sunt independente, acest estimator are o distribuție binomială (scalară) (și este, de asemenea, media eșantionului de date dintr-o distribuție Bernoulli). Varianța maximă a acestei distribuții este de 0,25n, care apare atunci când parametrul adevărat este p = 0,5. În practică, deoarece p este necunoscut, varianța maximă este adesea utilizată pentru evaluarea dimensiunii eșantionului. În cazul în care se cunoaște o estimare rezonabilă pentru p, cantitatea p ( 1 – p ) {\displaystyle p(1-p)}
poate fi utilizată în loc de 0,25.
Pentru n suficient de mare, distribuția lui p ^ {\displaystyle {\hat {p}}}}.
va fi aproximată îndeaproape de o distribuție normală. Folosind aceasta și metoda Wald pentru distribuția binomială, se obține un interval de încredere de forma ( p ^ – Z 0,25 n , p ^ + Z 0,25 n ) {\displaystyle \left({\widehat {p}}-Z{\sqrt {\frac {0,25}{n}}},\quad {\widehat {p}}+Z{\sqrt {\frac {0.25}{n}}}}\right)}
, unde Z este un scor Z standard pentru nivelul de încredere dorit (1,96 pentru un interval de încredere de 95%).
Dacă dorim să avem un interval de încredere care are o lățime totală de W unități (W/2 de fiecare parte a mediei eșantionului), vom rezolva
Z 0,25 n = W / 2 {\displaystyle Z{\sqrt {\frac {0.25}{n}}}=W/2}
pentru n, obținând dimensiunea eșantionului
n = Z 2 W 2 {\displaystyle n={\frac {Z^{2}}}{W^{2}}}}
, în cazul în care se folosește 0,5 ca fiind cea mai conservatoare estimare a proporției. (Notă: W/2 = marja de eroare.)
În caz contrar, formula ar fi Z p ( 1 – p ) n = W / 2 {\displaystyle Z{\sqrt {\frac {p(1-p)}{n}}}=W/2}}
, ceea ce conduce la n = 4 Z 2 p ( 1 – p ) W 2 {\displaystyle n={\frac {4Z^{2}p(1-p)}{W^{2}}}}
.
De exemplu, dacă suntem interesați să estimăm proporția din populația SUA care susține un anumit candidat la președinție și dorim ca lățimea intervalului de încredere de 95% să fie de cel mult 2 puncte procentuale (0,02), atunci am avea nevoie de un eșantion de (1,962)/(0,022) = 9604. Este rezonabil să folosim estimarea de 0,5 pentru p în acest caz, deoarece cursele prezidențiale sunt adesea apropiate de 50/50 și, de asemenea, este prudent să folosim o estimare conservatoare. Marja de eroare în acest caz este de 1 punct procentual (jumătate din 0,02).
Cele de mai sus sunt simplificate în mod obișnuit…
( p ^ – 1.96 0.25 n , p ^ + 1.96 0.25 n ) {\displaystyle \left({\widehat {p}}-1.96{\sqrt {\frac {0.25}{n}}}},{\widehat {p}}+1.96{\sqrt {\frac {0.25}{n}}}\right)}
va forma un interval de încredere de 95% pentru proporția adevărată. Dacă acest interval nu trebuie să aibă o lățime mai mare de W unități, ecuația
4 0,25 n = W {\displaystyle 4{sqrt {\frac {0,25}{n}}}=W}
poate fi rezolvată pentru n, rezultând n = 4/W2 = 1/B2 unde B este limita de eroare a estimării, adică, estimarea este dată, de obicei, cu o limită de ± B. Astfel, pentru B = 10% este necesar n = 100, pentru B = 5% este necesar n = 400, pentru B = 3% cerința se apropie de n = 1000, în timp ce pentru B = 1% este necesară o dimensiune a eșantionului de n = 10000. Aceste cifre sunt citate adesea în știrile despre sondajele de opinie și alte sondaje de opinie. Cu toate acestea, rețineți întotdeauna că este posibil ca rezultatele raportate să nu reprezinte valoarea exactă, deoarece numerele sunt de preferință rotunjite în sus. Știind că valoarea lui n este numărul minim de puncte de eșantionare necesare pentru a obține rezultatul dorit, numărul de respondenți trebuie atunci să se situeze pe sau deasupra minimului.
Estimarea unei mediiEdit
O proporție este un caz special al unei medii. Atunci când se estimează media populației folosind un eșantion independent și identic distribuit (iid) de dimensiune n, în care fiecare valoare a datelor are o varianță σ2, eroarea standard a mediei eșantionului este:
σ n . {\displaystyle {\frac {\sigma }{\sqrt {n}}}.}
Această expresie descrie cantitativ modul în care estimarea devine mai precisă pe măsură ce mărimea eșantionului crește. Folosind teorema limitei centrale pentru a justifica aproximarea mediei eșantionului cu o distribuție normală se obține un interval de încredere de forma
( x ¯ – Z σ n , x ¯ + Z σ n ) {\displaystyle \left({\bar {x}}-{\frac {Z\sigma }{\sqrt {n}}},\quad {\bar {x}}+{\frac {Z\sigma }{\sqrt {n}}}\right)}
, unde Z este un Z-score standard pentru nivelul de încredere dorit (1.96 pentru un interval de încredere de 95%).
Dacă dorim să avem un interval de încredere care are o lățime totală de W unități (W/2 de fiecare parte a mediei eșantionului), am rezolva
Z σ n = W / 2 {\displaystyle {\frac {Z\sigma }{\sqrt {n}}}=W/2}
pentru n, rezultând dimensiunea eșantionului
n = 4 Z 2 σ 2 W 2 {\displaystyle n={\frac {4Z^{2}\sigma ^{2}}}{W^{2}}}}
. (Notă: W/2 = marja de eroare.)
De exemplu, dacă suntem interesați să estimăm valoarea cu care un medicament scade tensiunea arterială a unui subiect cu un interval de încredere de 95% care are o lățime de șase unități și știm că deviația standard a tensiunii arteriale în populație este de 15, atunci dimensiunea necesară a eșantionului este de 4 × 1.96 2 × 15 2 × 15 2 6 2 = 96.04 {\displaystyle {\frac {4\times 1.96^{2}\times 15^{2}}}{6^{2}}}=96.04}}.
, care va fi rotunjită la 97, deoarece valoarea obținută este dimensiunea minimă a eșantionului, iar dimensiunile eșantioanelor trebuie să fie numere întregi și să se situeze pe sau peste minimul calculat.