Scientific Methods and Knowledge - Reproducibility and Replicability in Science - NCBI Bookshelf

STATISTICAL INFERENCE AND HYPOTHESIS TESTING

多くの科学研究は自然現象を測定、説明、予測しようとしている。また、システムに対する介入の効果を検出し、測定しようとする研究もあります。統計的推論は、それぞれの設定における科学的な問いに取り組むための概念的、計算的な枠組みを提供する。推定と仮説検証は、推論手順を大きく分けたものである。推定は、物理的定数の測定や説明変数の変化に対応する反応の変化率など、量の大きさを評価することが主目的である場合に適している。仮説検定は、自然現象や意図的な介入による影響の可能性に科学的関心が集まり、その影響に対する根拠を評価するために研究が行われるような場面に適しています。この文脈では、仮説検証は、二項対立の質問に答えるのに役立ちます。例えば、ある植物が肥料Aと肥料Bのどちらを使うと早く育つのか？少人数制のクラスで学ぶ子どもたちは、より多くのことを学ぶことができるのか？実験薬はプラセボより効果があるのか？

仮説検定は再現性・複製可能性評価の大部分に関与しているため、この統計的推論の様式について少し詳しく検討します。しかし、再現性・複製性についての考察は、他のモードや種類の統計的推論にも広く適用されます。例えば、同じデータから複数の統計的推論を行うという問題は、すべての仮説検定や推定に関連しています。

仮説検定を含む研究には、通常、結果にばらつきをもたらす多くの要因があります。これらの要因の中には、認識されているものもあれば、認識されていないものもあります。被験者やテスト対象を比較群のどちらかに無作為に割り当てることは、認識されていない変動要因と認識されている変動要因の両方の影響する可能性を制御する一つの方法です。

科学者は帰無仮説という言葉を使い、2つの介入群の間には差がない、あるいは測定された結果に対して治療の効果がないという仮定を説明しています（Fisher, 1935）。仮説検定のよく使われる定式化は、次の質問に対する答えに基づいています。帰無仮説が真である場合、観察された差と少なくとも同じ大きさの差が得られる確率は何％か？一般に、観測された差が大きければ大きいほど、帰無仮説が真であるときに観測された差と少なくとも同じ大きさの差が得られる確率は小さくなる。この帰無仮説が真であるときに観測された差と少なくとも同じ大きさの差が得られる確率を「p値」3 と呼ぶ。従来から解釈されているように、計算されたp値が定められた閾値より小さければ、その結果は統計的に有意とみなすことができる。 2016年に発表された声明の中で、アメリカ統計協会理事会（Wasserstein and Lazar, 2016, p.129）は次のように指摘しています：

P 値は有用な統計指標ですが、よく誤用や誤った解釈をされることがあります。このため、一部の科学雑誌は p 値の使用を控え、一部の科学者や統計学者は p 値の放棄を推奨しており、p 値が最初に導入されたときから本質的に変わっていない議論もあります。

最近では、p値を適切に計算し理解すれば、情報量が多く有用であるが、尤度の任意の閾値（p ≤ 0.05などのおなじみのものでも）に基づく統計的有意性の結論は有用ではなく、しばしば誤解を招くと主張されています(Wasserstein et al.)。 2019; Amrhein et al., 2019b）。

p値が何を示していないのかを理解することは、それが何を示しているのかを理解することと同じくらい重要です。特に、p値は帰無仮説が真である確率を表すものではありません。むしろ、p値は帰無仮説が真であるという仮定で計算されます。帰無仮説が真である確率、あるいは対立仮説が真である確率は、観測された結果に基づいて計算することができるが、これはp値とは違う。

介入の効果に関する仮説を含む科学的研究において、研究者は再現不可能性につながる2種類のエラーを回避しようとします。

Type I エラー-偽陽性、または帰無仮説が正しい場合の帰無仮説の棄却
Type II エラー-偽陰性、または偽帰無仮説を棄却できないこと、帰無仮説ではなく対立仮説が正しい場合に帰無仮説を成立させる

理想としては、研究で Type I および Type II エラー両方を同時に低減することが望ましいです。

研究者はしばしば、一方の誤りの可能性を減らすと他方の可能性が高まるというトレードオフを強いられることがあります。たとえば、p値が有用とみなされる場合、有意性閾値をより厳しいレベルに下げることで、タイプIエラーを最小限に抑えることができます (たとえば、標準のp≤0.05をp≤0.005に下げることで)。しかし、これは同時にタイプIIエラーの可能性を高めることになる。場合によっては、ある有意性閾値以上のp値は有意でないとみなし、より厳しい有意性閾値以下のp値は有意とみなし、2つの閾値の間のp値は決定的でないとみなす、別々の解釈ゾーンを定めることが有用であるかもしれない。あるいは、計算されたp値を、帰無仮説が真であった場合に観察された結果またはより極端な結果が得られる確率として単純に受け入れ、その結果を「有意」または「有意ではない」としてそれ以上解釈しないことも可能である。有意性を決定するための単一の閾値への従来の依存は、科学の進歩に反する行動を促す可能性があります（第5章の出版バイアスの項参照）。

複製可能性と発見の間、特に複製可能性と結果の新規性の間で緊張が生じることがあります。先験的確率が低い仮説は、再現される可能性が低くなります。この流れで、Wilson and Wixted（2018）は、画期的な結果を調査する可能性がある分野が、可能性が高く、ほぼ確立された結果を調査する分野よりも、平均的に複製可能性が低い結果を生み出すことを説明した。実際、ある分野では、すでによく知られている平凡な現象に調査を限定すれば、ほぼ完璧な複製可能性を達成することができる。 Wilson and Wixted (2018, p. 193)が述べるように、”人は食事を欠食すると空腹になるとか、徹夜すると眠くなるという知見がページいっぱいに書かれていることが想像できる “が、それは “世界の理解を進めるのにあまり役立たない “だろう。

科学の目標は、すべての結果が再現可能であることではありませんし、そうあるべきでもありません。

科学の目標は、すべての結果が再現可能であることではなく、またそうあるべきでもありません。また、科学者が確立されていない新しい現象を研究している場合、ある程度の非再現性が期待される。

観察された結果に基づいて、仮説が部分的に正しいという確率を評価することは、ベイズ分析によってアプローチすることも可能です。

付録Dは、データ生成メカニズムおよび仮説の先験的尤度に関する特定の仮定のもと、推論へのベイズ的アプローチが、仮説が正しい確率を推定するために観測データをどのように使用できるかを示しています。ベイズ解析から得られる最も顕著な教訓の一つは、実験前のオッズが実験後のオッズに大きな影響を与えることである。例えば、付録Dに示した仮定のもとで、ある実験仮説の事前確率がわずか1％で、得られた結果がp≦0.01の水準で統計的に有意であった場合、仮説が正しいとする結論はその8分の1程度に過ぎないことになる。もし事前確率が25パーセントと高ければ、そのような研究の5件中4件以上が正しいと判断されることになる。常識で判断され、ベイズ分析で定量化できるように、結果が先験的により確からしい研究 (たとえば、ボックス 2-2 を参照) よりも、非常に予想外で驚くべき結果を持つ研究の結果に、低い信頼レベルを採用することは賢明です。

BOX 2-2

実験前確率。一例です。

非常に意外な結果は、時間の経過とともに正しいと判明するのは少数派である可能性が高いにもかかわらず、重要な科学的ブレークスルーを意味する場合があります。

事前確率の考え方を念頭に置き、既存の知識に小さな進歩をもたらすことに焦点を当てた研究は、研究者が正しい可能性が非常に高い結果を探すことになるため、高い複製率 (すなわち、複製が成功する率が高い) をもたらすでしょう。しかし、そうすると、大きな新発見をする可能性が低くなるという望ましくない影響が生じます（Wilson and Wixted, 2018）。科学における多くの重要な進歩は、より推測的な仮説に基づく大胆なアプローチからもたらされていますが、この道は行き詰まりや、最初は有望に見えてもテストを繰り返すうちに生き残れなくなる洞察にもつながります。

科学に対する「安全な」アプローチと「大胆な」アプローチは、相補的な利点を備えています。しかし、研究者が新しいが不確実な発見を、再現研究によってフォローアップし、どの有望な結果が正しいかを選別することを期待するのは、妥当なことです。科学者は、推測的な仮説や、1つの研究での驚くべき結果に内在する不確実性のレベルを認識すべきなのです」

。

STATISTICAL INFERENCE AND HYPOTHESIS TESTING

BOX 2-2

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル