以下の文章は、Blakeley B. McShane、Eric T. Bradlow、John G. Lynch Jr.、Robert J. Meyerによる論文『“Statistical Significance” and Statistical Reporting: Moving Beyond Binary』(Journal of Marketing, 2024, Vol. 88(3), 1-19)から、「Guidelines for Statistical Analysis and Reporting」の節を日本語でまとめたものである。
- Google Scholar: https://scholar.google.co.jp/scholar?cluster=17720116793246961868
- PDF: https://www.blakemcshane.com/Papers/jm_statsig.pdf
研究結果の定量化は、科学的探究の重要な構成要素である。P値や関連する統計的尺度は研究結果を定量化するものではないため、それらを定量化する点推定と区間推定を報告することが極めて重要である。可能な限り、単位のない標準化された値ではなく、意味のある単位で報告すべきである。その際、以下の5つの点に留意することが重要である。
- 95%などの慣習的な水準における区間推定内のすべての値は、その計算に用いられたすべての仮定を前提として、データと少なくともかなり相性が良い。したがって、帰無仮説の値のような特定の値を一つだけ取り上げることは意味がない。
- 区間推定内のすべての値が等しく相性が良いわけではない。点推定値が最も相性が良く、その近くの値は遠くの値よりも相性が良い。
- 区間推定の外側の値は、酷く相性が悪いわけではない(論理、物理学、または仮定に基づいて除外される値、例えば0K未満の温度などを除く)。むしろ、内側の値よりも相性が悪いだけである。
- 区間推定の外側のすべての値が等しく相性が良い(悪い)わけではない。限界に近い値は遠くの値よりも相性が良く、十分に遠い値は文脈によっては非常に相性が悪い、あるいは事実上、酷く相性が悪いと見なされる場合がある。
- 区間推定は真の不確実性の度合いを過小評価しており、通常は甚だしく過小評価している。なぜなら、それが提供する相性の良さの評価(およびP値、尤度比、事後確率、ベイズ因子などの関連する統計的尺度)は、採用されたすべての仮定の正しさに依存しており、これらの仮定は通常、自明とは程遠いからである。したがって、仮定をできるだけ明確にし、検証可能なものは検証し(例:データとモデル推定値のプロット、代替モデルの推定、ランダム化メカニズムがプロトコルに従ったこと、測定機器が適切に機能したことの確認)、多くは検証不可能であり、多くは暗黙的であるか見過ごされていることを認識すること。
最後に、研究結果の実践的重要性について議論することが必要または望ましいと判断される場合(例:さらなる研究が必要である、または実践的に重要でないという意味で「null」であると主張する場合)には、点推定値だけでなく、少なくとも区間推定の下限と上限の両方の実践的重要性についても議論すること。その際、実践的重要性の解釈は文脈に依存し、他者は異なる解釈を持つ可能性があり、解釈の多様性は問題ではないことを心に留めておくこと。
95%という水準は、それが由来する0.05という閾値と同様に、恣意的な慣習である。したがって、異なる応用においては、異なる、あるいは複数の水準が正当化される。実際、複数の水準で区間推定を報告する方がより正確で完全である。したがって、少なくとも中心的な推定対象については、複数の水準で区間推定を報告し、可能であれば0%から100%までのすべての水準に対する区間推定をプロットすること。その際、特定水準の区間推定は、特定の値のP値と同様に、その計算に用いられたすべての仮定を前提とした場合に、その内部の値とデータとの相性の良さを評価するだけであり、データを前提としたそれらの値の確率やもっともらしさを評価するものではないことに留意することが重要である。この区別は微妙なものではない。相性の良さは、確率やもっともらしさよりもはるかに弱い条件である。例えば、データ収集やデータ管理における未知の誤り、さらにはデータの意図的な改変や完全な捏造は、それらの説明の確率が低い、あるいは、もっともらしくないように見えても、常にデータと相性が良い説明であることを考えればよい(実際に、マーケティングや生物医学・社会科学の分野で影響力のあるいくつかの研究で起こっている)。
「P値は、それが提供する追加情報と共に、科学的問題においては固定された水準[すなわち閾値]よりも一般的に適切である」。したがって、P値を報告することが必要または望ましいと判断される場合には、P値は連続的に、かつ適切な精度(通常は小数点以下2桁、多くても3桁程度)で報告し、決して二分的な不等式(例:p < .05 や p > .05)として報告してはならない。
この情報を得た読者は、それを適切に利用できるため、結果が「統計的に有意」であるとか「統計的に非有意な」といった報告、ましてや「限界的に統計的有意」であるとか「統計的有意性に近づいている」といった表現は避けること。同様に、閾値を示すアスタリスクやその他の装飾も避けること。さらに、中心的な推定対象については少なくとも複数の水準で区間推定を報告するという推奨に関連して、そのような量について効果がないという対象(帰無)仮説に対するP値を報告する際には、効果に関する関連する非ゼロ仮説の値に対するP値も少なくとも一つ報告するか、あるいは効果の様々な値に対するP値をプロットすること。最後に、尤度比、事後確率、ベイズ因子といったP値に関連する統計的尺度を報告する際も、これらの推奨事項を適宜準用すること。
編集者や査読者は通常、研究のサンプルサイズについて何らかの根拠を求めるが、しばしば事前(a priori)の検出力計算に基づくものを望む。しかし、そのような計算は不可能である。なぜなら、研究における真の効果を知る必要があり、それは常に未知であり(研究実施前だけでなく実施後も)、もし知られていれば研究を行う必要がなくなるからである。さらに、単一研究の観測された検出力や複数研究のメタ分析から得られる平均検出力といった事後的な検出力の評価は、深刻な問題があり(例:無関係であり、通常はバイアスがかかり、大きな標本変動を持つ)、したがって計算も報告もすべきではない。代わりに、サンプルサイズの根拠が何であったかを単純に報告すること。例えば、先行研究で用いられたものに基づいていた、データを提供した企業の顧客基盤の規模(あるいは企業が提供を厭わなかった規模)であった、資源の制約上可能な最大規模であった、あるいはある推定値の特定の精度水準を達成するために選ばれた(すなわち、パラメータ推定の精度を目標とするアプローチ)などである。
多くの研究者は、二分的な決定を下す必要があると信じおり、さらにNHST(帰無仮説有意性検定)がそのための厳密な枠組みを提供していると信じている。しかし、科学的な報告において決定が必要となることは稀である。むしろ、それらは経営者や臨床医のような最終利用者に委ねるのが最善である。さらに、二分的と認識されている決定の多くは、実際には連続的である(例:投資するか否かの決定は、いくら投資するかの決定としてより適切に特徴づけられる)。最後に、決定(二分的であれその他であれ)が必要な場合には、すべての可能な結果のコスト、便益、確率を損失関数を介して統合する決定分析を用いて行われるべきである。これは、P値のような統計的要約に恣意的な閾値を適用することによって行われるべきではない。P値は、工業的な品質管理のような特定の応用分野を除き、この目的には不十分である。