Skip to content

Instantly share code, notes, and snippets.

Show Gist options
  • Select an option

  • Save genkuroki/37c6e49f167173cca41411fd8cda379e to your computer and use it in GitHub Desktop.

Select an option

Save genkuroki/37c6e49f167173cca41411fd8cda379e to your computer and use it in GitHub Desktop.

ソース

このまとめは以上のソースからNotebookLMによって作成。画像も上のソースより。


P値から信頼区間へ:なぜ「二分法への執着」という根本問題は解決しないのか

序文:表面的な解決策の危険性

科学界では長年にわたり、研究結果の妥当性を判断する上でP値への過度な依存が問題視されてきました。その結果、P値の誤用を避け、より多くの情報を提供する代替案として「信頼区間」を報告することが広く推奨されるようになりました。しかし、この移行は本当に統計的推論における根本的な問題を解決するのでしょうか。本レポートの目的は、単に報告する統計手法をP値から信頼区間に切り替えるだけでは、科学界を長年悩ませてきた認知バイアス、すなわち結果を単純な二元論で判断してしまう「二分法への執着」から逃れられないことを、具体的な証拠を用いて論証することです。表面的な解決策に飛びつく前に、私たちはまず、なぜ「統計的有意性」という概念そのものがこれほどまでに誤解され、誤用されてきたのかを深く理解する必要があります。


1. 根本的な誤解:二者択一のスイッチとしての「統計的有意性」

本セクションでは、現代の研究実践における最初の過ち、すなわち、本来はニュアンスに富んだ統計的尺度であるP値が、粗雑な二元論的スイッチへと変質してしまった経緯を解剖します。この根本的な誤解が、いかにして科学文献全体を汚染するに至ったかを明らかにすることが、ここでの戦略的な目的です。P値は本来、データと特定の統計モデル(例えば「効果がない」という帰無仮説)との間の不一致度を示す連続的な指標です。しかし実際には、「p < 0.05」という恣意的な閾値を用いて、結果を「統計的に有意」か「統計的に非有意」かという二つのカテゴリーに分類するための、単純なスイッチのように扱われてきました。

この誤用は研究の解釈を歪め、深刻な影響を及ぼしています。ある調査では、数百もの科学論文を分析した結果、統計的に非有意であった研究が、その結果を「差がなかった」「効果がなかった」と誤って解釈していたことが明らかになっています。これは、「統計的に非有意な結果は、帰無仮説(差がないという仮説)を『証明』するものではない」という、何世代にもわたって研究者に与えられてきた警告を無視する行為に他なりません。

図1: 誤った解釈の蔓延

5大陸の5つの学術誌に掲載された791本の論文を分析した結果、統計的に非有意な結果を「効果なし」と誤って結論づけていた論文は 約半数(51%) にのぼった。 出典: Nature 567, 305-307 (2019) に基づき作成。データは P. Schatz et al. (2005), F. Fidler et al. (2006), R. Hoekstra et al. (2006), F. Bernardi et al. (2017) の調査結果を統合したもの。

この「差がない」という誤った断定こそが、実際には限定的な証拠しか得られていない結果を過大に主張したり、本来は類似した研究間に存在しないはずの「矛盾」を作り出したりする温床となっているのです。問題は、この思考の罠がP値に固有のものではなく、信頼区間を用いる際にも全く同じ形で現れうることです。


2. 信頼区間の罠:抗炎症薬の事例研究

このセクションの戦略的重要性は、具体的な事例研究を分析することによって、P値の代わりに信頼区間を用いても解釈を誤る危険性が依然として存在するという決定的な証拠を示すことにあります。信頼区間の解釈を誤れば、P値と同様の罠に陥るという問題を、抗炎症薬の副作用に関する二つの研究事例が明確に示しています。

2.1. 「統計的に非有意」とされた研究の分析

ある研究グループは、抗炎症薬の使用が新規心房細動(不整脈の一種)のリスクと関連しているかを調査しました。彼らの分析結果は以下の通りです。

  • リスク比: 1.2(薬を使用した患者は、使用しなかった患者に比べてリスクが20%高い)
  • 95%信頼区間: リスクが3%減少する可能性から、48%増加する可能性までの範囲(リスク比 0.97~1.48)
  • P値: 0.091

この結果に基づき、研究者たちは信頼区間が「差がない」ことを示す1.0を含んでおり、P値が0.05より大きいため、「統計的に非有意」であるとし、「薬の使用と心房細動との間に関連はなかった」と結論づけました。しかし、この結論は全くもって馬鹿げています(ludicrous)。なぜなら、彼らが算出した信頼区間には「48%のリスク増加」という、臨床的に極めて深刻な可能性が明確に含まれているからです。データと適合性の高い結果の中に重大なリスクが含まれているにもかかわらず、「関連なし」と断定することは、情報を意図的に無視する行為に等しいのです。

2.2. 「統計的に有意」とされた研究との比較

次に、同じテーマを扱った別の先行研究を見てみましょう。こちらの研究結果は「統計的に有意」とされていました。

  • リスク比: 1.2(先の研究と完全に同一)
  • 95%信頼区間: リスクが9%増加する可能性から、33%増加する可能性までの範囲(リスク比 1.09~1.33)
  • P値: 0.0003

この研究は、より多くのデータを用いるなどして、より精度の高い推定を行いました。注目すべきは、観測された効果の大きさ(点推定値であるリスク比1.2)は、先の研究と全く同じであったという点です。にもかかわらず、先の研究の研究者たちは、自分たちの「非有意」な結果が、この「有意」な先行研究の結果とは「対照的である」と主張しました。これもまた、**同様に馬鹿げた(equally absurd)**主張です。二つの研究は、全く同じ大きさの効果を示唆しており、結果の精度(信頼区間の幅)が異なるだけです。これらは矛盾するどころか、むしろ整合的な結果と見るべきです。

この事例研究が示す重要な教訓は、信頼区間がゼロ(この事例ではリスク比1)を含むかどうかだけで結論を二分することは、P値が0.05の閾値を超えるかどうかで判断するのと全く同じ「二分法」の誤りであるということです。この問題は、特定の統計手法に根差すものではなく、私たちの認知のあり方に深く関わっています。


3. 真の原因:統計手法ではなく認知バイアス

このセクションでは、問題の根本原因が特定の統計手法にあるのではなく、結果を二元的なカテゴリーに分類しようとする人間の認知傾向にあることを論じます。この認知バイアスを特定し、その影響を理解することが、真の解決策への道筋を描く上で戦略的に不可欠です。

この傾向は**「二分法への執着(dichotomania)」**と呼ばれます。これは、結果を「統計的に有意」と「統計的に非有意」という二つの箱に分類することで、両者が本質的に、あるいはカテゴリーとして異なると誤解してしまう人間的・認知的な問題です。この認知バイアスは非常に根深いため、P値の使用をやめても、二分法的な判断を伴う他のいかなる代替案も、同様の問題に陥る可能性があります。それはベイジアン統計で用いられるベイズファクターであっても例外ではありません。

さらに、この「二分法への執着」は、科学の健全性を脅かす深刻な副作用をもたらします。「統計的有意性」という明確な境界線が存在することで、研究者は無意識的あるいは意識的に、その境界線を越えるためにデータ収集の方法や分析手法を選択してしまう誘惑に駆られます。これにより、望ましい結果(出版されやすい「有意な」結果など)は過大に評価され、望ましくない結果(例えば薬の副作用など)は「非有意」として過小評価され、科学的結論全体が歪められてしまうのです。


4. 前進への道:「相性区間」による不確実性の受容

単なる問題指摘に留まらず、建設的な解決策を提示することが本セクションの戦略的な目的です。統計的尺度を二元的に解釈するのではなく、不確実性をありのままに受け入れるための具体的な思考法を論じます。問題の根本原因が認知バイアスにある以上、真の解決策は単なる手法の置き換えではなく、私たちの思考様式そのものを変えることにあります。

その具体的な第一歩として、信頼区間(confidence intervals)「相性区間(compatibility intervals)」相性が良いか」を示すものと解釈します。

「相性区間」を解釈する際には、以下の4つの点に留意することが極めて重要です。

  1. 区間の外側の値も可能性はある:区間はデータと「最も」相性が良い値の範囲を示しますが、区間のすぐ外側にある値が完全に否定されるわけではありません。それらは単に相性が少し低いだけです。
  2. 区間内のすべての値が等しいわけではない:区間内の値の中でも、点推定値(観測された効果)が最もデータとの相性が良く、区間の端に近づくにつれて相性は低くなっていきます。
  3. 95%という基準は恣意的である:信頼区間を計算する際に慣習的に用いられる95%という数値に、科学的な必然性はありません。これはあくまで便宜上の慣習です。
  4. 常に謙虚であるべき:最も重要なことですが、全ての解釈は、分析の基礎となる統計的仮定(例えば、データの収集方法やモデルの選択)が正しいという条件の上で成り立っています。これらの仮定は常に不確実性を伴うため、結論に対しては謙虚な姿勢を保つべきです。

このアプローチを先の抗炎症薬の事例に適用すると、解釈は次のように変わります。研究者は「関連なし」と断定する代わりに、以下のように記述することができたでしょう。

「以前の研究と同様に、我々の結果は、抗炎症薬を投与された患者において、新規心房細動のリスクが20%増加することを示唆している。しかしながら、わずかな負の関連である3%のリスク減少から、実質的な正の関連である48%のリスク増加までの範囲もまた、我々のデータと仮定に照らして、かなり相性が良い」

この記述は、観測された効果(20%のリスク増)を正直に報告しつつ、その推定に伴う不確実性の範囲を明確に示すことで、「差がない」という誤った宣言を回避しています。このようなニュアンスに富んだアプローチこそが、科学的推論の質を向上させる鍵となります。


5. 結論:閾値を超え、思慮深い推論へ

本レポートで論じてきたように、統計的推論における根本的な問題は、特定の統計手法にあるのではなく、それらをいかに解釈し、使用するかにあります。P値から信頼区間への移行は、それ自体が解決策にはなり得ません。真の課題は、統計的尺度を用いて結果を「有意」か「非有意」か、「効果あり」か「効果なし」かといった二元的なカテゴリーに分類する慣行そのものを終わらせることです。

「統計的有意性」という概念を引退させた後の科学は、より豊かで誠実な姿となるでしょう。研究者は、より詳細でニュアンスに富んだ記述を行い、推定された効果の大きさとそれに伴う不確実性の範囲を強調するようになります。論文が出版されるかどうかが、恣意的な統計的閾値によって左右されることもなくなります。それは、科学者が機械的な手順から解放され、より深い科学的思考に従事する世界です。

最終的な目標は、ある示唆に富んだ言葉に集約されています。

「人々は統計ソフトウェアと向き合う時間を減らし、考えることにもっと時間を使うようになるだろう」

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment