統計的仮説検定 | 有意に無意味な話

「仮説検定」と聞くとなんらかの仮説を検証して白黒をはっきりとさせるようなイメージがありますが、統計的な「仮説検定」は

示したい命題を否定した命題を確率的に否定する

というなんとも歯切れの悪い論理になっており苦手な人も多いのではと思います。

「仮説検定」は確かにとっつきにくいですが

売上を予測するモデルを作ったが「意味のあるモデル」が出来たと言えそうか？
開発した新薬は既存薬より効果が高いと言えそうか？
将棋プログラムを変更した時に変更前のプログラムとの対戦を何局くらいしてどれくらいの勝率になれば「変更して強くなった」と言えそうか？

といった疑問に答えを与え、意思決定につなげることのできる手法です。

仮説検定の定義

まずは仮説検定で出てくる概念を定義します。

仮説とは母集団のパラメタに関する命題である

数理統計における仮説とはある母集団のパラメタについて知りたいこと、示したいことを記述したものになります。例えば上の例では

売上を回帰したモデルの回帰係数が0（=予測に寄与していない）よりは充分離れた値と言えそうか
開発した新薬は既存薬の治癒率よりは高いと言えそうか
変更後の将棋プログラムの勝率が50%よりは高いと言えそうか

が仮説になります。

仮説検定の取っつきにくさの理由の一つですが、関心のある命題を直接的に示すのではなく否定した命題を考えます。否定した命題を「帰無仮説」^[1]「無に帰する」つまり否定されるべき仮説というのがその名の由来です。、関心のある命題を「対立仮説」と呼び、きちんと定義すると以下になります。

仮説検定における2つの相補的な仮説を帰無仮説(null hypothesis)と対立仮説(alternative hypothesis)と呼び、それぞれ[math]H_0, H_1[/math]と表記する。

先ほどの将棋プログラムの変更の例でいうと変更後の勝率を[math]\theta[/math]として

[math]H_0[/math]: [math]\theta \leq 0.5[/math]
[math]H_0[/math]: [math]\theta > 0.5[/math]

つまり、変更しても「勝率の改善につながらなかった」というのが帰無仮説[math]H_0[/math]で、対立仮説が「勝率の改善につながらなかった（[math]H_0[/math]）ということはない」になります。

仮説[math]H_0, H_1[/math]のどちらが正しいかを判断するために標本から計算した統計量を検定統計量(test statistic)といいます。帰無仮説[math]H_0[/math]が正しいとした時に検定統計量[math]T[/math]がある範囲[math]R[/math]に対して

[math]T\in R[/math]ならば[math]H_0[/math]を棄却(reject)して[math]H_1[/math]を採択する。
[math]T\notin R[/math]ならば[math]H_0[/math]は棄却できず[math]H_0[/math]を採択する。

とします。この範囲[math]R[/math]を棄却域(rejection region)と言います。

仮説検定の具体例

では、どのようにして仮説[math]H_0, H1[/math]のどちらが正しいかを判断するのか将棋プログラムの変更の例でみてみましょう。ここでは次の状況を考えます。

変更前と変更後のプログラムで自己対戦を1000局実施
変更後のプログラムが550勝450敗

変更後のプログラムが勝率[math]55\%[/math]なので強くなったように思えますが、統計的な仮説検定でははやる気持ちを抑えて一度、帰無仮説[math]H_0[/math]が正しいという立場に立ちます。つまり将棋プログラムの変更をしても

勝率の改善につながらなかった[math](\theta \leq 0.5)[/math]

のに1000局の自己対戦では

「たまたま」変更後のプログラムが550勝と勝ち越した

と考えます。そしてその「たまたま」が

通常起こりえそうな事象
とてもそうとは言えなさそうな事象

なのかを確率を使って評価します。ここでは1000局した時の勝ち数[math]W[/math]を検定統計量とします。[math]W[/math]は二項分布[math]B(1000,\theta)[/math]に従うので[math]\theta \leq 0.5[/math]の状況下で「たまたま」[math]550[/math]勝以上してしまう事象が生じる確率を評価すると

[math]P(W\geq 550)<0.01[/math]

と[math]1\%[/math]未満であり通常起こりえなさそうだと分かります。このことから帰無仮説が正しいとすると通常起こりえなさそうなことが起きており「帰無仮説は正しくない」、つまり

対立仮説が正しく変更が勝率の改善につながらなかったことはなさそう

と考えます。

ここでは、通常起こりえそうな事象か、とてもそうとは言えなさそうかの基準を[math]1\%[/math]としました。この基準を有意水準(significance level)といい[math]1\%[/math]や[math]5\%[/math]が採用されることが多いです。なお、標本から求めた検定統計量の確率を直接評価しましたが、有意水準[math]1\%[/math]に対する棄却域を求めておくと

[math]r\geq 537 \Rightarrow P(W\geq r)<0.01[/math]

なので棄却域[math]R=\left\{r\ |\ r\geq 537\right\}[/math]となります。

仮説検定の検定手順

上記の流れをまとめると、統計的な仮説検定は以下の手順で行います。

有意水準[math]\alpha[/math]を決める
帰無仮説、対立仮説を立てる
帰無仮説の下で何らかの分布に従う検定統計量[math]T[/math]を決める
[math]P(T\in R)< \alpha[/math]となる棄却域[math]R[/math]を求める
観測した標本から検定統計量[math]T[/math]を求め棄却域[math]R[/math]に入るか判定する
棄却域に入れば対立仮説を採用し、そうでなければ帰無仮説を採用する

シリーズ記事

統計学
- 仮説検定（本記事）
- 尤度比検定
- 仮説検定の過誤と検出力関数
- 一様最強検出力検定とネイマン・ピアソンの補題
- 単調尤度比とKarlin-Rubinの定理

参考文献

Casella, G and Berger, R.L.(1990), Statistical Inference(Second Edition): Section 8.1 Introduction(Hypothesis Testing)

脚注[+]

脚注
↑1	「無に帰する」つまり否定されるべき仮説というのがその名の由来です。

仮説検定

仮説検定の定義

仮説検定の具体例

仮説検定の検定手順

シリーズ記事

参考文献

関連記事

コメントを残すコメントをキャンセル

仮説検定の定義

仮説検定の具体例

仮説検定の検定手順

シリーズ記事

参考文献

関連記事

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル