誤差項が独立同一な正規分布に従う場合、「回帰係数の確率分布」の結果から信頼区間(Confidence Interval)を構成することができます。
なお、信頼区間の意味や解釈の仕方、予測区間との違いがややこしく誤解しやすいので「単回帰モデルの信頼区間」も合わせて参照ください。
確率モデル
表記をシンプルにするためこちらの記事で定義したベクトル、行列を使うと
[math]
\boldsymbol{Y} = \boldsymbol{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon},\ \boldsymbol{\varepsilon}\sim \mathcal{N}(\boldsymbol{0}, \sigma^2\boldsymbol{I}_N)
[/math]
とかけます。
確率モデルは何が確率変数で何が確定値なのかわかりにくいのでまとめると
- [math]\boldsymbol{X},\ \boldsymbol{y}[/math]: 既知の確定値
- [math]\boldsymbol{\beta},\ \sigma^2[/math]: 未知の確定値
- [math]\boldsymbol{Y},\ \boldsymbol{\varepsilon}[/math]: 確率変数
になります。
最小二乗推定量[math]\boldsymbol{\hat{\beta}}[/math]と分散の不偏推定量[math]S^2[/math]の確率分布
誤差項が独立同一な正規分布に従う場合、最小二乗推定量[math]\boldsymbol{\hat{\beta}}=\left(\boldsymbol{X}^T\boldsymbol{X}\right)^{-1}\boldsymbol{X}^T\boldsymbol{Y}[/math]と分散[math]\sigma^2[/math]の不偏推定量[math]S^2=\frac{1}{N-P-1} \left(\boldsymbol{Y} – \boldsymbol{X}\boldsymbol{\hat{\beta}}\right)^T\left(\boldsymbol{Y} – \boldsymbol{X}\boldsymbol{\hat{\beta}}\right)[/math]の確率分布を求めることができます。
- [math]\boldsymbol{\hat{\beta}}\sim \mathcal{N}\left(\boldsymbol{\beta}, \sigma^2(\boldsymbol{X}^T\boldsymbol{X})^{-1}\right)[/math]
- [math]\frac{(N-P-1)S^2}{\sigma^2} \sim \chi^2_{N-P-1}[/math]
- [math]\boldsymbol{\hat{\beta}}[/math]と[math]S^2[/math]は独立
推定値[math]\hat{y}[/math]が従う確率分布
ここからは説明変数を[math]\boldsymbol{x}=\boldsymbol{x}_0[/math]と任意に固定して考えます。[math]\boldsymbol{x}=\boldsymbol{x}_0[/math]での推定値[math]\hat{y}_0=\boldsymbol{\hat{\beta}}^T\boldsymbol{x}_0[/math]は[math]\hat{\beta}_i[/math]の線形和なので正規分布に従います。期待値と分散を求めると
[math]
\begin{eqnarray}
E\left[\hat{y}_0\right] &=& \boldsymbol{\beta}^T\boldsymbol{x}_0 \\
V\left[\hat{y}_0\right] &=& \sigma^2\boldsymbol{x}_0^T \left(\boldsymbol{X}^T\boldsymbol{X}\right)^{-1} \boldsymbol{x}_0
\end{eqnarray}
[/math]
となります。さらに[math]\boldsymbol{\hat{\beta}}^T\boldsymbol{x}_0[/math]は[math]S^2[/math]と独立なので統計量[math]T[/math]は
[math]
\begin{eqnarray}
T &=& \dfrac{\frac{\boldsymbol{\hat{\beta}}^T\boldsymbol{x}_0 – \boldsymbol{\beta}^T\boldsymbol{x}_0}{\sqrt{V\left[\hat{y}_0\right]}}}{\sqrt{\frac{(N-P-1)S^2}{\sigma^2}\cdot \frac{1}{N-P-1}}} \\
&=& \dfrac{\boldsymbol{\hat{\beta}}^T\boldsymbol{x}_0 – \boldsymbol{\beta}^T\boldsymbol{x}_0}{S\sqrt{\boldsymbol{x}_0^T \left(\boldsymbol{X}^T\boldsymbol{X}\right)^{-1} \boldsymbol{x}_0}}\sim t_{N-P-1}
\end{eqnarray}
[/math]
自由度[math]N-P-1[/math]の[math]t[/math]分布に従います。この結果から信頼区間を構成します。
重回帰モデルの信頼区間
統計量[math]T[/math]が自由度[math]N-P-1[/math]の[math]t[/math]分布に従うことから信頼度[math](1-\alpha)[/math]の信頼区間は[math] C_{lb}(\boldsymbol{x}_0)[/math]を
[math]
\begin{eqnarray}
\boldsymbol{\hat{\beta}}^T\boldsymbol{x}_0 – t_{N-P-1,\alpha/2}S\sqrt{\boldsymbol{x}_0^T \left(\boldsymbol{X}^T\boldsymbol{X}\right)^{-1} \boldsymbol{x}_0}
\end{eqnarray}
[/math]
とし[math]C_{ub}(\boldsymbol{x}_0)[/math]を
[math]
\begin{eqnarray}
\boldsymbol{\hat{\beta}}^T\boldsymbol{x}_0 + t_{N-P-1,\alpha/2}S\sqrt{\boldsymbol{x}_0^T \left(\boldsymbol{X}^T\boldsymbol{X}\right)^{-1} \boldsymbol{x}_0}
\end{eqnarray}
[/math]
として
[math]
C_{lb}(\boldsymbol{x}_0) \leq \boldsymbol{\beta}^T\boldsymbol{x}_0 \leq
C_{ub}(\boldsymbol{x}_0)
[/math]
で与えられます。慣習的に信頼度は[math]95\%, 99\%[/math]をとることが多いです。
なお、信頼区間は
- 信頼区間に真の値が含まれる確率…?
- 信頼区間の信頼限界が真の回帰直線を含む…?
- 信頼区間に観測値が含まれる…?
といった誤解をよくしてしまうので自信のない方は「単回帰モデルの信頼区間」も合わせて参照ください。
シリーズ記事
「機械学習」の「教師あり学習手法」の中で最も基本的な手法として「重回帰」の性質を紹介しています。
ここでは誤差項が「独立同一な正規分布」に従うと仮定すると導ける性質として
- 最尤推定量: 最尤推定量は最小二乗推定量と一致。誤差分散に対する不偏推定量を導出。
- 誤差の正規性チェック
- 回帰係数、誤差分散の確率分布: 最小二乗推定量[math]\boldsymbol{\hat{\beta}}[/math]と分散の不偏推定量[math]S^2[/math]の確率分布を導出
- 回帰係数の有意性: 最小二乗推定量[math]\boldsymbol{\hat{\beta}}[/math]の確率分布と有意性検定を導出
- 信頼区間(本記事): 真の値の推定値が従う確率分布から信頼区間を導出
- 予測区間: 観測値が従う確率分布から予測区間を導出
を解説しています。
また行列やベクトル演算が多く何をしているか理解しづらいと感じた方は説明変数が1つの場合である「単回帰」も参照ください。