データマイニング」カテゴリーアーカイブ

Kaggle Titanicチュートリアル: Random Forest編

前回の記事ではロジスティック回帰モデルで生存者予測を行いました。 ロジスティック回帰モデルは「目的変数(生存しやすさ)を特徴量の重み付けで表現しモデルの可読性が高い」という利点がある一方で 目的変数と特徴量の間には「単調… 続きを読む »


Kaggle Titanicチュートリアル: ロジスティック回帰モデル編

単変量モデル編では特徴量ごとにロジスティック回帰モデルを構築し精度評価を行いました。ここでは7つの特徴量を使って生存者を予測するモデルを構築します。 今までのモデルと比べ 互いに相関のある複数の特徴量を用いる モデルのハ… 続きを読む »


機械学習モデルのデータ分割/評価方法

良い機械学習モデルを作るにはモデルの良さを「正しく」評価する必要があります。実際、機械学習プロジェクトでモデルを正しく評価していなかったために 検討時は良いモデルができた(と思っていた) いざ業務で使うと精度が悪くて使い… 続きを読む »


Kaggle Titanicチュートリアル: 単変量モデル編

ベースラインモデル編では「Majority classifier」を構築しました。Majority classifierは特徴量を1つも用いずすべて「死亡」と予測するモデルでしたが、ここでは特徴量を1つだけ用いる単変量モ… 続きを読む »


重回帰モデルの予測区間

誤差項が独立同一な正規分布に従う場合、「回帰係数の確率分布」の結果から予測区間(Prediction Interval)を構成することができます。 なお、予測区間の意味や解釈の仕方、信頼区間との違いがややこしく誤解しやす… 続きを読む »


重回帰モデルの信頼区間

誤差項が独立同一な正規分布に従う場合、「回帰係数の確率分布」の結果から信頼区間(Confidence Interval)を構成することができます。 なお、信頼区間の意味や解釈の仕方、予測区間との違いがややこしく誤解しやす… 続きを読む »


回帰係数の有意性検定

誤差項が独立同一な正規分布に従う場合、「回帰係数の確率分布」で見たように最小二乗推定量[math]\boldsymbol{\hat{\beta}}[/math]と誤差項の分散[math]\sigma^2[/math]の不… 続きを読む »


重回帰モデルの最尤推定量

ここからは誤差項が正規分布に従うモデルを考えます。 [math] \begin{eqnarray} 
Y_i &=& \beta_0 + \beta_1 x_1 + \cdots + \beta_P … 続きを読む »


重回帰モデルの最小二乗推定量とガウス・マルコフの定理

今までは学習データ[math](x_{i,1},\ x_{i,2},\dots,\ x_{i,P},\ y_i)[/math]に確率的な仮定を置かず回帰超平面の当てはめを考えましたが、ここからは確率的な誤差項を含むモデル… 続きを読む »