Kaggle Titanicチュートリアルでみる機械学習のポイント

世界最大の分析コンペティションサイトKaggleでは、機械学習およびKaggleのチュートリアルとして「Titanic: Machine Learning from Disaster」が用意されています。

このチュートリアルでは映画でも有名なタイタニック号の沈没事故を題材に

乗客の情報(性別、年齢、客室のグレードなど)から生存者を予測すること

が目標です。

生存者を予測するには

  • 欠損値などのデータハンドリング
  • 地道なデータ理解と特徴量生成
  • 過学習に陥らないようにモデル構築

をきちんと行う必要があり機械学習のポイントを学べる内容になっています。また、効率よく精度の良いモデルを構築するには

  • データ分析ライブラリ(Pandas, scikit-learnなど)の活用
  • 機械学習アルゴリズムの体系的な理解と適用
  • データ、分析コード、乱数の管理

が必要でチュートリアルとはいえ研究や業務で機械学習を使う人にとっても良い訓練になると思います。

ここではチュートリアルを通じて、ただ高精度なモデルを構築することだけではなく機械学習モデルを構築する上でのポイントにも順次、触れていきたいと思います。

1. 分析準備

  • 準備編: Kaggleの歩き方、Titanicチュートリアルの内容/ルール把握
  • 環境構築編: データ/環境準備

2. 探索的データ解析

モデル構築編

スポンサーリンク