ここではKaggle Titanicチュートリアルを始めるにあたって必要な
- Kaggleアカウントの作成/サインイン
- Titanicチュートリアルの内容/ルール確認
について説明します。
Kaggleのアカウント作成/サインイン
まずKaggleのアカウントがないと何も始まらないのでまだアカウントがない人はアカウントを作成しましょう。Kaggleのトップページにある「Regisgter with just one click」で
Google, Facebook, Yahooのアカウントと連携するか、E-mailとパスワードを登録するとアカウントが作成できます。
アカウントが作成できれば右上の「Sign In」からサインインし上の「Competitions」を選ぶと現在開催されているコンペの一覧が見られます。その中の「Titanic: Machine Learning from Disaster」がTitanicチュートリアルになります。
Titanicチュートリアルの内容/ルール確認
Kaggleには独特の概念や機能がありその内容を理解しておく必要があります。まず、コンペのページ上部には
- Overview: コンペ概要、評価方法、FAQなど
- Data: 学習/評価データ、データ定義や説明
- Kernel: 参加者が投稿した解説&分析コード
- Discussion: 参加者の意見を交換できる掲示板
- Leaderboard: 順位表
- Rule: コンペのルール
などへのリンクが用意されています。KernelやDiscussionを通じて他の参加者と考えやコードを共有できるのがKaggleの特徴ですが、まず重要なのは「Overview」「Data」「Rule」です。特に「Overview」のページには
- Description: コンペの説明
- Evaluation: モデル精度の評価指標、提出ファイルのフォーマット
などが記載されています。特にEvaluationでは作ったモデルの結果として何が必要で、その結果をどう評価するかを定義しているのでよく理解しておく必要があります。このチュートリアルでは
- 予測結果は生存(1)か否(0)かの2値で予測
- 評価指標は「精度」、つまり乗客ごとの予測結果が正しかった割合で評価
となっています。
チュートリアルなので「期限(deadline)」はありません[1]その代わり直近2ヶ月に提出があったチームのみが評価対象になっています。が、通常のコンペだと「team作成期限」や「結果の提出期限」が設定されるので確認しておきましょう。
あわせて「Rule」のページを確認しコンペ参加にあたってのルールや制限(1日の提出回数の上限など)についても確認しておきましょう。
また、通常のコンペでは評価用データを2つに分け
- Public Leaderboard: 提出期限「前」に片方のデータで評価
- Private Leaderboard: 提出期限「後」にもう片方のデータで最終評価
しprivate leaderboardが最終結果となります。ただ、チュートリアルでは期限がなくprivate leaderboardが公表されないのでpublic leaderboardが最終結果になります。
脚注
↑1 | その代わり直近2ヶ月に提出があったチームのみが評価対象になっています。 |
---|