【ビックデータを機械学習させたい!】Kaggleの紹介

f:id:ehu_J:20180721215617p:plain

※KaggleのHP

Kaggle

「カグル」と読み、データサイエンス向けにコンテストを開催しているサイトです。結論から言いますと、自分は「画像の機械学習をしてみたい」「ビックデータ解析をしてみたい」などという人向けです。プロの方だけでなく、初心者も集まるサイトです。

 

なぜKaggleに集まるのか

たとえ、初心者「ビックデータ解析をしてみたい」という人は、数あるデータからどうやって特徴を見つけるのでしょうか?また、「データは何でもいいから、ビックデータ解析し、傾向をみつけ、未来を予測したい」と思ったとしましょう。そしたら、まずデータを収集するところから始めるはずです。ですが、それでは、ビックデータ解析に手を付けるまで、時間がかかってしまいます。また、収集プログラムを作ったとしても、上手く集まらなかったりします。そんな時にKaggleです。Kaggleは初めからデータセットがそろっています。

 

Kaggleは初めからデータがそろっている

f:id:ehu_J:20180721224136p:plain

※Kaggleに投稿されてるデータセット一覧

KaggleのHPの上のタブの「Datasets」には機械学習に必要なデータがそろっています。

コンテストが頻繁に開催

また、HPの上のタブの「Competitions」では、コンテストが開催されています。

f:id:ehu_J:20180721233344p:plain

※Competitionのトップ

コンテストでは、様々な種類が開催されています。例えば、タグで「geology」(地質学)、「image」(画像)、「banking」(銀行業)などがあります。検索もできます。具体的には「3か月で10店舗のそれぞれの50商品から、3か月間の商品ごと売上個数を予測する」などがあります。

 

f:id:ehu_J:20180721232423p:plain

「3か月で10店舗のそれぞれの50商品から、3か月間の商品ごと売上個数を予測する」コンテスト

このコンテストでは、トレーニングデータとして、「販売した日付」「ストアID」「商品ID」「一度に売上げた数」 があたえられ、3か月間でそれぞれの商品がどのくらい売れるかを予測するコンテストです。

 コンテストでは、正解率も出してくれる

ただデータセットがそろっているだけではなく、データを解析して結果をアップロードすると、どのくらいあっているのかを割合で結果を出してくれます。(競技プログラミングAtCoderみたいですね)

 

f:id:ehu_J:20180721224735p:plain

※Scoreの結果:0.76076

例えば、Kaggle社が開催しているTitanicコンテストでは「76%」の精度で予想できました。このコンテストはOpeningになっており何時でも参加できます。初心者に最適なコンテストとして、「Kaggle 入門」と検索するとTitanicを扱っている記事が沢山出てきます。

 

精度が良く、成績が良いと賞金があることも

f:id:ehu_J:20180721233344p:plain

TGS社では、1000000$を賞金としているようです。すごいですね。

 

今回はKaggleの凄さを解説しました。自分もKaggleを最近知り始めました。ぶっちゃけ自分もこのKaggleはすごいと思いました。ではよいカグルライフを!