5 Minites Analysis：チャレンジすべき未開拓なKaggleデータは？

概要

今回は世界中の統計家やデータアナリストが最適モデルを競い合うプラットフォーム「Kaggle（カグル）」上にあるKaggle dataset about Kaggle datasetsをピックアップしてみました。このデータセットではKaggle上のデータリストを参照することが可能で、最も関心が高く、最も利用されているデータは何かということも分かります。私たちの目標は、Kaggleが提供するデータセットを調査およびフィルタリングして、ダウンロード数は多いけれどもカーネル数は非常に少ない、人気のデータセットを見つけることです。カーネル数が多いと自分の投稿が多数の投稿の中に埋もれてしまう可能性があります。Kaggleへの貢献者として、あなたは、この基準（すなわち、ダウンロード数は多いけれどもカーネル数は非常に少ない）に当てはまるデータセットにカーネルを追加したいと考えるかもしれません。

手順

今回は手順を説明するのではなく、最初から最後までの全プロセスを解説する動画にしました。データファイルのダウンロード、PivotBillionsへのアップロード、データのフィルタリング、ピボットテーブルの作成について説明しています。カーネル数が5個未満でダウンロード数が100を超えるデータセットのみをフィルタリングしています。ビデオは開始から終了まで3分以上あります。

まとめ

ピボットテーブルを活用することで、何千回もダウンロードされているが僅かなカーネルしか開発されていない、非常に人気の高いデータセットを確認することができます。

Kaggle上のデータセットの多くはあまり活用されていませんが、既存のツールでは理解が難しい可能性があります。PivotBillionsのような新しいツールを組み込んで、さらなる調査と分析を行うメリットは大きいでしょう。