概要
今回は、世界中の統計家やデータアナリストが最適モデルを競い合うプラットフォーム「Kaggle(カグル)」で見つけた2つの異なるデータセットを取り上げて、PivotBillionsによる2つの簡単な分析を行いました。コンテナ型の仮想化環境を提供するオープンソース「Docker(ドッカー)」上でローカルに分析するのではなくPivotBillionsクラウド版(Webサイト上で無料で入手可能)を用いて分析することにしました。
データ1:ロサンゼルス市のWebサイトトラフィック
1つ目は、ロサンゼルス市のオープンデータポータルから引用した、ロサンゼルス市のWebサイト(LAcity.org)におけるトラフィックデータです。2014年1月から2019年1月までの統計データが含まれています。
データセットは127Mバイト、約250万行ありました。基本的なデータ解析で、いくつかの興味深い情報を得ることができました。
市サイトへの訪問者数を時系列で見ると、一時的に急増しているタイミングがあります。急増した期間を拡大して見てみると、2017年12月6日に急増したことが分かります。
その日の出来事について調べてみると、ロサンゼルス州で多数の山火事が発生していることがわかりました。
ピボットチャートにアクセスしたデバイスの種別を加えると、その急増の大部分がモバイルからのトラフィックであったことが分かります。
データ2:Google Playストアアプリ
2つ目のデータセットは、Google Playストアアプリに関するデータです。データサイズはそれほど大きくありませんが、2つのファイルを結合する必要があり、センチメント分析(感情分析、ネガポジ分析)を行う必要があるため、興味深いものでした。
結合したデータをPivotBillionsにロードし、「カテゴリー」を行に、「センチメント」を列にして、ピボットテーブルを作成しました。分析に寄与しないNull(値が存在しない)とnan(非数値)が含まれていたので、それらは除外しました。
ピポットテーブルを並べ替えて、以下のようにデータをグラフ化しました。ゲームアプリについては、他のどのカテゴリーよりも、肯定的なレビューも否定的なレビューも多いことや、ファミリーアプリがそれに続くことが分かります。
アプリのレーティングとセンチメントを分析すると、肯定的なレビューも否定的なレビューもレーティングが4.4のレベル付近でピークに達することが分かります。
ゲームアプリに限定してみると、レーティングが4.4のレベルで否定的なレビューが肯定的なレビューをわずかに上回っています。
まとめ
いずれのデータ解析からも明確な結論を見出すことはできませんが、さらなる調査の可能性を示唆する興味深い結果となりました。このほかにもデータを追加することで、ロサンゼルス市のデータトラフィック急増の真の理由や、レーティングが4.4のレベル付近でゲームアプリの肯定的なレビューと否定的なレビューがピークに達する理由を、より明確に理解することができるでしょう。
ここで紹介した2つのデータセットは、PivotBillionsクラウド版の無料公開デモを通じて、誰でも利用できます。それらを自分で分析したり、自分が保有するデータセットをアップロードして、どのような興味深い発見があるのかを試してみてください。