私たちが「5 Minites Analysis」と呼んでいる、PivotBillionsの実用的なアプリケーションの事例を紹介します。公開されている興味深いデータセットを取り上げ、PivotBillionsで5分以内に面白い洞察を見出したいと思います。
概要
世界中の統計家やデータアナリストが最適モデルを競い合うプラットフォーム「Kaggle(カグル)」上のデータセットの1つであるKaggle LA Restaurant & Market Health Dataにリアルタイムにアクセスしてデータを調査し、ピボットテーブルを作成して健康条例の上位の違反者とその違反内容についてレポートします。
目標
- PivotBillionsにデータをロードして、その構造を確認します。
- PivotBillionsの組み込み機能を用いてデータを調べます。
- ピボットテーブルを作成して違反者の名前と違反内容でデータを整理し、最悪の違反者を特定します。
手順
データをロードしてその構造を確認する
- Kaggleからデータセットをダウンロードして解凍します。
- PivotBillionsのURLにアクセスして、ウインドーの右上にある[+]アイコンをクリックします。
- 「Drag & Drop」を選択して、ダウンロードした「restaurant-and-market-health-violations.csv」ファイルをPivotBillionsにドラッグします。
- 次に、ファイル横の左側のチェックボックスを選択して、画面下部の[Preview]をクリックします。
- これで、データセットの列とタイプを閲覧し、必要に応じてそれらを変更することができるようになりました。主キーとして設定されている列(1つまたは複数)を表示または変更することもできます。
- インポートするデータ構造を表示または変更したら、[Import]をクリックします。
データを表示して調べる
データをインポートして、27万2801行の全てのデータを閲覧し、アクセスすることができるようになりました。各列の名称の上にマウスを重ねると、その列内のデータの並べ替え、グラフの表示、データのフィルタリング、列の名称変更などが可能になります。施設別とオーナー(施設所有者)別のグラフを表示することができます。
データをインポートして、27万2801行の全てのデータを閲覧し、アクセスすることができるようになりました。各列の名称の上にマウスを重ねると、その列内のデータの並べ替え、グラフの表示、データのフィルタリング、列の名称変更などが可能になります。施設別とオーナー(施設所有者)別のグラフを表示することができます。
- 施設名の列のグラフアイコンをクリックして、施設別健康条例違反件数のグラフを表示します。
- オーナー名の列のグラフアイコンをクリックして、オーナー別健康条例違反件数のグラフを表示します。
最も違反件数の多い施設はDodger Stadium(ドジャースタジアム)で、最も違反件数の多いオーナーはRalphs Groceryであることがすぐに分かります。
ピボットテーブルを作成して調査結果を報告する
どの施設が最も違反件数が多かったかがわかりました、つぎにデータをより詳しく調べて、どの健康条例違反であったのかを確認します。PivotBillionsはこの処理を実にシンプルかつ高速に行います。
どの施設が最も違反件数が多かったかがわかりました、つぎにデータをより詳しく調べて、どの健康条例違反であったのかを確認します。PivotBillionsはこの処理を実にシンプルかつ高速に行います。
- まずは施設名の欄にカーソルを合わせ、フィルターアイコンをクリックします。
- フィルタの条件を「Contain」(含む)に設定し、その下のフィールドに「Dodger」と入力します。
- ピボットアイコンをクリックして、ディメンション(分析軸)として「violation_code」と「violation_description」を選択します。
- [View]ボタンをクリックしてピボットテーブルを作成します。
- 新しく作成したテーブルで、「Pivot View」オプションを選択します。
- 2つのディメンションのラベルをピボットテーブルの行セクションにドラッグ&ドロップし、縦に並べ替えます。
- 「Bar Chart」(棒グラフ)を選択して、違反件数をグラフで比較できるようにします。
- 棒グラフの各棒の上にカーソルを置くと、その項目の詳細が表示されます。
まとめ
ドジャースタジアムは健康条例違反で対処しなければならないことが何かあるようです。次回は、あの有名なホットドッグショップ「Dodger Dog」での購入をよくよく考えなければならないかもしれません。