5 Minites Analysis:45店舗の小売販売データから様々な相関関係を見出す

概要

世界中の統計家やデータアナリストが最適モデルを競い合うプラットフォーム「Kaggle(カグル)」のデータセットをぜひ活用しましょう。Kaggleのサイトにアクセスすれば、数千もの優れたデータセットを無料で試すことができます。

今回は、Kaggle Retail Data Analyticsの5 Minites Analysisを通じて、45店舗(匿名)の販売データを調査します。さらに、メインの売上データファイルに2つの関連する補足データファイルを結合して、店舗の種類、燃料価格、その他の指標と、それらが平均週間売上高に与える影響との関係について調べます。

 

手順

1.データを結合してロードする

この例では2つの補足データファイルをメインデータセットに結合するため、データをロードする手順が以前の投稿とは少し異なります。その手順は以下のとおりです。

  1. データをダウンロードして解凍し、ブラウザでPivotBillionsのUIにアクセスします。
  2. データをロードする画面から[+]アイコンをクリックし、Drag & Dropを選択します。
  3. ダウンロードした「Features data set.csv, sales data-set.csv」と「stores data-set.csv」のファイルをPivotBillionsのDrag&Dropボックスにドラッグします。
  4. 「sales data-set.csv」ファイルの横にある左側のチェックボックス「Main」を選択し、「Features data set.csv」ファイルと「stores data-set.csv」ファイル横の右側のチェックボックス「Join」を選択します。
  5. 画面上部の[Column Preview]をクリックします。すると、メインデータセットとそれに結合している補足データの両方の列ラベルとデータタイプがプレビューとして表示されます。
  6. PivotBillionsは、列ラベルの横にあるKey記号で識別されるデータセットの共通キーを自動的に見つけます。必要に応じたキーの変更もできますが、ここでは選択されているものをそのまま使用することにします。
  7. 画面上部の[Import]をクリックして、データをレポートUIにロードします。
2.ロードしたデータを確認して予備調査をする
データがインポートされると、合計42万1569行のデータが表示されます。これには、オリジナルのデータソースからインポートされた3つのデータファイルのデータとその特性情報が含まれています。予備調査として、Distributionオプションを選択してデータ列に基づくデータの分布を閲覧し、データをソートして高値と安値を確認しました。
3.ピボットテーブルを作成して相関関係を見出す
次に、ピボットツールを使用して、単一のディメンション(分析軸)と週間売上高の合計および平均との関係を分析しました。基本的な手順は以下のとおりです。

  1. ピボットツールを選択して開き、「IsHoliday」(祝日)「Temperature」(その地域の平均気温)などのディメンションを選択します。
  2. Value(値)として「Weekly Sales」(週間売上高)を選択し、[View]をクリックします。
  3. 表示されたテーブルで、Pivot Viewオプションを選択します。そして、分析したいディメンションを列領域にドラッグ&ドロップします。
  4. 表示を「Table Barchart」(棒グラフ)に変更し、データの「Summation」(合計)オプションを選択して、ディメンションが週間売上高の合計に及ぼす影響を確認します。
  5. 次に、「Summation」から「Average」(平均)に変更して、ディメンションが週間売上高の平均に及ぼす影響を確認します。

他のディメンションについても同様の分析を行い、棒グラフで表示しました。

店舗タイプ – 合計 店舗タイプ – 平均
店舗サイズ – 合計 店舗サイズ – 平均
CPI(消費者物価指数) – 合計 CPI(消費者物価指数) – 平均

Store Type -Total

Store Size - Total

CPI - Total

Store Type - Average

Store Size - Average

CPI - Average

まとめ

上記の分析により、CPI(消費者物価指数)とIsHoliday(祝日)ディメンションは総売上に影響を与えますが、平均売上にはほとんど影響を与えないことが分かります。ただし、店舗タイプと店舗サイズは、週間売上高の合計と平均の両方に対して強い相関があるように見えます。

5分間で、上記の分析のみならず、Temperature(地域内の平均気温)とUnemployment(失業率)を軸にした同様のピボットチャートを作成することもできました。これらについては、週間売上高の合計や平均とそれほど強い相関関係は見られませんでした。さらに深く掘り下げたい場合は、次の手順として2つ以上のディメンションを使用し、それらが販売にどのように関係するかを確認してみることです。なお、分析の規模をより適切に管理するために、いくつかのフィルタを設定することをお勧めします。