例えば、公開されているNYC Taxi and Limousine Commission Trip Record Data(ニューヨーク市タクシー&リムジン協会の旅程記録データ)は、増え続ける膨大なデータセットの良い例です。PivotBillionsは優れたスケーラビリティを有しているので、この種のデータの解析には理想的なツールです。
長年にわたる乗客とタクシーの傾向を調査するため、15億件のデータを分析します。まず前処理として、200本以上の圧縮されたCSVファイルを、170個のAmazon c4.largeインスタンスにロードします。これは約3分でPivotBillionsが実施しました。データをPivotBillionsにロードし、その再編成と変換の機能を使用してデータを調べました。するとチップと合計タクシー料金が別のデータとして2列に存在してました。数値そのものではなく割合を比較するほうが便利なので、PivotBillionsの列作成機能を使用して、これらの列からチップの割合の列を新しく作成しました(約4秒かかりました)。もう一つの厄介なのは、支払いタイプコードの重複です。以下のグラフでわかるように、支払いタイプコードは何年にもわたって修正が加えられていました。何年かはそのままの表現を用い、その他はその省略形を使用し、最近では数値を使っています。
そこで、PivotBillionsの参照テーブル機能を応用し「PayType」という変換された値が適切に反映される新しい列を作成しました。データが揃ったので、「PayType」(支払いタイプ)、「year」(年)、および「tip_percent」(タクシー料金に占めるチップの割合)別にタクシーの乗車数とタクシー料金の支払い統計のデータを見るために、ピボットテーブルを作成しました。
PivotViewのヒートマップで視覚化し、現金払いの乗客とクレジットカード払いの乗客のチップの割合の分布を比較しました。
現金払いの乗客は一般的にチップを払っていない、またはドライバーがチップを報告していない可能性が高いことがすぐに明らかになりました。一方で、クレジットカード払いの乗客は、タクシーのタッチパネル式の支払いシステムを利用することが多いために支払いが楽であるせいか、一般的に16%以下のチップを支払っていました。
タクシーの乗客とチップの関係について少しわかってきたので、他にも何らかの傾向を見つけられるのではと思い、年と月ごとの走行回数と走行距離の統計データをPivotViewのLineChart(折れ線グラフ)で表示しました。年ごとの総走行距離と平均走行距離を比較すると、興味深い不一致に気付きました。
総走行距離は年々減少していますが、平均走行距離はわずかに増加しています。近年のライドシェアの人気の高まりが影響している可能性があり、2009年から2017年にかけて、総走行距離が約40%減少しています。
ニューヨーク市タクシー&リムジン協会の旅程記録データからライドシェアのデータを取り込み、2015年から2018年までの各年の1月のタクシーとライドシェアのチップ総額を比較してみると、乗り物の利用状況がかなり顕著に変化していることが分かります。
このグラフは、ライドシェアの成長がタクシーの乗客数を減少させている可能性があるという推測を裏付けるものと思われます。
通常、今回のような大規模なデータセットを解析するのは非常に困難で、信じられないほどの時間を要しますが、PivotBillionsを使用するとわずか数分で済みます。