Rでニューヨーカーの休日気分をチェックする


ホリデーシーズンは人々をフレンドリーにします。そこで、人々の行動が具体的にどのように変わるのか、ホリデーシーズンとそれ以外の期間で、ニューヨークのグリーンタクシーにおけるチップのデータを調べることにしました。

最初に、公開されているNYC Taxi and Limousine Commission Trip Record Data(ニューヨーク市タクシー&リムジン協会のデータ)から、グリーンタクシーに関する最新のデータファイル(2017年7月1日から2018年6月31日まで)をPivotBillionsに取り込み、2つの新しい列「holidayseason」(ホリデーシーズンかどうか)と「tip_percent」(タクシー料金に占めるチップの割合)を追加しました。

現金払いの場合はチップの記録がないため、この分析には関係ないデータが多数ありました。そのため、PivotBillionsの「payment_type」(支払いタイプ)を使って現金払いを除外しました。結果、合計で500件行以下になりました。

次に、PivotBillionsのピボット機能を利用して、「DOLocationID」(乗客が降車した場所)と、ホリデーシーズン中の記録かどうかによってサマリーしました。これにより、もともと900万件以上あったデータが、わずか513件の詳細なサマリーデータに縮小しました。PivotBillionsからこのサマリーデータをダウンロードし、統計分析フリーソフトのRを用いてデータの視覚化と分析を行うことにしました。

データはRが容易に処理できるサイズに縮小されているので、公開されている「Taxi Zone Shapefile」と新しくダウンロードした「DoLocationID_holiday_tips.csv」ファイルをRにロードしました。これは、データソースからのシェープファイルとPivotBillionsで処理したファイルを、Rを実行しているマシン上にアップロードし、ロケーションIDを「DOLocationID」(乗客が降車した場所)の列に設定することでファイルを結合するという簡単な処理でした。

そして、ホリデーシーズンとその他の期間におけるチップの割合(タクシー料金に占めるチップの割合)の平均の差を追跡する「ホリデー効果」という新しい指標を定義し、分析に必要な情報を一部加えて、グリーンタクシーに関するデータをわかりやすい地図として表現しました。

ホリデー効果がマイナス(オレンジ色)よりもプラス(緑色)の方がはるかに多く発生している地域もあれば、その逆の地域もあることが分かります。Rの優れたインデックス作成機能を利用して、ロケーションごとにデータを絞り込み、ニューヨーク市のエリアごとの状況を簡単に調べることできます。ブロンクスとブルックリンはマイナスのエリアが多いのに対し、クイーンズはプラスとマイナスのエリアが均一に広がっているようです。一方、マンハッタンとニューアーク空港は、ホリデーシーズンによる非常に大きなプラス効果を得ています。

ニューヨークの大部分は良くも悪くも休日の影響を受けていますが、マンハッタンとニューアーク空港に行く人々は最も休日気分を感じているようです。

この地図を自分で作成する場合は、作成したRのプログラム「DOLocationID_holiday_tips.csv」ファイル、および公開されているシェープファイルをダウンロードしてください。
「DOLocationID_holiday_tips.csv」を
「PULocationID_holiday_tips.csv」に、「DOLocationID」を「PULocationID」に置き換えてこのプログラムを実行して、「Pick-Up Location」(乗客が乗った場所)ごとのホリデー効果を表示することもできます