ニューヨークのタクシーは、休日にチップが増えるのか?

ホリデーシーズンは人々をフレンドリーにします。そこで、ホリデーシーズンが人々の行動に具体的にどのように影響するのかをみるために、ホリデーシーズンとそれ以外の期間で、ニューヨークのグリーンタクシーにおけるチップのデータを比較することにしました。最初に、公開されているNYC Taxi and Limousine Commission Trip Record Data(ニューヨーク市タクシー&リムジン協会のデータ)のグリーンタクシーに関する最新のデータファイル(2017年7月1日から2018年6月31日まで)をPivotBillionsに取り込み、2つの新しい列、すなわちholidayseason(ホリデーシーズン)とtip_percent(タクシー料金に占めるチップの割合)を追加しました。

現金払いの場合はチップの記録がないため、この分析には関係ない行が多数ありました。そのため、PivotBillionsのpayment_type(支払いタイプ)の列から現金払いを除外しました。結果、合計行数は500万行以下になりました。

次にピボット機能を利用して、乗客が降車した場所(DOLocationID)と、ホリデーシーズン中のデータかそれ以外化で全データを再編成しました。これにより、もともと900万行以上あったデータが、わずか513行の詳細なサマリーデータに縮小しました。PivotBillionsからこのサマリーデータをダウンロードして、次に統計分析フリーソフトのRを用いてデータの視覚化と分析を行うことにしました。

データはRが容易に処理できるサイズに縮小されているので、公開されているTaxi Zone Shapefileと新しくダウンロードしたDoLocationID_holiday_tips.csvファイルをRにロードしました。これは、データソースからのシェープファイルとPivotBillionsで処理したファイルを、Rを実行しているマシン上にアップロードし、ロケーションIDをDOLocationID(乗客が降車した場所)の列に設定することでファイルを結合するという簡単な処理でした。

そして、ホリデーシーズンとその他の期間で、チップの割合(タクシー料金に占めるチップの割合)の平均の差を追跡する「ホリデー効果」という新しい指標を定義し、分析に必要な情報を一部加えて、グリーンタクシーに関するデータをわかりやすい地図として表現しました。

ホリデー効果がマイナス(オレンジ色)よりもプラス(青色)の方がはるかに多く発生している地域もあれば、その逆の地域もあることが分かります。Rの優れたインデックス作成機能を利用して、ロケーションごとにデータを絞り込み、ニューヨーク市のエリアごとの状況を簡単に調べることできます。ブロンクスとブルックリンはマイナスのエリアが多いのに対し、クイーンズはプラスとマイナスのエリアが均一に広がっているようです。一方、マンハッタンとニューアーク空港は、ホリデーシーズンにより、非常に大きなプラス効果を得ています。

ニューヨークのほとんどの地域は良くも悪くも休日の影響を受けていますが、マンハッタンとニューアーク空港に行く人々が最も休日気分を感じているようです。

この地図の表示や操作、あるいはTableauへワークブックをダウンロードするには、Tableau Publicに掲載されているHoliday Effect on Tips by Drop-Off Location(降車場所別に見たチップの休日効果)というワークブックを参照してください。また、他のワークブックを調べたりダウンロードしたりして、Holiday Effect on Tips by Pick-Up Location(乗車場所別に見たチップの休日効果)を確認することもできます。