この国勢調査データは、米国在住の多数の人々のデモグフィックに関する詳細な情報を含んでおり、国勢調査細分区グループレベル(各1500世帯程度)の非常に包括的なデータセットです。しかし、データサイズがかなり大きく、非常に大きなzipファイルのため難しい調査になります。さらに、zipファイルには様々なデモグラフィックに関連する多くの内部ファイルが含まれていて、それぞれ独自のスキーマ(データベースの構造)を持っています。BIツールのTableau用にデータを前処理するために、PivotBillionsを使用してデータのETL(抽出、変換、ロード)と結合を行いました。
PivotBillionsを使用して、Amazon S3上で圧縮されたデータから、内部ファイルに必要なキー列を直接抽出しました。
次に、これらのキー列を国勢調査細分区グループ毎に結合し、女性の割合や男女の不平等の程度など、カスタム列をいくつか追加してデータの拡張を行いました。
この2番目のカスタム列は、コンピュータ、工学、科学の各分野の労働者が国勢調査細分区グループ毎に、男女半々(男性50%、女性50%)からどの程度乖離しているのかを表しています。値は0から5の範囲で、0は男女が半々で、5は1つの性別に大きく偏っていることを意味します。必要なデータの整備ができたので、PivotBillionsでCSVファイルとしてダウンロードし、そのデータをTextファイルとしてTableauにインポートしました。
男女平等/不平等の分布を調べるために、データを地図で表現してみます。新しいワークシートを開き、「Census Block」(国勢調査区)、「latitude/longitude」(緯度/経度)、および「DegreeOfGenderIneuality」(男女半々からの乖離の程度)の各フィールドをディメンション(分析軸)としてTableauに指示しました。そして、Tableauで表示されるツールチップにフィールドをいくつか追加し、性別不平等のレベルで色分けしました。平等(グリーン)と不平等(オレンジ)で色分けされた、非常にわかりやすいインタラクティブな地図が完成しました。
これを見ると、米国の沿岸部と南東部の地域は男女平等のレベルが高いことが分かります。一方で、北部/北東部地域は、片方の性別(通常は男性)に大きく傾いています。
ハイテクと科学の分野で、米国の多くの地域が男女平等に向けて前進しているように見えますが、依然として多くの地域で偏りがあり停滞しています。沿岸部や南東部の地域における規制と企業を調べて、どのような政策や企業の施策が効果を発揮しているのかを確認することは有益です。両性が平等な扱いを受け、より平等な社会を真に創造していくために、時間の経過と共にこうした政策が米国全土で実施されるようになることを願っています。
自分でこの地図を操作するには、Tableau PublicのGender Equality and Inequality(男女平等/不平等)というワークブックにアクセスしてみてください。