運動行動と健康改善との関連性を理解するために、PivotBillionsを使用してCDC(米国疾病予防管理センター)の行動危険因子データを分析
運動行動と健康改善との関連性を理解するために、世界中の統計家やデータアナリストが最適モデルを競い合うプラットフォーム「Kaggle(カグル)」上にあるCDC’s Behavioral Risk Factor Surveillance System(CDCの行動危険因子監視システム)というデータを調査してみました。このデータセットには、2011年から2015年まで毎年実施した調査の40万人以上の回答が含まれています。個人の行動や健康状態に関する何百もの質問に対する回答が含まれている非常に包括的なデータセットです。
ただ、データのサイズと構造が年によって異なっていたため、調査は容易ではありません。特に、調査体系が毎年変更され、各質問項目と回答項目の意味が毎年異なるPDFで作成されています。ETL(抽出、変換、ロード)とデータ結合機能が必須と考え、PivotBillionsを使用することにしました。データと質問をすばやく絞り込んで傾向を発見することが可能になりました。
様々なタイプの身体活動が、退職前後の人の身体的、精神的、情緒的健康にどのような影響を与えるのか、および、その関係性を調べてみました。まず、PivotBillionsを使用して、調査対象者の年齢、過去30日間に取り組んだ主なスポーツ、および健康不調(肉体的・精神的に感じた日数)に関連する質問をベースに、3つの新しい列を追加しました。「調査前30日間に取り組んだ主なスポーツ」という質問に対応した「MainSport」列を追加する際、調査での回答とそれに対応する活動とをマッチングさせるために、自作の参照テーブルを使用する必要がありました。そのデータ結合は非常に簡単なものでした。
必要なデータが揃ったので、データをフィルタリングして、肉体的・精神的な不調についての質問に対する「Refused(拒否)」と空白の回答を取り除きました。このようにして、自分のデータに対して明確な尺度(すなわち、経験した肉体的・精神的な不調を0から1の範囲で回答した値の平均度)を持つことができました。
より詳細な分析のための準備ができたので、ピボット機能で年齢区分とメインスポーツでデータを再編成しました。結果を棒グラフで表示すると、全体的な健康状態の改善にどのような種類の活動が関係しているのかが見えてきました。
このグラフで最初に気付いたのは、健康状態の悪化に関係した活動の大部分は、年齢層(「18才から64才」と「65才以上」)に関わらず、家の中またはその周辺で行う活動でした。各年齢層にどのように影響するのかを見たいと思い、年齢層を「18才から64才」に絞り込んで、肉体的・精神的な不調の値が大きい順に並べ替えました。
スイミングプールで往復のようないくつかの例外を除けば、個人が主に家の周りで運動したり雑用をしたりした時に、多くの肉体的・精神的な不調を経験していることがわかりました。ゴルフをした時でも同様です。
また、退職後の年齢層にも影響があるかどうかを確認すべく、ピボットデータを再びフィルタリングしました。
繰り返しになりますが、室内で過ごしたり家の中で仕事をしたりすると、肉体的・精神的な不調が大きくなります。調査した90万人を超えるデータからは、例えばボーリングやゴルフであっても、家の外に出るとそのような不調が40%以上減少しました。コンスタントに家の外に出るような活動を見つけることは、体力だけでなく、精神的および情緒的な幸福を劇的に向上させるということが理解できます。