【解決方法】Python で大規模なデータセット内のブール値を識別する


大規模なデータセット内のブール値を識別するための Python 関数はありますか? 30 以上の列がある場合?

受益者概要ファイルには、各会員の慢性疾患の列がいくつかあります。 これらはブール型フィールドです。
1)これらの列を単一のカテゴリ変数に変換し、複数の True 診断を連結します。
2) 会員が 3 つ以上の慢性疾患を抱えている場合は、「複数」として分類します。

私が試したこと:

これはデータセットへのリンクです

https://www.cms.gov/Research-Statistics-Data-and-Systems/Downloadable-Public-Use-Files/SynPUFs/Downloads/DE1_0_2009_Beneficiary_summary_File_Sample_20.zip

慢性疾患に関するコラムはこちら
SP_ALZHDMTA
SP_CHF
SP_CHRNKIDN
SP_CNCR
SP_COPD
SP_DEPRESSN
SP_糖尿病
SP_ISCHMCHT
SP_OSTEOPRS
SP_RA_OA
SP_STRKETIA

解決策 1

データセットを調べて、列の値に基づいてデータを自動的に追加する関数はありますか?

いいえ。

機能は自分で記述する必要があります。

コメント

タイトルとURLをコピーしました