[ad_1]
大規模なデータセット内のブール値を識別するための Python 関数はありますか? 30 以上の列がある場合?
受益者概要ファイルには、各会員の慢性疾患の列がいくつかあります。 これらはブール型フィールドです。
1)これらの列を単一のカテゴリ変数に変換し、複数の True 診断を連結します。
2) 会員が 3 つ以上の慢性疾患を抱えている場合は、「複数」として分類します。
私が試したこと:
これはデータセットへのリンクです
https://www.cms.gov/Research-Statistics-Data-and-Systems/Downloadable-Public-Use-Files/SynPUFs/Downloads/DE1_0_2009_Beneficiary_summary_File_Sample_20.zip
慢性疾患に関するコラムはこちら
SP_ALZHDMTA
SP_CHF
SP_CHRNKIDN
SP_CNCR
SP_COPD
SP_DEPRESSN
SP_糖尿病
SP_ISCHMCHT
SP_OSTEOPRS
SP_RA_OA
SP_STRKETIA
解決策 1
データセットを調べて、列の値に基づいてデータを自動的に追加する関数はありますか?
いいえ。
機能は自分で記述する必要があります。
[ad_2]
コメント