3.3 子宮頸がんのリスク要因(クラス分類)

子宮頸がんデータセットは、女性が子宮頸がんにかかるか否かを予測するための指標とリスク要因を含んでいます。特徴量は、人口統計データ(年齢など)、生活スタイル、病歴を含みます。データは Fernandes, Cardoso, Fernandes(2017)¹⁵ によって作成されており、UCI機械学習リポジトリからダウンロードできます。

この本で例として使われる特徴量のサブセットは以下のとおりです。

年齢
性交渉の相手の人数
初めての性交渉の年齢
妊娠の回数
喫煙の有無
喫煙の継続年数
ホルモン避妊薬の使用有無
ホルモン避妊薬の使用年数
子宮内避妊器具(IUD)の使用有無
子宮内避妊器具(IUD)の使用年数
性感染症(STD)の感染歴の有無
STDの診断数
最初にSTDと診断された時点
最後にSTDと判断された時点
生検結果「健康」または「がん」(目的変数)

生検は子宮頸がん診断において精度が高いため、広く容認された手法として用いられます。この本の例では、生検結果は目的変数として使われます。各列での欠損データは、値が無いということ自体が確率に相関性を持ち得るため良くない方法かもしれませんが、最頻値（最も頻繁に登場する値）で補完されます。質問は非常にプライベートな性質のものであるため、バイアスがあるかもしれません。しかしこの本は欠損値の補完に関する本ではないため、最頻値補完は例としては十分でしょう。

このデータセットのこの本での例を再現するには、この本のGitHubリポジトリ内を探して下さい。前処理のR-scriptと最終のRDataファイル

Fernandes, Kelwin, Jaime S Cardoso, and Jessica Fernandes. "Transfer learning with partial observability applied to cervical cancer screening." In Iberian Conference on Pattern Recognition and Image Analysis, 243–50. Springer. (2017).↩