3.1 自転車レンタル (回帰)
このデータセットには、ワシントンDCにある自転車レンタル会社の、日毎の自転車の貸し出し数が含まれていて、それに加え、天気と季節の情報があります。 データはCapital-Bikeshareによって、親切にももすべての人が使用できるように作られました。Fanaee-T and Gama (2013)13によって、天気と季節の情報が加えられました。目標は、季節や日毎に自転車がどれほど貸し出されるのかを予測することです。データは、 UCI Machine Learning Repositoryからダウンロードできます。
新しい特徴量がデータセットに追加されました、しかし、この本では全ての特徴量を例として使っている訳ではありません。
以下に今回使われた特徴量の一覧を記しておきます。
- 自転車のレンタル台数は回帰の問題の中でターゲット(目標)として使われています。 自転車のレンタル台数は未登録ユーザと登録されたユーザを含んでいます。
- 季節(春、夏、秋、冬)
- その日が祝日であったかどうか
- 年(2011年または2012年)
- 2011年の1月1日(この日がデータセットの中で最初の日)からの日数 この特徴量は時間変化に関するトレンドを考慮するために導入されました。
- その日が平日であったか週末であったか
- その日の天候。下記の情報をそれぞれ1つずつ
- 晴天、少々曇り、少しだけ曇り、曇り
- 霧+雲、霧+所々曇り、霧+少しの雲、小雨+さざれ雲
- 豪雨+凍雨+雷雨+霧、雪+霧
- 気温(摂氏)
- 相対湿度(0 - 100%)
- 風速(km/h)
この本で使用する具体例のために、データは少し処理されています。データ処理のためのRのスクリプトは、GitHubのリポジトリで取得できます。処理後のデータは、ここから取得できます。
Fanaee-T, Hadi, and Joao Gama. "Event labeling combining ensemble detectors and background knowledge." Progress in Artificial Intelligence. Springer Berlin Heidelberg, 1–15. doi:10.1007/s13748-013-0040-3. (2013).↩