Boston house‐pricesデータセット

概要

Boston house-pricesデータセットは、カーネギーメロン大学のStatLibライブラリーから取得したもので、持家の価格とその持家が属する地域に関する指標からなる。

ボストンの各地域にある506の持家の価格の中央値に対して、その地域の犯罪発生率やNOx濃度など13の指標が得られる。

ここではPythonのscikit-learnにあるbostonデータの使い方をまとめる。

データの取得とデータ構造

Pythonで扱う場合、scikit-learndatasetsモジュールにあるload_breast_cancer()でデータを取得できる。データはBunchクラスのオブジェクト。

データセットの構造は辞書型で、506の地域に関する13の特徴量と、当該地域における持家住宅の1000ドル単位の価格などのデータ。

データのキーは以下のようになっている。

データの内容

'data'~特徴量データセット

506の地域における13の指標を特徴量として格納した2次元配列。列のインデックスが特徴量の番号に対応している。

'target'~住宅価格

506の地域における持家住宅の1000ドル単位の価格中央値

'feature_names'~特徴名

13種類の特徴量の名称。

  1. CRIM:町ごとの人口当たり犯罪率
  2. ZN:25,000平方フィート以上の区画の住居用途地区比率
  3. INDUS:町ごとの小売り以外の産業用途地区比率
  4. CHAS:チャールズ川に関するダミー変数(1:川沿い、0:それ以外)
  5. NOX:NOx濃度(10ppm単位)
  6. RM:1戸あたり部屋数
  7. AGE:1940年より前に建てられた持家物件の比率
  8. DIS:ボストンの5つの職業紹介所への重みづけ平均距離
  9. RAD:放射道路へのアクセス性
  10. TAX:10,000ドルあたりの固定資産税総額
  11. PTRATIO:生徒対教師の比率
  12. B:1000(Bk – 0.63)^2(Bkは待ちにおける黒人比率)
  13. LSTAT:下位層の人口比率(%)

'filename'~ファイル名

CSVファイルのフルパス名が示されている。1行目にはデータ数、特徴量数が並んでおり、2行目に13の特徴量とターゲットの住宅価格、その後に506行のレコードに対する13列の特徴量と1列のターゲットデータが格納されている。このファイルにはDESCRに当たるデータは格納されていない。

'DESCR'~データセットの説明

データセットの説明。print(breast_ds_dataset['DESCR'])のようにprint文で整形表示される。

  • レコード数506個
  • 属性は、13の数値/カテゴリー属性と、通常はターゲットに用いられる中央値

データの利用

データの取得方法

bostonデータセットから各データを取り出すのに、以下の2つの方法がある。

  • 辞書のキーを使って呼び出す(例:boston['DESCR']
  • キーの文字列をプロパティーに指定する(例:boston.DESCR

全レコードの特徴量データの取得

'data'から、506のレコードに関する13の特徴量が506行13列の2次元配列で得られる。13の特徴量は’feature_names’の13の特徴名に対応している。

特定の特徴量のデータのみ取得

特定の特徴量に関する全レコードのデータを取り出すときにはX[:, n]の形で指定する。

 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です