scikit-learn – make_blobs

概要

sklearn.datasets.make_blobls()は、クラス分類のためのデータを生成する。blobとはインクの染みなどを指し、散布図の点の様子からつけられてるようだ。

標準では、データの総数、特徴量の数、クラスターの数などを指定して実行し、特徴量配列X、ターゲットとなるクラスデータyのタプルが返される(引数の指定によってはもう1つ戻り値が追加される)。

得られるデータの形式

特徴量配列Xは列が特徴量、行がレコードの2次元配列。ターゲットyはレコード数分のクラス属性値の整数。

利用例

そのままscikit-learnのモデルの入力とする。

クラスごとに色やマークを変えて散布図を描く。

パラメーターの指定

主なもの。

n_samples
整数で指定した場合、生成されるサンプルの総数で戻り値Xの行数になる。配列で指定した場合、その要素数がクラスターの数となり、各要素はクラスターのデータ数となる。デフォルトは100。
n_features
特徴量の数で、戻り値Xの列数になる。デフォルトは2
centers
クラスター中心の数。n_samplesを整数で指定してcentersを指定しない場合(デフォルトのNoneの場合)、centers=3となる。n_samplesを配列で指定した場合はNoneか[n_centers, n_features]の配列。
center_std
クラスターの標準偏差。

 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です