概要
forgeデータセットは、”Pythonではじめる機械学習”(O’REILLY)中で用いられる架空のデータセットである。
その内容は、2クラスに分類された26個のデータで、2つの特徴量を想定した2次元配列データと各データのクラス分類を示したターゲットデータが得られる。
利用方法
mglearn
パッケージから、たとえば以下の方法で利用する。
1 2 3 |
from mglearn.datasets import make_forge X, y = make_forge() |
実行するとdeprecatedの警告が出るが、放置してもよいらしい。
内容
特徴量データ
2つの特徴量を持った配列が26個、2次元配列の形で得られる。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 |
[[ 9.96346605, 4.59676542], [11.0329545, -0.16816717], [11.54155807, 5.21116083], [ 8.69289001, 1.54322016], [ 8.1062269, 4.28695977], [ 8.30988863, 4.80623966], [11.93027136, 4.64866327], [ 9.67284681, -0.20283165], [ 8.34810316, 5.13415623], [ 8.67494727, 4.47573059], [ 9.17748385, 5.09283177], [10.24028948, 2.45544401], [ 8.68937095, 1.48709629], [ 8.92229526, -0.63993225], [ 9.49123469, 4.33224792], [ 9.25694192, 5.13284858], [ 7.99815287, 4.8525051 ], [ 8.18378052, 1.29564214], [ 8.7337095, 2.49162431], [ 9.32298256, 5.09840649], [10.06393839, 0.99078055], [ 9.50048972, -0.26430318], [ 8.34468785, 1.63824349], [ 9.50169345, 1.93824624], [ 9.15072323, 5.49832246], [11.563957, 1.3389402 ]] |
ターゲットデータ
26個のデータに対する2つのクラス(0, 1)が定められた1次元配列で、クラス0、1がそれぞれ13個ずつとなっている。
1 |
[1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0] |
データ総括
特徴量とクラス分類の組を、データ番号とともに整理すると以下の通り。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 |
0 9.9634661 4.5967654 1 1 11.0329545 -0.1681672 0 2 11.5415581 5.2111608 1 3 8.6928900 1.5432202 0 4 8.1062269 4.2869598 0 5 8.3098886 4.8062397 1 6 11.9302714 4.6486633 1 7 9.6728468 -0.2028316 0 8 8.3481032 5.1341562 1 9 8.6749473 4.4757306 1 10 9.1774838 5.0928318 1 11 10.2402895 2.4554440 1 12 8.6893709 1.4870963 0 13 8.9222953 -0.6399323 0 14 9.4912347 4.3322479 1 15 9.2569419 5.1328486 1 16 7.9981529 4.8525051 1 17 8.1837805 1.2956421 0 18 8.7337095 2.4916243 0 19 9.3229826 5.0984065 1 20 10.0639384 0.9907806 0 21 9.5004897 -0.2643032 0 22 8.3446878 1.6382435 0 23 9.5016934 1.9382462 0 24 9.1507232 5.4983225 1 25 11.5639570 1.3389402 0 |
1 2 3 4 5 6 |
from mglearn.datasets import make_forge X, y = make_forge() for n, (Xw, yw) in enumerate(zip(X, y)): print("{:2d} {:10.7f} {:10.7f} {}".format(n, Xw[0], Xw[1], yw)) |