Python – 平均・分散・共分散

2020-11-17 / tau / コメントする

1次元配列の場合

平均

平均はmean()メソッドで計算。

import numpy as np

x = np.array([1, 1, 2, 3, 5, 8, 13, 21, 34, 55])

n = x.size
s = x.sum()
m = x.mean()

print(m, s / n)
# 14.3 14.3

import numpy as np

x = np.array([1, 1, 2, 3, 5, 8, 13, 21, 34, 55])

n = x.size

s = x.sum()

m = x.mean()

print(m, s / n)

# 14.3 14.3

分散・標準偏差

標本分散・標本標準偏差

分散はvar()メソッド、標準偏差はstd()メソッドで計算。デフォルトでは標本分散と標本標準偏差。

v = x.var()
sv = x.std()

print(v, np.sum((x - m)**2) / n)
# 285.01000000000005 285.01000000000005

print(sv, np.sqrt(v))
# 16.88223918797504 16.88223918797504

v = x.var()

sv = x.std()

print(v, np.sum((x - m)**2) / n)

# 285.01000000000005 285.01000000000005

print(sv, np.sqrt(v))

# 16.88223918797504 16.88223918797504

不偏推定量

分散の算出では、引数ddof (delta degrees of freedom)で指定した引数をデータ数nから引いた数で偏差の二乗和を割る。デフォルトではddof=0なので標本分散、標本標準偏差になるが、ddof=1を指定すると、不偏分散、標準偏差の不偏推定量が計算される。

u = x.var(ddof=1)
su = x.std(ddof=1)

print(u, np.sum((x - m)**2) / (n - 1))
# 316.6777777777778 316.6777777777778

print(su, np.sqrt(u))
# 17.795442612584207 17.795442612584207

u = x.var(ddof=1)

su = x.std(ddof=1)

print(u, np.sum((x - m)**2) / (n - 1))

# 316.6777777777778 316.6777777777778

print(su, np.sqrt(u))

# 17.795442612584207 17.795442612584207

2次元配列の場合

平均

平均はmean()メソッドで計算。引数axis=0/1で列方向／行方向の計算方向を指定。計算結果は1次元配列で、要素数は列方向の平均なら行数、行方向の平均なら列数と同じになる。

X = np.array([1, 1, 2, 3, 5, 8, 13, 21, 34, 55]).reshape(-1, 2)

n = X.shape[0]
s = X.sum(axis=0)
m = X.mean(axis=0)

print(m, s / n)
# [11.  17.6] [11.  17.6]

X = np.array([1, 1, 2, 3, 5, 8, 13, 21, 34, 55]).reshape(-1, 2)

n = X.shape[0]

s = X.sum(axis=0)

m = X.mean(axis=0)

print(m, s / n)

# [11. 17.6] [11. 17.6]

分散・標準偏差

標本分散・標本標準偏差

分散はvar()メソッド、標準偏差はstd()メソッドで計算。デフォルトでは標本分散、標本標準偏差を計算。デフォルトでは標本分散、標本標準偏差。

v = X.var(axis=0)

print(v, np.sum((X - m)**2, axis=0) / n)
# [150.   398.24] [150.   398.24]

v = X.var(axis=0)

print(v, np.sum((X - m)**2, axis=0) / n)

# [150. 398.24] [150. 398.24]

不偏推定量

引数ddof=1を指定すると、データ数nからddof=1を引いた数で偏差の二乗和が割られ、不偏分散、標準偏差の不偏推定量が計算される。

u = X.var(axis=0, ddof=1)

print(u, np.sum((X - m)**2, axis=0) / (n - 1))
# [187.5 497.8] [187.5 497.8]

u = X.var(axis=0, ddof=1)

print(u, np.sum((X - m)**2, axis=0) / (n - 1))

# [187.5 497.8] [187.5 497.8]

共分散

cov()メソッドで二つのデータの共分散行列を計算する。結果は2次元配列で得られ、対角要素は各データの分散、対角要素以外の要素は行数・列数に対応する共分散。

デフォルトでは引数bias=Falseとなっていて、偏差の積和をn−1で割った不偏推定量が計算される。

print(np.cov(X[:, 0], X[:, 1]))
# [[187.5 305.5]
#  [305.5 497.8]]

Xd = X - m
print(np.sum(Xd[:, 0] * Xd[:, 1]) / (n - 1))
# 305.5

print(np.cov(X[:, 0], X[:, 1]))

# [[187.5 305.5]

# [305.5 497.8]]

Xd = X - m

print(np.sum(Xd[:, 0] * Xd[:, 1]) / (n - 1))

# 305.5

bias=Trueを指定すると、偏差の積和を割る数がnとなり、標本に対する分散・共分散が計算される。

print(np.cov(X[:, 0], X[:, 1], bias=True))
# [[150.   244.4 ]
#  [244.4  398.24]]

print(np.sum(Xd[:, 0] * Xd[:, 1]) / n)
# 244.4

print(np.cov(X[:, 0], X[:, 1], bias=True))

# [[150. 244.4 ]

# [244.4 398.24]]

print(np.sum(Xd[:, 0] * Xd[:, 1]) / n)

# 244.4

axisの方向

2020-11-08 / tau / コメントする

概要

配列などのメソッドの引数で指定するaxis=0/1について確認。

axis=0は配列やDataFrameを列単位で捉えて、その列の中で処理を行いながら、すべての列に対して処理が行われる
- SerieseオブジェクトがDataFrameの処理の対象となる場合は列として扱われ、DataFrameの各列を処理しながらすべての列に適用される
axis=1は配列やDataFrameを行単位で捉えて、その行の中で処理を行いながら、すべての行に対して処理が行われる。
- SerieseオブジェクトがDataFrameの処理の対象となる場合は行として扱われ、DataFrameの各行を処理しながらすべての行に適用される

`ndarray`の場合

まずndarrayの2次元配列で確認する。

ary = np.arange(1, 7).reshape(2, 3)
print(ary)

# [[1 2 3]
#  [4 5 6]]

ary = np.arange(1, 7).reshape(2, 3)

print(ary)

# [[1 2 3]

# [4 5 6]]

`max()`メソッド

axis=0は列単位で各列の最大値を探し、それらを要素とする配列（要素数＝列数の1次元配列）
axis=1は行単位で各行の最大値を探し、それらを要素とする配列（要素数＝行数の1次元配列）

print(ary.max(axis=0))
# [4 5 6]

print(ary.max(axis=1))
# [3 6]

print(ary.max(axis=0))

# [4 5 6]

print(ary.max(axis=1))

# [3 6]

`sum()`メソッド

axis=0は列単位で各列の合計を要素とする配列（要素数＝列数の1次元配列）
axis=1は行単位で各行の合計を要素とする配列（要素数＝行数の1次元配列）

print(ary.sum(axis=0))
# [5 7 9]

print(ary.sum(axis=1))
# [ 6 15]

print(ary.sum(axis=0))

# [5 7 9]

print(ary.sum(axis=1))

# [ 6 15]

`repeat()`メソッド

axis=0は列単位で各列の要素が指定回数繰り返される
axis=1は行単位で各行の要素が指定回数繰り返される

print(ary.repeat(2, axis=0))

# [[1 2 3]
#  [1 2 3]
#  [4 5 6]
#  [4 5 6]]

print(ary.repeat(2, axis=1))

# [[1 1 2 2 3 3]
#  [4 4 5 5 6 6]]

print(ary.repeat(2, axis=0))

# [[1 2 3]

# [1 2 3]

# [4 5 6]

# [4 5 6]]

print(ary.repeat(2, axis=1))

# [[1 1 2 2 3 3]

# [4 4 5 5 6 6]]

図による理解

sum()メソッドを例に、axis=0/1に対する挙動を図にすると、以下のようになる。

`DataFrame`の場合

以下のDataFrameとSeriesオブジェクトで確認する。Seriesオブジェクトは行として扱われ、array_like、1次元の配列でも同じ結果になる。

df = pd.DataFrame(np.arnge(1, 9).reshape(3, 3))
sr = pd.Series(np.arange(1, 3))

print(df)

#    0  1  2
# 0  1  2  3
# 1  4  5  6
# 2  7  8  9

print(sr)

# 0    1
# 1    2
# 2    3
# dtype: int32

df = pd.DataFrame(np.arnge(1, 9).reshape(3, 3))

sr = pd.Series(np.arange(1, 3))

print(df)

# 0 1 2

# 0 1 2 3

# 1 4 5 6

# 2 7 8 9

print(sr)

# 0 1

# 1 2

# 2 3

# dtype: int32

`min()`メソッドなど

min、max、sumなどのメソッドの考え方はndarrayと同じ挙動。

`add()`などの演算メソッド

DataFrameには演算子による演算の代替となるメソッドがある（add、sub、mul、div、mod、pow）。addメソッドを例にとると、以下のように引数を指定。

add(array_like, axis=0/1)

axis=0はarray_likeを列とみなして、DataFrameオブジェクトの各列の要素との和を計算する
axis=1はarray_likeを行とみなして、DataFrameオブジェクトの各行の要素との和を計算する

print(df.add(sr, axis=0))

#     0   1   2
# 0   2   3   4
# 1   6   7   8
# 2  10  11  12

print(df.add(sr, axis=1))

#    0   1   2
# 0  2   4   6
# 1  5   7   9
# 2  8  10  12

print(df.add(sr, axis=0))

# 0 1 2

# 0 2 3 4

# 1 6 7 8

# 2 10 11 12

print(df.add(sr, axis=1))

# 0 1 2

# 0 2 4 6

# 1 5 7 9

# 2 8 10 12

`apply()`メソッド

applyメソッドは、行または列を指定した関数に渡す。

axis=0はDataFrameオブジェクトの各列を指定した関数に渡す
axis=1はDataFrameオブジェクトの各行を指定した関数に渡す

print(df.apply(lambda x: sum(x) / 3, axis=0))

# 0    4.0
# 1    5.0
# 2    6.0
# dtype: float64

print(df.apply(lambda x: sum(x) / 3, axis=1))

# 0    2.0
# 1    5.0
# 2    8.0
# dtype: float64

print(df.apply(lambda x: sum(x) / 3, axis=0))

# 0 4.0

# 1 5.0

# 2 6.0

# dtype: float64

print(df.apply(lambda x: sum(x) / 3, axis=1))

# 0 2.0

# 1 5.0

# 2 8.0

# dtype: float64

演算メソッドの図による理解

演算メソッドは少し挙動が違うので図で整理しておく。1次元のarray_likeオブジェクトがaxisの指定によって列／行としてみなされる点に注意。

補足

1次元配列の場合

1次元配列に対してaxis引数を使う場合、行ベクトルとしてaxis=1に反応しそうだが、実際にはaxis=0で各要素に対する処理が行われる。axis=1を指定すると、たとえば以下のようなエラーになる。

ary.min(axis=1)->numpy.AxisError: axis 1 is out of bounds for array of dimension 1

1	ary.min(axis=1)->numpy.AxisError: axis 1 is out of bounds for array of dimension 1

元々多次元配列を意図した引数なので、1次元配列に使うのはナンセンスだろう（axis=0を行単位の処理にしておけば自然ではあったかもしれないが）。

1行の2次元配列の場合

1行の配列（1つの1次元配列を要素に持つ2次元配列：行ベクトル）に対するaxisの効果を、sumメソッドで見てみる。

ary = np.arange(1, 4).reshape(1, -1)
print(ary)
# [[1 2 3]]

print(ary.sum(axis=0))
# [1 2 3]

print(ary.sum(axis=1))
# [6]

ary = np.arange(1, 4).reshape(1, -1)

print(ary)

# [[1 2 3]]

print(ary.sum(axis=0))

# [1 2 3]

print(ary.sum(axis=1))

# [6]

axis=0の場合は各要素が1要素の列ベクトルとみなされ、3つの列（要素）ごとに処理される。その結果は3つの要素を持つ1次元配列（行ベクトル）となる。

axis=1の場合は行ベクトル全体が1つの行とみなされ、それらの要素に対して処理がされる。その結果は1つの数値となるが、1つの要素を持つ1次元配列で返される。

1列の2次元配列の場合

1列の配列（列ベクトル）に対するaxisの効果を、sumメソッドで見てみる。

ary = np.arange(1, 4).reshape(-1, 1)
print(ary)
# [[1]
#  [2]
#  [3]]

print(ary.sum(axis=0))
# [6]

print(ary.sum(axis=1))
# [1 2 3]

ary = np.arange(1, 4).reshape(-1, 1)

print(ary)

# [[1]

# [2]

# [3]]

print(ary.sum(axis=0))

# [6]

print(ary.sum(axis=1))

# [1 2 3]

axis=0の場合は3つの要素を持つ1つの列に対して処理される。その結果は1つの数値となるが、1つの要素を持つ1次元配列で返される。

axis=1の場合は列の各要素が1要素の行とみなされ、3つの行（要素）ごとに処理される。その結果は3つの要素を持つ列ベクトルだが、3つの要素を持つ1次元配列（行ベクトル）で返される。

DataFrame – 列の操作

2020-11-07 / tau / コメントする

概要

DataFrameの列の操作をまとめる。

以下、次のDataFrameを使う。

import numpy as np
import pandas as pd

ary = np.arange(16).reshape(4, 4)
df = pd.DataFrame(ary, columns=["one", "two", "three", "four"])
print(df)

#    one  two  three  four
# 0    0    1      2     3
# 1    4    5      6     7
# 2    8    9     10    11
# 3   12   13     14    15

import numpy as np

import pandas as pd

ary = np.arange(16).reshape(4, 4)

df = pd.DataFrame(ary, columns=["one", "two", "three", "four"])

print(df)

# one two three four

# 0 0 1 2 3

# 1 4 5 6 7

# 2 8 9 10 11

# 3 12 13 14 15

列の参照

DataFrameで列名を直接指定

1つの列を指定

DataFrameで直接列名を指定するとSeriesオブジェクトが得られ、リストやndarrayにも変換できる。

col = df["two"]
print(col)

# 0     1
# 1     5
# 2     9
# 3    13
# Name: two, dtype: int32

print(type(col))

# <class 'pandas.core.series.Series'>

print(list(col))
print(np.array(col))

# [1, 5, 9, 13]
# [ 1  5  9 13]

col = df["two"]

print(col)

# 0 1

# 1 5

# 2 9

# 3 13

# Name: two, dtype: int32

print(type(col))

# <class 'pandas.core.series.Series'>

print(list(col))

print(np.array(col))

# [1, 5, 9, 13]

# [ 1 5 9 13]

ファンシー・インデックスによる複数列の指定

DataFrameで直接列名を指定する際に列名のリストを渡すと、その要素の列が並んだDataFrameが返される。

cols = df[["two", "four"]]
print(cols)

#    two  four
# 0    1     3
# 1    5     7
# 2    9    11
# 3   13    15

print(type(cols))

# <class 'pandas.core.frame.DataFrame'>

cols = df[["two", "four"]]

print(cols)

# two four

# 0 1 3

# 1 5 7

# 2 9 11

# 3 13 15

print(type(cols))

# <class 'pandas.core.frame.DataFrame'>

`loc`による列の指定

1つの列の指定

locで全行のスライス':'とすることで、列名を指定して列を取り出すことができる。結果はSeriesオブジェクト。

print(df.loc[:, "two"])

# 0     1
# 1     5
# 2     9
# 3    13
Name: two, dtype: int32

print(df.loc[:, "two"])

# 0 1

# 1 5

# 2 9

# 3 13

Name: two, dtype: int32

スライスによる連続した列の指定

列名にもスライスを使って連続した列を参照することができ、複数列の場合はDataFrameが返される。

print(df.loc[:, "two":"three"])

#    two  three
# 0    1      2
# 1    5      6
# 2    9     10
# 3   13     14

print(df.loc[:, "two":"three"])

# two three

# 0 1 2

# 1 5 6

# 2 9 10

# 3 13 14

ファンシーインデックスによる複数列の指定

locでもファンシーインデックスを使うことができて、個別の列を組み合わせたDataFrameを得ることができる。

print(df.loc[:, ["two", "four"]])

#    two  four
# 0    1     3
# 1    5     7
# 2    9    11
# 3   13    15

print(df.loc[:, ["two", "four"]])

# two four

# 0 1 3

# 1 5 7

# 2 9 11

# 3 13 15

列の追加

`DataFrame`で直接列名を指定して追加

DataFrameに新たな列名を指定して末尾に列を追加。列にarray_likeではなく数値を指定すると、列の全ての要素が同じ数値で埋められる。

df_update = df.copy()
df_update["five"] = [50, 51, 52, 53]
print(df_update)

#    one  two  three  four  five
# 0    0    1      2     3    50
# 1    4    5      6     7    51
# 2    8    9     10    11    52
# 3   12   13     14    15    53

df_update["six"] = 60
print(df_update)

#    one  two  three  four  five  six
# 0    0    1      2     3    50   60
# 1    4    5      6     7    51   60
# 2    8    9     10    11    52   60
# 3   12   13     14    15    53   60

df_update = df.copy()

df_update["five"] = [50, 51, 52, 53]

print(df_update)

# one two three four five

# 0 0 1 2 3 50

# 1 4 5 6 7 51

# 2 8 9 10 11 52

# 3 12 13 14 15 53

df_update["six"] = 60

print(df_update)

# one two three four five six

# 0 0 1 2 3 50 60

# 1 4 5 6 7 51 60

# 2 8 9 10 11 52 60

# 3 12 13 14 15 53 60

`loc`でスライス指定して追加

全行をスライス指定、新たな行名を指定して末尾に列を追加。

df_update = df.copy()
df_update.loc[:, "five"] = [50, 51, 52, 53]
print(df_update)

#    one  two  three  four  five
# 0    0    1      2     3    50
# 1    4    5      6     7    51
# 2    8    9     10    11    52
# 3   12   13     14    15    53

df_update.loc[:, "six"] = 60
print(df_update)

#    one  two  three  four  five  six
# 0    0    1      2     3    50   60
# 1    4    5      6     7    51   60
# 2    8    9     10    11    52   60
# 3   12   13     14    15    53   60

df_update = df.copy()

df_update.loc[:, "five"] = [50, 51, 52, 53]

print(df_update)

# one two three four five

# 0 0 1 2 3 50

# 1 4 5 6 7 51

# 2 8 9 10 11 52

# 3 12 13 14 15 53

df_update.loc[:, "six"] = 60

print(df_update)

# one two three four five six

# 0 0 1 2 3 50 60

# 1 4 5 6 7 51 60

# 2 8 9 10 11 52 60

# 3 12 13 14 15 53 60

`assign`メソッドによる追加

assignメソッドで末尾に追加する場合、列名は文字列（"列名"）ではなく、直接「列名＝列」で指定する。assignメソッドは元のオブジェクトは変更せず、新たなDataFrameを生成して返す。

print(df.assign(five=[50, 51, 52, 53]))

#    one  two  three  four  five
# 0    0    1      2     3    50
# 1    4    5      6     7    51
# 2    8    9     10    11    52
# 3   12   13     14    15    53

print(df.assign(five=50))

#    one  two  three  four  five
# 0    0    1      2     3    50
# 1    4    5      6     7    50
# 2    8    9     10    11    50
# 3   12   13     14    15    50

print(df.assign(five=[50, 51, 52, 53]))

# one two three four five

# 0 0 1 2 3 50

# 1 4 5 6 7 51

# 2 8 9 10 11 52

# 3 12 13 14 15 53

print(df.assign(five=50))

# one two three four five

# 0 0 1 2 3 50

# 1 4 5 6 7 50

# 2 8 9 10 11 50

# 3 12 13 14 15 50

`insert`メソッドによる途中への追加

insertメソッドは（挿入する列位置、"列名"、挿入する列）で挿入する。

df_update = df.copy()
df_update.insert(2, "two_half", [25, 26, 27, 28])
print(df_update)

#    one  two  two_half  three  four
# 0    0    1        25      2     3
# 1    4    5        26      6     7
# 2    8    9        27     10    11
# 3   12   13        28     14    15

df_update.insert(4, "three_half", 30)
print(df_update)

#    one  two  two_half  three  three_half  four
# 0    0    1        25      2          30     3
# 1    4    5        26      6          30     7
# 2    8    9        27     10          30    11
# 3   12   13        28     14          30    15

df_update = df.copy()

df_update.insert(2, "two_half", [25, 26, 27, 28])

print(df_update)

# one two two_half three four

# 0 0 1 25 2 3

# 1 4 5 26 6 7

# 2 8 9 27 10 11

# 3 12 13 28 14 15

df_update.insert(4, "three_half", 30)

print(df_update)

# one two two_half three three_half four

# 0 0 1 25 2 30 3

# 1 4 5 26 6 30 7

# 2 8 9 27 10 30 11

# 3 12 13 28 14 30 15

列の更新

`DataFrame`で列名を直接指定

1つの列を指定

DataFrameで列名を直接指定して、その列に新たな列を代入する。代入する列は縦ベクトルでなくてもよく、1次元のリストや配列でよい。

df_update = df.copy()
df_update["two"] = [10, 50, 90, 130]
print(df_update)

#    one  two  three  four
# 0    0   10      2     3
# 1    4   50      6     7
# 2    8   90     10    11
# 3   12  130     14    15

df_update = df.copy()

df_update["two"] = [10, 50, 90, 130]

print(df_update)

# one two three four

# 0 0 10 2 3

# 1 4 50 6 7

# 2 8 90 10 11

# 3 12 130 14 15

ファンシーインデックスによる複数列の指定

ファンシーインデックスで複数列をリストで指定し、その列数と同じ列数のデータを与えて更新する。

df_update = df.copy()
df_update[["one", "three"]] = [
    [  0,  20],
    [ 40,  60],
    [ 80, 100],
    [120, 140]
]
print(df_update)

#    one  two  three  four
# 0    0    1     20     3
# 1   40    5     60     7
# 2   80    9    100    11
# 3  120   13    140    15

df_update = df.copy()

df_update[["one", "three"]] = [

[ 0, 20],

[ 40, 60],

[ 80, 100],

[120, 140]

]

print(df_update)

# one two three four

# 0 0 1 20 3

# 1 40 5 60 7

# 2 80 9 100 11

# 3 120 13 140 15

`loc`による列名・スライスの指定

1つの列の指定

locで全行のスライスと1つの列名を指定して列を更新。

df_update = df.copy()
df_update.loc[:, "four"] = [30, 70, 110, 150]
print(df_update)

#    one  two  three  four
# 0    0    1      2    30
# 1    4    5      6    70
# 2    8    9     10   110
# 3   12   13     14   150

df_update = df.copy()

df_update.loc[:, "four"] = [30, 70, 110, 150]

print(df_update)

# one two three four

# 0 0 1 2 30

# 1 4 5 6 70

# 2 8 9 10 110

# 3 12 13 14 150

スライスによる連続した列の指定

スライスで連続した列を指定して一括して更新することができる。その場合、指定されたDataFrameの形状に合った次元・次数のデータを与える必要がある。

df_update.loc[:, "one":"three"] = [
    [  0,  10,  20],
    [ 40,  50,  60],
    [ 80,  90, 100],
    [120, 130, 140]
]
print(df_update)

#    one  two  three  four
# 0    0   10     20    30
# 1   40   50     60    70
# 2   80   90    100   110
# 3  120  130    140   150

df_update.loc[:, "one":"three"] = [

[ 0, 10, 20],

[ 40, 50, 60],

[ 80, 90, 100],

[120, 130, 140]

]

print(df_update)

# one two three four

# 0 0 10 20 30

# 1 40 50 60 70

# 2 80 90 100 110

# 3 120 130 140 150

ファンシーインデックスによる複数列の指定

ファンシーインデックスも使うことができて、この場合も形状に合った次元・次数のデータを与える必要がある。

df_update.loc[:, ["two", "four"]] = [
    [ 1,  3],
    [ 5,  7],
    [ 9, 11],
    [13, 15],
]
print(df_update)

#    one  two  three  four
# 0    0    1     20     3
# 1   40    5     60     7
# 2   80    9    100    11
# 3  120   13    140    15

df_update.loc[:, ["two", "four"]] = [

[ 1, 3],

[ 5, 7],

[ 9, 11],

[13, 15],

]

print(df_update)

# one two three four

# 0 0 1 20 3

# 1 40 5 60 7

# 2 80 9 100 11

# 3 120 13 140 15

列の削除

例題のデータ

以下の2つのデータを使って、列番号指定の場合と列名指定の場合を確認する。

import numpy as np
import pandas as pd

array = np.arange(25).reshape(-1, 5)
df_numbered = pd.DataFrame(array)
df_named = pd.DataFrame(array, columns=["zero", "one", "two", "three", "four"])

print(df_numbered)
#     0   1   2   3   4
# 0   0   1   2   3   4
# 1   5   6   7   8   9
# 2  10  11  12  13  14
# 3  15  16  17  18  19
# 4  20  21  22  23  24

print(df_named)
#    zero  one  two  three  four
# 0     0    1    2      3     4
# 1     5    6    7      8     9
# 2    10   11   12     13    14
# 3    15   16   17     18    19
# 4    20   21   22     23    24

import numpy as np

import pandas as pd

array = np.arange(25).reshape(-1, 5)

df_numbered = pd.DataFrame(array)

df_named = pd.DataFrame(array, columns=["zero", "one", "two", "three", "four"])

print(df_numbered)

# 0 1 2 3 4

# 0 0 1 2 3 4

# 1 5 6 7 8 9

# 2 10 11 12 13 14

# 3 15 16 17 18 19

# 4 20 21 22 23 24

print(df_named)

# zero one two three four

# 0 0 1 2 3 4

# 1 5 6 7 8 9

# 2 10 11 12 13 14

# 3 15 16 17 18 19

# 4 20 21 22 23 24

1列の削除

drop()メソッドの引数に削除する列の列番号とaxis=1を指定して削除（axis指定の方向に注意）。

第1引数の列指定はlabels=1、labels="one"のように指定してもよい。

print(df_numbered.drop(1, axis=1))
#     0   2   3   4
# 0   0   2   3   4
# 1   5   7   8   9
# 2  10  12  13  14
# 3  15  17  18  19
# 4  20  22  23  24

print(df_named.drop("one",axis=1))
#    zero  two  three  four
# 0     0    2      3     4
# 1     5    7      8     9
# 2    10   12     13    14
# 3    15   17     18    19
# 4    20   22     23    24

print(df_numbered.drop(1, axis=1))

# 0 2 3 4

# 0 0 2 3 4

# 1 5 7 8 9

# 2 10 12 13 14

# 3 15 17 18 19

# 4 20 22 23 24

print(df_named.drop("one",axis=1))

# zero two three four

# 0 0 2 3 4

# 1 5 7 8 9

# 2 10 12 13 14

# 3 15 17 18 19

# 4 20 22 23 24

複数列の削除

複数列を削除する場合はリストで指定。

print(df_numbered.drop([1, 3], axis=1))
#     0   2   4
# 0   0   2   4
# 1   5   7   9
# 2  10  12  14
# 3  15  17  19
# 4  20  22  24

print(df_named.drop(["one", "three"], axis=1))
#    zero  two  four
# 0     0    2     4
# 1     5    7     9
# 2    10   12    14
# 3    15   17    19
# 4    20   22    24

print(df_numbered.drop([1, 3], axis=1))

# 0 2 4

# 0 0 2 4

# 1 5 7 9

# 2 10 12 14

# 3 15 17 19

# 4 20 22 24

print(df_named.drop(["one", "three"], axis=1))

# zero two four

# 0 0 2 4

# 1 5 7 9

# 2 10 12 14

# 3 15 17 19

# 4 20 22 24

連続した列の削除

連続した列を削除する場合はリストの内包表記で。

print(df.drop([x for x in range(1, 4)], axis=1))

#     0   4
# 0   0   4
# 1   5   9
# 2  10  14
# 3  15  19
# 4  20  24

print(df.drop([x for x in range(1, 4)], axis=1))

# 0 4

# 0 0 4

# 1 5 9

# 2 10 14

# 3 15 19

# 4 20 24

文字列の列名の場合は、泥臭いが以下の方法か。

print(df_named.drop(df_named.loc[:, "one":"three"].columns, axis=1))
#    zero  four
# 0     0     4
# 1     5     9
# 2    10    14
# 3    15    19
# 4    20    24\

print(df_named.drop(df_named.loc[:, "one":"three"].columns, axis=1))

# zero four

# 0 0 4

# 1 5 9

# 2 10 14

# 3 15 19

# 4 20 24\

DataFrame – 要素の内容の参照・変更

2020-11-03 / tau / コメントする

要素の操作

以下の2つのDataFrameを使っていく。

import numpy as np
import pandas as pd

lst = [
    ["Alex", "DC", 44, 168],
    ["Bert", "NY", 18, 176],
    ["Carl", "CA", 26, 175],
    ["Daryl", "DC", 32, 182],
    ["Eddy", "CA", 58, 192]
]
dflst = pd.DataFrame(lst, columns=["name", "state", "age", "height"])
dflst = dflst.set_index("name")
print(dflst)

#       state age height
# name                  
# Alex     DC  44    168
# Bert     NY  18    176
# Carl     CA  26    175
# Daryl    DC  32    182
# Eddy     CA  58    192

dfary = pd.DataFrame(np.arange(9).reshape(3, 3))
print(dfary)

#    0  1  2
# 0  0  1  2
# 1  3  4  5
# 2  6  7  8

import numpy as np

import pandas as pd

lst = [

["Alex", "DC", 44, 168],

["Bert", "NY", 18, 176],

["Carl", "CA", 26, 175],

["Daryl", "DC", 32, 182],

["Eddy", "CA", 58, 192]

]

dflst = pd.DataFrame(lst, columns=["name", "state", "age", "height"])

dflst = dflst.set_index("name")

print(dflst)

# state age height

# name

# Alex DC 44 168

# Bert NY 18 176

# Carl CA 26 175

# Daryl DC 32 182

# Eddy CA 58 192

dfary = pd.DataFrame(np.arange(9).reshape(3, 3))

print(dfary)

# 0 1 2

# 0 0 1 2

# 1 3 4 5

# 2 6 7 8

`at/iat`～単独要素の参照・変更

`at`～インデックス指定

atは行・列のラベルを指定して単独の要素を参照・変更

print(dflst.at["Alex", "age"])

# 44

dflst.at["Alex", "age"] = 55
print(dflst)

#       state  age  height
# name                    
# Alex     DC   55     168
# Bert     NY   18     176
# Carl     CA   26     175
# Daryl    DC   32     182
# Eddy     CA   58     192

print(dflst.at["Alex", "age"])

# 44

dflst.at["Alex", "age"] = 55

print(dflst)

# state age height

# name

# Alex DC 55 168

# Bert NY 18 176

# Carl CA 26 175

# Daryl DC 32 182

# Eddy CA 58 192

インデックスがデフォルトの数値の場合は数値指定。

print(dfary.at[2, 1])

# 7

dfary.at[2, 1] = 77
print(dfary)

#    0   1  2
# 0  0   1  2
# 1  3   4  5
# 2  6  77  8

print(dfary.at[2, 1])

# 7

dfary.at[2, 1] = 77

print(dfary)

# 0 1 2

# 0 0 1 2

# 1 3 4 5

# 2 6 77 8

`iat`～行・列番号指定

iatは行・列の番号を数値で指定して単独の要素を参照・変更。行・列のインデックスはカウントされない。

print(dflst.iat[1, 2])

# 176

dflst.iat[1, 2] = 199
print(dflst)

#       state  age  height
# name                    
# Alex     DC   55     168
# Bert     NY   18     199
# Carl     CA   26     175
# Daryl    DC   32     182
# Eddy     CA   58     192

print(dflst.iat[1, 2])

# 176

dflst.iat[1, 2] = 199

print(dflst)

# state age height

# name

# Alex DC 55 168

# Bert NY 18 199

# Carl CA 26 175

# Daryl DC 32 182

# Eddy CA 58 192

インデックスがデフォルトの数値の場合は数値指定。

print(dfary.iat[0, 2])

# 2

dfary.iat[0, 2] = 22
print(dfary)

#    0   1   2
# 0  0   1  22
# 1  3   4   5
# 2  6  77   8

print(dfary.iat[0, 2])

# 2

dfary.iat[0, 2] = 22

print(dfary)

# 0 1 2

# 0 0 1 22

# 1 3 4 5

# 2 6 77 8

`loc/iloc`～単独要素・スライスの参照・変更

`loc`～インデックス指定／終端含む

locの単独要素指定もatと同様。

print(dflst.loc["Carl", "state"])

# CA

dflst.loc["Carl", "state"] = "AZ"
print(dflst)

#       state  age  height
# name                    
# Alex     DC   55     168
# Bert     NY   18     199
# Carl     AZ   26     175
# Daryl    DC   32     182
# Eddy     CA   58     192

print(dflst.loc["Carl", "state"])

# CA

dflst.loc["Carl", "state"] = "AZ"

print(dflst)

# state age height

# name

# Alex DC 55 168

# Bert NY 18 199

# Carl AZ 26 175

# Daryl DC 32 182

# Eddy CA 58 192

locは行・列のラベルにスライスを指定可能。ただしlocのスライス指定ではリストや配列と異なり、（デフォルトの数値ラベルであっても）終端の行・列を含む点に注意。

print(dflst.loc["Bert":"Daryl", "state":"age"])

#       state  age
# name            
# Bert     NY   18
# Carl     AZ   26
# Daryl    DC   32

print(dfary.loc[1:2, 0:1])

#    0   1
# 1  3   4
# 2  6  77

print(dflst.loc["Bert":"Daryl", "state":"age"])

# state age

# name

# Bert NY 18

# Carl AZ 26

# Daryl DC 32

print(dfary.loc[1:2, 0:1])

# 0 1

# 1 3 4

# 2 6 77

スライス指定した範囲を変更可能。行単位・列単位のデータの更新の際に使う。

dfary.loc[:, 1] = [10, 40, 70]
print(dfary)

#    0   1   2
# 0  0  10  22
# 1  3  40   5
# 2  6  70   8

dfary.loc[:, 1] = [10, 40, 70]

print(dfary)

# 0 1 2

# 0 0 10 22

# 1 3 40 5

# 2 6 70 8

`iloc`～行・列番号指定／終端含まず

ilocは行・列の番号にスライスを指定可能。ilocのスライス指定では、リストや配列と同じで、終端の行・列は含まれない。

print(dflst.iloc[1:3, 0:2])

#      state  age
# name           
# Bert    NY   18
# Carl    AZ   26

print(dfary.iloc[0:2, 0:1])

#    0
# 0  0
# 1  3

print(dflst.iloc[1:3, 0:2])

# state age

# name

# Bert NY 18

# Carl AZ 26

print(dfary.iloc[0:2, 0:1])

# 0

# 0 0

# 1 3

ilocでもスライス指定で内容変更が可能。

dfary.iloc[:, 1] = [100, 400, 700]
print(dfary)

#    0    1   2
# 0  0  100  22
# 1  3  400   5
# 2  6  700   8

dfary.iloc[:, 1] = [100, 400, 700]

print(dfary)

# 0 1 2

# 0 0 100 22

# 1 3 400 5

# 2 6 700 8

DataFrame – 生成時の数値と文字列の混在について

2020-11-03 / tau / コメントする

概要

DataFrameは列同士の型が異なってもよいが、配列でデータを組み立てる場合に数値と文字を混在させると、数値が全て文字列となってしまうので注意が必要。

配列は不適

以下のようにndarrayで文字列と数値を混在させたデータを基にしてDataFrameを生成すると、その内容が全て文字列になってしまう。

import numpy as np
from pandas import DataFrame

ary = np.array([
    ["Alex", "DC", 44, 168],
    ["Bert", "NY", 18, 176],
    ["Carl", "CA", 26, 175]
])

df = DataFrame(ary, columns=["name", "state", "age", "height"])
df = df.set_index("name")
print(df.values)

# [['DC' '44' '168']
#  ['NY' '18' '176']
#  ['CA' '26' '175']

import numpy as np

from pandas import DataFrame

ary = np.array([

["Alex", "DC", 44, 168],

["Bert", "NY", 18, 176],

["Carl", "CA", 26, 175]

])

df = DataFrame(ary, columns=["name", "state", "age", "height"])

df = df.set_index("name")

print(df.values)

# [['DC' '44' '168']

# ['NY' '18' '176']

# ['CA' '26' '175']

このデータの数値演算を行おうとすると以下のように文字列演算になってしまう。

print(df.loc["Alex", "age"] + df.loc["Bert", "age"])

# 4418

print(df.loc["Alex", "age"] + df.loc["Bert", "age"])

# 4418

これはndarrayが型の混在を許さないためで、いわばケアレスミスだが注意。

リストはOK

元のデータをリストにすれば問題なく数値と文字列に分けられる。

lst = [
    ["Alex", "DC", 44, 168],
    ["Bert", "NY", 18, 176],
    ["Carl", "CA", 26, 175]
]

df = DataFrame(lst, columns=["name", "state", "age", "height"])
df = df.set_index("name")
print(df.values)

# [['DC' 44 168]
#  ['NY' 18 176]
#  ['CA' 26 175]]

print(df.loc["Alex", "age"] + df.loc["Bert", "age"])

# 62

lst = [

["Alex", "DC", 44, 168],

["Bert", "NY", 18, 176],

["Carl", "CA", 26, 175]

]

df = DataFrame(lst, columns=["name", "state", "age", "height"])

df = df.set_index("name")

print(df.values)

# [['DC' 44 168]

# ['NY' 18 176]

# ['CA' 26 175]]

print(df.loc["Alex", "age"] + df.loc["Bert", "age"])

# 62

列の辞書もOK

列ごとのリストを辞書で組み立てても数値と文字は分けられる。

names = ["Alex", "Bert", "Carl"]
states = ["DC", "NY", "CA"]
ages = [44, 18, 26]
heights = [168, 176, 175]

df = DataFrame({"state":states, "age":ages, "height":heights}, index=names)
print(df.values)

# [['DC' 44 168]
#  ['NY' 18 176]
#  ['CA' 26 175]]

names = ["Alex", "Bert", "Carl"]

states = ["DC", "NY", "CA"]

ages = [44, 18, 26]

heights = [168, 176, 175]

df = DataFrame({"state":states, "age":ages, "height":heights}, index=names)

print(df.values)

# [['DC' 44 168]

# ['NY' 18 176]

# ['CA' 26 175]]

DataFrame – 生成

2020-11-03 / tau / コメントする

リスト・配列からの生成

リストからの生成

2次元のリストをそのまま引数にしてDataFrameを生成。列名・行名には自動的に番号が振られる。

import numpy as np
from pandas import DataFrame

lst = [[0, 1, 2], [3, 4, 5]]
df = DataFrame(lst)
print(df)

#    0  1  2
# 0  0  1  2
# 1  3  4  5

import numpy as np

from pandas import DataFrame

lst = [[0, 1, 2], [3, 4, 5]]

df = DataFrame(lst)

print(df)

# 0 1 2

# 0 0 1 2

# 1 3 4 5

ndarrayからの生成

2次元のndarrayからもDataFrameを生成可能。

ary = np.arange(6).reshape(2, 3)
df = DataFrame(ary)
print(df)

#    0  1  2
# 0  0  1  2
# 1  3  4  5

ary = np.arange(6).reshape(2, 3)

df = DataFrame(ary)

print(df)

# 0 1 2

# 0 0 1 2

# 1 3 4 5

列名・行インデックスの設定

DataFrame生成時にcolumnsで列名を、indexで行インデックスを設定可能。

df = DataFrame(lst, columns=["c1", "c2", "c3"], index=["r1", "r2"])
print(df)

#     c1  c2  c3
# r1   0   1   2
# r2   3   4   5

df = DataFrame(lst, columns=["c1", "c2", "c3"], index=["r1", "r2"])

print(df)

# c1 c2 c3

# r1 0 1 2

# r2 3 4 5

列リストと辞書による

列ごとのリストやndarrayが与えられていれば、それぞれの列名をキー、リストや配列を値とした辞書を引数にしてDataFrameを生成できる。

names = ["Austin", "Bill", "Charie"]
ages = np.array([38, 25, 52])
df = DataFrame({'name': names, 'age': ages})
print(df)

#      name  age
# 0  Austin   38
# 1    Bill   25
# 2  Charie   52

names = ["Austin", "Bill", "Charie"]

ages = np.array([38, 25, 52])

df = DataFrame({'name': names, 'age': ages})

print(df)

# name age

# 0 Austin 38

# 1 Bill 25

# 2 Charie 52

DataFrame – 情報・内容の取得

2020-11-03 / tau / コメントする

概要

pandas.DataFrameの行数・列数などの数や、列名・行名・データ配列を取り出す方法。以下のデータを使う。

import numpy as np
from pandas import DataFrame

lst = [
    ["Alex", "DC", 44, 168],
    ["Bert", "NY", 18, 176],
    ["Carl", "CA", 26, 175],
    ["Daryl", "DC", 32, 182],
    ["Eddy", "CA", 58, 192]
]

df = DataFrame(lst, columns=["name", "state", "age", "height"])
df = df.set_index("name")
print(df)

#       state age height
# name                  
# Alex     DC  44    168
# Bert     NY  18    176
# Carl     CA  26    175
# Daryl    DC  32    182
# Eddy     CA  58    192

import numpy as np

from pandas import DataFrame

lst = [

["Alex", "DC", 44, 168],

["Bert", "NY", 18, 176],

["Carl", "CA", 26, 175],

["Daryl", "DC", 32, 182],

["Eddy", "CA", 58, 192]

]

df = DataFrame(lst, columns=["name", "state", "age", "height"])

df = df.set_index("name")

print(df)

# state age height

# name

# Alex DC 44 168

# Bert NY 18 176

# Carl CA 26 175

# Daryl DC 32 182

# Eddy CA 58 192

行数・列数・サイズ

df.shapeプロパティーで（行数, 列数）のタプルが帰る。2つの変数にアンパッキングして使える。列名やインデックス列は行数・列数にカウントされない。

print(df.shape)
# (5, 3)

rows, cols = df.shape
print("rows={}, cols={}".format(rows, cols))
# rows=5, cols=3

print(df.shape)

# (5, 3)

rows, cols = df.shape

print("rows={}, cols={}".format(rows, cols))

# rows=5, cols=3

行数だけを得るにはlen(df)、列数だけを得るにはlen(df.columns)。

print(len(df))
# 5

print(len(df.columns))
# 3

print(len(df))

# 5

print(len(df.columns))

# 3

df.sizeで全要素数を得られる。

print(df.size)
# 15

1 2	print(df.size) # 15

行名・インデックス・データの内容

列名～`columns`

列名はcolumnsプロパティーで得られる。Indexオブジェクトで格納されていて、リストやndarrayにも変換可能。

print(df.columns)
print(list(df.columns))
print(np.array(df.columns))

# Index(['state', 'age', 'height'], dtype='object')
# ['state', 'age', 'height']
# ['state' 'age' 'height']

print(df.columns)

print(list(df.columns))

print(np.array(df.columns))

# Index(['state', 'age', 'height'], dtype='object')

# ['state', 'age', 'height']

# ['state' 'age' 'height']

行名～`index`

列名はcolumnsプロパティーで得られる。こちらもIndexオブジェクトで格納されていて、リストやndarrayにも変換可能。

print(df.index)
print(list(df.index))
print(np.array(df.index))

# Index(['Alex', 'Bert', 'Carl', 'Daryl', 'Eddy'], dtype='object', name='name')
# ['Alex', 'Bert', 'Carl', 'Daryl', 'Eddy']
# ['Alex' 'Bert' 'Carl' 'Daryl' 'Eddy']

print(df.index)

print(list(df.index))

print(np.array(df.index))

# Index(['Alex', 'Bert', 'Carl', 'Daryl', 'Eddy'], dtype='object', name='name')

# ['Alex', 'Bert', 'Carl', 'Daryl', 'Eddy']

# ['Alex' 'Bert' 'Carl' 'Daryl' 'Eddy']

データの内容～`values`

列名・行名を除いたデータの内容のみを取り出したいときはvaluesプロパティーにアクセスする。結果はndarrayで返される。

print(df.values)

# [['DC' 44 168]
#  ['NY' 18 176]
#  ['CA' 26 175]
#  ['DC' 32 182]
#  ['CA' 58 192]]

print(df.values)

# [['DC' 44 168]

# ['NY' 18 176]

# ['CA' 26 175]

# ['DC' 32 182]

# ['CA' 58 192]]

なお、valuesの内容を変更すると元のデータが変更される点に注意。以下は元データをndarrayで与えているが、リストで与えても結果は同じ。

ary = np.array([[0, 1], [2, 3]])
df = DataFrame(ary)

print("Before:")
print(df.values)
df.values[0, 0] = "9"
print("After:")
print(df.values)

# Before:
# [[0 1]
#  [2 3]]
# After:
# [[9 1]
#  [2 3]]

ary = np.array([[0, 1], [2, 3]])

df = DataFrame(ary)

print("Before:")

print(df.values)

df.values[0, 0] = "9"

print("After:")

print(df.values)

# Before:

# [[0 1]

# [2 3]]

# After:

# [[9 1]

# [2 3]]

Figure全体のタイトル

2020-11-01 / tau / コメントする

複数グラフを含むFigure全体に1つのタイトルを付けたい場合、Figure.suptitle()を使う。

import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(-np.pi, np.pi, 100)
y_sin = np.sin(x*2)
y_cos = np.cos(x*2)

fig, ax = plt.subplots(1, 2, figsize=(12.8, 4.8))
fig.suptitle("sine and cosine curves", fontsize="15")

ax[0].plot(x, y_sin)
ax[0].set_title("sin")

ax[1].plot(x, y_cos)
ax[1].set_title("cos")

plt.show()

import numpy as np

import matplotlib.pyplot as plt

x = np.linspace(-np.pi, np.pi, 100)

y_sin = np.sin(x*2)

y_cos = np.cos(x*2)

fig, ax = plt.subplots(1, 2, figsize=(12.8, 4.8))

fig.suptitle("sine and cosine curves", fontsize="15")

ax[0].plot(x, y_sin)

ax[0].set_title("sin")

ax[1].plot(x, y_cos)

ax[1].set_title("cos")

plt.show()

Axesで軸を反転させる

2020-11-01 / tau / コメントする

軸の反転には、invert_xaxis()、invert_yaxis()を使う。

軸が反転されているかどうかの確認には、xaxis_inverted()、yaxis_inverted()を使う。

import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(0, 1)
y = x**2

fig, axs = plt.subplots(2, 2, figsize=(6.4, 6.8))

for ax in axs.flatten():
    ax.plot(x, y)
    ax.set_aspect('equal')
    ax.set_xlim(0, 1)
    ax.set_ylim(0, 1)

axs[1, 0].invert_xaxis()
axs[1, 1].invert_xaxis()

axs[0, 1].invert_yaxis()
axs[1, 1].invert_yaxis()

axs[1, 0].set_title("x inverted")
axs[0, 1].set_title("y inverted")
axs[1, 1].set_title("x,y inverted")

for ax in axs.flatten():
    print(ax.xaxis_inverted(), ax.yaxis_inverted())

plt.show()

import numpy as np

import matplotlib.pyplot as plt

x = np.linspace(0, 1)

y = x**2

fig, axs = plt.subplots(2, 2, figsize=(6.4, 6.8))

for ax in axs.flatten():

ax.plot(x, y)

ax.set_aspect('equal')

ax.set_xlim(0, 1)

ax.set_ylim(0, 1)

axs[1, 0].invert_xaxis()

axs[1, 1].invert_xaxis()

axs[0, 1].invert_yaxis()

axs[1, 1].invert_yaxis()

axs[1, 0].set_title("x inverted")

axs[0, 1].set_title("y inverted")

axs[1, 1].set_title("x,y inverted")

for ax in axs.flatten():

print(ax.xaxis_inverted(), ax.yaxis_inverted())

plt.show()

実行結果

False False
False True
True False
True True

False False

False True

True False

True True

sklearn – confusion_matrix

2020-10-29 / tau / コメントする

概要

機械学習の精度を複数の視点で確認するのに、Confusion Matrix（混同行列）を用いるが、sklearn.metricsパッケージのconfusion_matrixモジュールはこの集計を自動で行ってくれる。

使い方

引数

confusion_matrix(y_true, y_pred, labels=None, normalize=None)

y_true: ターゲットの正解の配列を与える。
y_pred: 予測されたターゲットの配列を与える。
labels: 表示される順番を変更したいときに、ターゲット値をリストで指定する。
normalize: 合計値に対する比率で表示する。正解の合計に対する場合は'true'、予測結果の合計に対する場合は'pred'、全体の合計に対する場合は'all'を指定する。

戻り値

戻り値は[n_class, n_class]の2次元配列で、各行が正解の各クラス、各列が予測された各クラスに対応する。各クラスの並びは、数値なら昇順、文字列なら辞書順で、行・列とも同じ並びになる。

実行例

データの準備とモデルによる予測

Breast Cancerデータセットで使い方を見ていく。まず、cancerデータを読み込み、訓練データとテストデータに分割する。予測モデルにはLogistic回帰を用いて、訓練データについてターゲットを予測する。以降、訓練データに関する正解ターゲットと予測ターゲットを使う。

import numpy as np
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix

ds = load_breast_cancer()

X_train, X_test, y_train, y_test = train_test_split(
    ds.data, ds.target, stratify=ds.target, random_state=42)

logreg = LogisticRegression(solver='liblinear').fit(X_train, y_train)
y_train_pred = logreg.predict(X_train)

import numpy as np

import pandas as pd

from sklearn.datasets import load_breast_cancer

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LogisticRegression

from sklearn.metrics import confusion_matrix

ds = load_breast_cancer()

X_train, X_test, y_train, y_test = train_test_split(

ds.data, ds.target, stratify=ds.target, random_state=42)

logreg = LogisticRegression(solver='liblinear').fit(X_train, y_train)

y_train_pred = logreg.predict(X_train)

ここでデータの内容を確認しておく。正解データ、予測データとも0/1の2クラスで、0が悪性(malignant)、1が良性(begnign)と定義されている。

np.set_printoptions(threshold=1, edgeitems=3)
print("Target data")
print("Actual data    (size={}):{}".format(y_train.size, y_train))
print("Predicted data (size={}):{}".format(y_train_pred.size, y_train_pred))
print(ds.target_names)

# Actual data    (size=426):[0 1 0 ... 0 0 1]
# Predicted data (size=426):[0 1 0 ... 0 0 1]
# ['malignant' 'benign']

np.set_printoptions(threshold=1, edgeitems=3)

print("Target data")

print("Actual data (size={}):{}".format(y_train.size, y_train))

print("Predicted data (size={}):{}".format(y_train_pred.size, y_train_pred))

print(ds.target_names)

# Actual data (size=426):[0 1 0 ... 0 0 1]

# Predicted data (size=426):[0 1 0 ... 0 0 1]

# ['malignant' 'benign']

また、0/1の数値によるクラス表現を文字列表現にした配列を別に作っておく。

y_train_named = np.array([ds.target_names[x] for x in y_train])
y_train_pred_named = np.array([ds.target_names[x] for x in y_train_pred])

print("Actual data    (size={}):{}".format(y_train.size, y_train_named))
print("Predicted data (size={}):{}".format(y_train_pred.size, y_train_pred_named))

# Actual data    (size=426):['malignant' 'benign' 'malignant' ... 'malignant' 'malignant' 'benign']
# Predicted data (size=426):['malignant' 'benign' 'malignant' ... 'malignant' 'malignant' 'benign']

y_train_named = np.array([ds.target_names[x] for x in y_train])

y_train_pred_named = np.array([ds.target_names[x] for x in y_train_pred])

print("Actual data (size={}):{}".format(y_train.size, y_train_named))

print("Predicted data (size={}):{}".format(y_train_pred.size, y_train_pred_named))

# Actual data (size=426):['malignant' 'benign' 'malignant' ... 'malignant' 'malignant' 'benign']

# Predicted data (size=426):['malignant' 'benign' 'malignant' ... 'malignant' 'malignant' 'benign']

基本的な使い方

要素のみを得る

基本的な使い方は、confusion_matrix()の引数に正解データと予測データをコレクションで与える。結果は行・列とも昇順で並べられる。以下の例では、1行目が正解・悪性、2行目が正解・良性、1列目が予測・悪性、2列目が予測・良性となっている。

mat = confusion_matrix(y_train, y_train_pred)
print(mat)

# [[148  11]
#  [  9 258]]

mat = confusion_matrix(y_train, y_train_pred)

print(mat)

# [[148 11]

# [ 9 258]]

クラスが文字列で表現されている場合は、文字列の辞書順なので、行・列とも'benign'、'malignant'の順で並べられる。この結果、数値表現の場合に対して行・列とも入れ替わっている。

mat_named = confusion_matrix(y_train_named, y_train_pred_named)
print(mat_named)

# [[258   9]
#  [ 11 148]]

mat_named = confusion_matrix(y_train_named, y_train_pred_named)

print(mat_named)

# [[258 9]

# [ 11 148]]

要素の並び順を変更する

引数labelsにリストでクラスの並びを指定できる。以下の例ではデフォルトの昇順の並びを変更している。

print(confusion_matrix(y_train, y_train_pred, labels=[1, 0]))

# [[258   9]
#  [ 11 148]]

print(confusion_matrix(y_train_named, y_train_pred_named,
    labels=['malignant', 'benign']))

# [[148  11]
#  [  9 258]]

print(confusion_matrix(y_train, y_train_pred, labels=[1, 0]))

# [[258 9]

# [ 11 148]]

print(confusion_matrix(y_train_named, y_train_pred_named,

labels=['malignant', 'benign']))

# [[148 11]

# [ 9 258]]

要素を正規化する～比率で表す

引数normalizeで合計に対する比率の計算の仕方を指定できる。

normalize='true'の場合、正解の各行の合計に対する比率が計算される。以下の例では行の合計で各要素が除され、各行の合計が1となっている。

mat = confusion_matrix(y_train, y_train_pred, normalize='true')
print(mat)
print(mat.sum(axis=1))

# [[0.93081761 0.06918239]
#  [0.03370787 0.96629213]]
# [1. 1.]

mat = confusion_matrix(y_train, y_train_pred, normalize='true')

print(mat)

print(mat.sum(axis=1))

# [[0.93081761 0.06918239]

# [0.03370787 0.96629213]]

# [1. 1.]

normalize='pred'の場合、予測の各列の合計に対する比率が計算される。以下の例では列の合計で各要素が除され、各列の合計が1となっている。

mat = confusion_matrix(y_train, y_train_pred, normalize='pred')
print(mat)
print(mat.sum(axis=0))

# [[0.94267516 0.04089219]
#  [0.05732484 0.95910781]]
# [1. 1.]

mat = confusion_matrix(y_train, y_train_pred, normalize='pred')

print(mat)

print(mat.sum(axis=0))

# [[0.94267516 0.04089219]

# [0.05732484 0.95910781]]

# [1. 1.]

normalize='all'の場合、すべての要素の合計に対する比率が計算される。以下の例では、全要素の合計が1となっている。

mat = confusion_matrix(y_train, y_train_pred, normalize='all')
print(mat)
print(mat.sum())

# [[0.34741784 0.0258216 ]
#  [0.02112676 0.6056338 ]]
# 1.0

mat = confusion_matrix(y_train, y_train_pred, normalize='all')

print(mat)

print(mat.sum())

# [[0.34741784 0.0258216 ]

# [0.02112676 0.6056338 ]]

# 1.0

なお、normalize='all'を指定した場合の対角要素の和は、全要素に対する正解要素の比率になり、score()メソッドの値と等しい。

print("Accuracy      :{}".format(mat[0, 0] + mat[1, 1]))
print("Training score:{}".format(logreg.score(X_train, y_train)))

# Accuracy      :0.9530516431924883
# Training score:0.9530516431924883

print("Accuracy :{}".format(mat[0, 0] + mat[1, 1]))

print("Training score:{}".format(logreg.score(X_train, y_train)))

# Accuracy :0.9530516431924883

# Training score:0.9530516431924883

DataFrameによる扱い

ラベルの追加

pandasのDataFrameを使うと、行・列のラベルが表示されるので見やすくなる。行（正解）のラベルはindexで、列（予測）のラベルはcolumnsで指定し、同じ内容のコレクションを与える。

mat = confusion_matrix(y_train, y_train_pred)
result_label = ['malignant', 'benign']
df = pd.DataFrame(mat, columns=result_label, index=result_label)

#            malignant  benign
# malignant        148      11
# benign             9     258

mat = confusion_matrix(y_train, y_train_pred)

result_label = ['malignant', 'benign']

df = pd.DataFrame(mat, columns=result_label, index=result_label)

# malignant benign

# malignant 148 11

# benign 9 258

合計欄

DataFrameのsum()メソッドで、行・列の合計を計算して追加すると見やすい。sum()メソッドの引数を省略するとデフォルトのaxis=0となり、列ごとの合計が1次元配列で得られる。引数をaxis=1とすると行単位の合計が1次元配列で得られる。

以下の例では、まず列方向の合計（各予測クラスの合計）を最後の行に加え、その行も含めて行方向の合計（各正解クラス、予測クラス合計の合計）を最後の列に加える。

sums_in_col = df.sum()
df.loc['Total'] = sums_in_col

sums_in_row = df.sum(axis=1)
df['Total'] = sums_in_row

print(df)

#            malignant  benign  Total
# malignant        148      11    159
# benign             9     258    267
# Total            157     269    426

sums_in_col = df.sum()

df.loc['Total'] = sums_in_col

sums_in_row = df.sum(axis=1)

df['Total'] = sums_in_row

print(df)

# malignant benign Total

# malignant 148 11 159

# benign 9 258 267

# Total 157 269 426

Multiindex

DataFrameのMultiindexを使うと、正解・予測を表示できるのでより分かりやすくなる。ただし行・列・要素の指定が少し煩雑になる。

actual_label = ['Actual'] * 2
pred_label = ['Prediction'] * 2
df = pd.DataFrame(mat, columns=[pred_label, result_label], index=[actual_label, result_label])
print(df)

#                  Prediction       
#                   malignant benign
# Actual malignant        148     11
#        benign             9    258

actual_label = ['Actual'] * 2

pred_label = ['Prediction'] * 2

df = pd.DataFrame(mat, columns=[pred_label, result_label], index=[actual_label, result_label])

print(df)

# Prediction

# malignant benign

# Actual malignant 148 11

# benign 9 258

以下はMultiindexの場合に合計欄を加える例。

sums_in_col = df.sum()
df.loc[('Actual', 'Total'), :] = sums_in_col

sums_in_row = df.sum(axis=1)
df[('Prediction', 'Total')] = sums_in_row

df = df.astype('int')
print(df)

#                  Prediction             
#                   malignant benign Total
# Actual malignant        148     11   159
#        benign             9    258   267
#        Total            157    269   426

sums_in_col = df.sum()

df.loc[('Actual', 'Total'), :] = sums_in_col

sums_in_row = df.sum(axis=1)

df[('Prediction', 'Total')] = sums_in_row

df = df.astype('int')

print(df)

# Prediction

# malignant benign Total

# Actual malignant 148 11 159

# benign 9 258 267

# Total 157 269 426

1次元配列の場合

平均

分散・標準偏差

標本分散・標本標準偏差

不偏推定量

2次元配列の場合

平均

分散・標準偏差

標本分散・標本標準偏差

不偏推定量

共分散

概要

ndarrayの場合

max()メソッド

sum()メソッド

repeat()メソッド

図による理解

DataFrameの場合

min()メソッドなど

add()などの演算メソッド

apply()メソッド

演算メソッドの図による理解

補足

1次元配列の場合

1行の2次元配列の場合

1列の2次元配列の場合

概要

列の参照

DataFrameで列名を直接指定

1つの列を指定

ファンシー・インデックスによる複数列の指定

locによる列の指定

1つの列の指定

スライスによる連続した列の指定

ファンシーインデックスによる複数列の指定

列の追加

DataFrameで直接列名を指定して追加

locでスライス指定して追加

assignメソッドによる追加

insertメソッドによる途中への追加

列の更新

DataFrameで列名を直接指定

1つの列を指定

ファンシーインデックスによる複数列の指定

locによる列名・スライスの指定

1つの列の指定

スライスによる連続した列の指定

ファンシーインデックスによる複数列の指定

列の削除

例題のデータ

1列の削除

複数列の削除

連続した列の削除

要素の操作

at/iat～単独要素の参照・変更

at～インデックス指定

iat～行・列番号指定

loc/iloc～単独要素・スライスの参照・変更

loc～インデックス指定／終端含む

iloc～行・列番号指定／終端含まず

概要

配列は不適

リストはOK

列の辞書もOK

リスト・配列からの生成

リストからの生成

ndarrayからの生成

列名・行インデックスの設定

列リストと辞書による

概要

行数・列数・サイズ

行名・インデックス・データの内容

列名～columns

行名～index

データの内容～values

概要

使い方

引数

戻り値

実行例

`ndarray`の場合

`max()`メソッド

`sum()`メソッド

`repeat()`メソッド

`DataFrame`の場合

`min()`メソッドなど

`add()`などの演算メソッド

`apply()`メソッド

`loc`による列の指定

`DataFrame`で直接列名を指定して追加

`loc`でスライス指定して追加

`assign`メソッドによる追加

`insert`メソッドによる途中への追加

`DataFrame`で列名を直接指定

`loc`による列名・スライスの指定

`at/iat`～単独要素の参照・変更

`at`～インデックス指定

`iat`～行・列番号指定

`loc/iloc`～単独要素・スライスの参照・変更

`loc`～インデックス指定／終端含む

`iloc`～行・列番号指定／終端含まず

列名～`columns`

行名～`index`

データの内容～`values`