DataFrame – 列の操作

概要

DataFrameの列の操作をまとめる。

以下、次のDataFrameを使う。

列の参照

DataFrameで列名を直接指定

1つの列を指定

DataFrameで直接列名を指定するとSeriesオブジェクトが得られ、リストやndarrayにも変換できる。

ファンシー・インデックスによる複数列の指定

DataFrameで直接列名を指定する際に列名のリストを渡すと、その要素の列が並んだDataFrameが返される。

locによる列の指定

1つの列の指定

locで全行のスライス':'とすることで、列名を指定して列を取り出すことができる。結果はSeriesオブジェクト。

スライスによる連続した列の指定

列名にもスライスを使って連続した列を参照することができ、複数列の場合はDataFrameが返される。

ファンシーインデックスによる複数列の指定

locでもファンシーインデックスを使うことができて、個別の列を組み合わせたDataFrameを得ることができる。

列の追加

DataFrameで直接列名を指定して追加

DataFrameに新たな列名を指定して末尾に列を追加。列にarray_likeではなく数値を指定すると、列の全ての要素が同じ数値で埋められる。

locでスライス指定して追加

全行をスライス指定、新たな行名を指定して末尾に列を追加。

assignメソッドによる追加

assignメソッドで末尾に追加する場合、列名は文字列("列名")ではなく、直接「列名=列」で指定する。assignメソッドは元のオブジェクトは変更せず、新たなDataFrameを生成して返す。

insertメソッドによる途中への追加

insertメソッドは(挿入する列位置、"列名"、挿入する列)で挿入する。

列の更新

DataFrameで列名を直接指定

1つの列を指定

DataFrameで列名を直接指定して、その列に新たな列を代入する。代入する列は縦ベクトルでなくてもよく、1次元のリストや配列でよい。

ファンシーインデックスによる複数列の指定

ファンシーインデックスで複数列をリストで指定し、その列数と同じ列数のデータを与えて更新する。

locによる列名・スライスの指定

1つの列の指定

locで全行のスライスと1つの列名を指定して列を更新。

スライスによる連続した列の指定

スライスで連続した列を指定して一括して更新することができる。その場合、指定されたDataFrameの形状に合った次元・次数のデータを与える必要がある。

ファンシーインデックスによる複数列の指定

ファンシーインデックスも使うことができて、この場合も形状に合った次元・次数のデータを与える必要がある。

列の削除

例題のデータ

以下の2つのデータを使って、列番号指定の場合と列名指定の場合を確認する。

1列の削除

drop()メソッドの引数に削除する列の列番号とaxis=1を指定して削除(axis指定の方向に注意)。

第1引数の列指定はlabels=1labels="one"のように指定してもよい。

複数列の削除

複数列を削除する場合はリストで指定。

連続した列の削除

連続した列を削除する場合はリストの内包表記で。

文字列の列名の場合は、泥臭いが以下の方法か。

 

DataFrame – 要素の内容の参照・変更

要素の操作

以下の2つのDataFrameを使っていく。

at/iat~単独要素の参照・変更

at~インデックス指定

atは行・列のラベルを指定して単独の要素を参照・変更

インデックスがデフォルトの数値の場合は数値指定。

iat~行・列番号指定

iatは行・列の番号を数値で指定して単独の要素を参照・変更。行・列のインデックスはカウントされない。

インデックスがデフォルトの数値の場合は数値指定。

loc/iloc~単独要素・スライスの参照・変更

loc~インデックス指定/終端含む

locの単独要素指定もatと同様。

locは行・列のラベルにスライスを指定可能。ただしlocのスライス指定ではリストや配列と異なり、(デフォルトの数値ラベルであっても)終端の行・列を含む点に注意

スライス指定した範囲を変更可能。行単位・列単位のデータの更新の際に使う。

iloc~行・列番号指定/終端含まず

ilocは行・列の番号にスライスを指定可能。ilocのスライス指定では、リストや配列と同じで、終端の行・列は含まれない

ilocでもスライス指定で内容変更が可能。

DataFrame – 生成時の数値と文字列の混在について

概要

DataFrameは列同士の型が異なってもよいが、配列でデータを組み立てる場合に数値と文字を混在させると、数値が全て文字列となってしまうので注意が必要。

配列は不適

以下のようにndarrayで文字列と数値を混在させたデータを基にしてDataFrameを生成すると、その内容が全て文字列になってしまう。

このデータの数値演算を行おうとすると以下のように文字列演算になってしまう。

これはndarrayが型の混在を許さないためで、いわばケアレスミスだが注意。

リストはOK

元のデータをリストにすれば問題なく数値と文字列に分けられる。

列の辞書もOK

列ごとのリストを辞書で組み立てても数値と文字は分けられる。

 

DataFrame – 生成

リスト・配列からの生成

リストからの生成

2次元のリストをそのまま引数にしてDataFrameを生成。列名・行名には自動的に番号が振られる。

ndarrayからの生成

2次元のndarrayからもDataFrameを生成可能。

列名・行インデックスの設定

DataFrame生成時にcolumnsで列名を、indexで行インデックスを設定可能。

列リストと辞書による

列ごとのリストやndarrayが与えられていれば、それぞれの列名をキー、リストや配列を値とした辞書を引数にしてDataFrameを生成できる。

 

DataFrame – 情報・内容の取得

概要

pandas.DataFrameの行数・列数などの数や、列名・行名・データ配列を取り出す方法。以下のデータを使う。

行数・列数・サイズ

df.shapeプロパティーで(行数, 列数)のタプルが帰る。2つの変数にアンパッキングして使える。列名やインデックス列は行数・列数にカウントされない。

行数だけを得るにはlen(df)、列数だけを得るにはlen(df.columns)

df.sizeで全要素数を得られる。

行名・インデックス・データの内容

列名~columns

列名はcolumnsプロパティーで得られる。Indexオブジェクトで格納されていて、リストやndarrayにも変換可能。

行名~index

列名はcolumnsプロパティーで得られる。こちらもIndexオブジェクトで格納されていて、リストやndarrayにも変換可能。

データの内容~values

列名・行名を除いたデータの内容のみを取り出したいときはvaluesプロパティーにアクセスする。結果はndarrayで返される。

なお、valuesの内容を変更すると元のデータが変更される点に注意。以下は元データをndarrayで与えているが、リストで与えても結果は同じ。

 

Figure全体のタイトル

複数グラフを含むFigure全体に1つのタイトルを付けたい場合、Figure.suptitle()を使う。

 

Axesで軸を反転させる

軸の反転には、invert_xaxis()invert_yaxis()を使う。

軸が反転されているかどうかの確認には、xaxis_inverted()yaxis_inverted()を使う。

 

実行結果