R – スクリプトの扱い

2019-02-10 / tau / コメントする

スクリプトの記述

コンソールのメニューから、”ファイル”→”新しいスクリプト”でスクリプトエディタ立ち上げ
スクリプトを記述
スクリプトを保存

スクリプトを作業ディレクトリに保存しておくと、コンソールからの実行がしやすい。

作業ディレクトリの確認方法は

> getwd()

> getwd()

スクリプトの実行

エディタからの実行

[CTRL]+R、エディタのカーソル行以降の文が1行ずつ実行される。[CTRL]+Aで全選択して[CTRL]+Rとすると、すべての文が実行される。

コンソールからの実行

スクリプトが作業ディレクトリにある場合は、以下のコマンドで直接実行。

> source('foo.R')

1	> source('foo.R')

R – rbindについて

2016-09-20 / tau / コメントする

rbind()で困った点

データフレームにrbindでアイテムを追加する場合、紹介されている例ではみな、データをベクトルで与えている(注：文字列型が勝手にFactor型にされてしまうのを4行目で回避している)。

> name <- c("alice")
> age <- 26
> data <- data.frame(name = name, age = age)
> data$name <- as.character(data$name)
> 
> data <- rbind(data, c("john", 38))
> data
   name age
1 alice  26
2  john  38

> name <- c("alice")

> age <- 26

> data <- data.frame(name = name, age = age)

> data$name <- as.character(data$name)

> data <- rbind(data, c("john", 38))

> data

name age

1 alice 26

2 john 38

一見するとうまくいっているが、実は問題がある。ageの項目が数字のはずだと内容を参照したり計算しようとすると・・・

> data[1, 2]
[1] "26"
> data[2, 2]
[1] "38"
> data[1, 2] + data[2, 2]
 data[1, 2] + data[2, 2] でエラー:  二項演算子の引数が数値ではありません

> data[1, 2]

[1] "26"

> data[2, 2]

[1] "38"

> data[1, 2] + data[2, 2]

data[1, 2] + data[2, 2] でエラー: 二項演算子の引数が数値ではありません

となってしまう。

これはRのベクトルの仕様で、1つのベクトルの要素の型がすべて同じでなければならず、文字列型と数値型が混在した場合は数値が文字列に変換されてしまうため。

これを回避するために幾つかの方法があるが、たとえばここではas.numeric()を用いてみる。

> data$age <- as.numeric(data$age)
> data[1, 2]
[1] 26
> data[2, 2]
[1] 38
> data[1, 2] + data[2, 2]
[1] 64

> data$age <- as.numeric(data$age)

> data[1, 2]

[1] 26

> data[2, 2]

[1] 38

> data[1, 2] + data[2, 2]

[1] 64

うむ、うまくいっている、と思って、これに新たなデータを追加すると・・・

> data <- rbind(data, c("luice", 30))
> data
   name age
1 alice  26
2  john  38
3 luice  30
> data[3, 2]
[1] "30"
> data[1, 2]
[1] "26"
> data[1, 2] + data[3, 2]
 data[1, 2] + data[3, 2] でエラー:  二項演算子の引数が数値ではありませ

> data <- rbind(data, c("luice", 30))

> data

name age

1 alice 26

2 john 38

3 luice 30

> data[3, 2]

[1] "30"

> data[1, 2]

[1] "26"

> data[1, 2] + data[3, 2]

data[1, 2] + data[3, 2] でエラー: 二項演算子の引数が数値ではありませ

またしても怒られた。これはデータ追加のたびにベクトルの段階で文字列への変換が行われてしまうためらしく、上の9～10行目で前に数値型にしたはずのデータまで文字列に変換されてしまっている。

ベクトルではなくリストを使う

そこで、rbindでデータ群を与えるのに、ベクトルではなくリストを使ってみた。

> name <- c("alice")
> age <- 26
> data <- data.frame(name = name, age = age)
> data$name <- as.character(data$name)
> 
> data <- rbind(data, list("john", 38))
> data
   name age
1 alice  26
2  john  38

> name <- c("alice")

> age <- 26

> data <- data.frame(name = name, age = age)

> data$name <- as.character(data$name)

> data <- rbind(data, list("john", 38))

> data

name age

1 alice 26

2 john 38

見た目はベクトルの時と同じく、うまくいっているように見える。そこで各要素をチェックしてみると・・・

> data[1, 2]
[1] 26
> data[2, 2]
[1] 38
> data[1, 2] + data[2, 2]
[1] 64

> data[1, 2]

[1] 26

> data[2, 2]

[1] 38

> data[1, 2] + data[2, 2]

[1] 64

ちゃんと数値として扱われている。それでは新たにデータを追加しても大丈夫か。

> data <- rbind(data, list("luice", 30))
> data
   name age
1 alice  26
2  john  38
3 luice  30
> data[1, 2] + data[3, 2]
[1] 56

> data <- rbind(data, list("luice", 30))

> data

name age

1 alice 26

2 john 38

3 luice 30

> data[1, 2] + data[3, 2]

[1] 56

問題なし。

よって、文字列と数値が混在する場合は、rbindの引数にはリストを使うべき。

R – 因子型(Factor型)

2016-09-20 / tau / 2件のコメント

準備

以下のように文字列型のベクトルを準備。

> s <- "sun"
> m <- "mon"
> t <- "tue"
> (x <- c(s, m, t, m, s, m))
[1] "sun" "mon" "tue" "mon" "sun" "mon"

> s <- "sun"

> m <- "mon"

> t <- "tue"

> (x <- c(s, m, t, m, s, m))

[1] "sun" "mon" "tue" "mon" "sun" "mon"

因子型への変換

factor()関数を使って因子型へ返還。このとき因子の順番はシステムで自動的に割り振られ、ソートするとその順番で並べ替えられる。

> (y <- factor(x))
[1] sun mon tue mon sun mon
Levels: mon sun tue
> str(y)
 Factor w/ 3 levels "mon","sun","tue": 2 1 3 1 2 1
> sort(y)
[1] mon mon mon sun sun tue
Levels: mon sun tue

> (y <- factor(x))

[1] sun mon tue mon sun mon

Levels: mon sun tue

> str(y)

Factor w/ 3 levels "mon","sun","tue": 2 1 3 1 2 1

> sort(y)

[1] mon mon mon sun sun tue

Levels: mon sun tue

因子を指定した要素の抽出

要素の抽出は因子のラベルを指定して行う。
因子のオーダでの指定はできない。

> y[y == "sun"]
[1] sun sun
Levels: mon sun tue
> y[y == 2]
factor(0)
Levels: mon sun tue

> y[y == "sun"]

[1] sun sun

Levels: mon sun tue

> y[y == 2]

factor(0)

Levels: mon sun tue

因子の順序の指定

factor()関数のlevels指定で明示的に因子の順序を指定できる。

> (z <- factor(x, levels=c(s, m, t)))
[1] sun mon tue mon sun mon
Levels: sun mon tue
> str(z)
 Factor w/ 3 levels "sun","mon","tue": 1 2 3 2 1 2
> sort(z)
[1] sun sun mon mon mon tue
Levels: sun mon tue

> (z <- factor(x, levels=c(s, m, t)))

[1] sun mon tue mon sun mon

Levels: sun mon tue

> str(z)

Factor w/ 3 levels "sun","mon","tue": 1 2 3 2 1 2

> sort(z)

[1] sun sun mon mon mon tue

Levels: sun mon tue

因子の大小関係の指定

上記のベクトルyやzの各因子は順序関係を持っているが、それらは順序については特定できるが大小判定は行えない。

大小判定可能な値とするにはordered()関数を通す必要がある。

> sort(z)
[1] sun sun mon mon mon tue
Levels: sun mon tue
> z[z > "sun"]
[1] <NA> <NA> <NA> <NA> <NA> <NA>
Levels: sun mon tue
 警告メッセージ: 
 Ops.factor(z, "sun") で:  ‘>’ not meaningful for factors
> z <- ordered(z)
> z[z > "sun"]
[1] mon tue mon mon
Levels: sun < mon < tue

> sort(z)

[1] sun sun mon mon mon tue

Levels: sun mon tue

> z[z > "sun"]

[1] <NA> <NA> <NA> <NA> <NA> <NA>

Levels: sun mon tue

警告メッセージ:

Ops.factor(z, "sun") で: ‘>’ not meaningful for factors

> z <- ordered(z)

> z[z > "sun"]

[1] mon tue mon mon

Levels: sun < mon < tue

Factorベクトルの新規生成

一つ目の要素を定義する場合

通常紹介されている方法は、文字列型などのベクトルがあらかじめ準備されていて、それをFactor型に変換するというもの。

一つ目の要素を定義して、以降付け足していきたい場合は以下のようにする。

> (y <- factor(c("sun"), levels=c("sun", "mon", "tue")))
[1] sun
Levels: sun mon tue
> y[2] <- "mon"
> y[3] <- "tue"
> y[4] <- "mon"
> y[5] <- "sun"
> y[6] <- "mon"
> 
> y
[1] sun mon tue mon sun mon
Levels: sun mon tue

> (y <- factor(c("sun"), levels=c("sun", "mon", "tue")))

[1] sun

Levels: sun mon tue

> y[2] <- "mon"

> y[3] <- "tue"

> y[4] <- "mon"

> y[5] <- "sun"

> y[6] <- "mon"

> y

[1] sun mon tue mon sun mon

Levels: sun mon tue

またlevelsを指定しないと、初期値以外はNAとなって警告が出る。

> (y <- factor(c("sun")))
[1] sun
Levels: sun
> y[1] <- "sun"
> y[2] <- "mon"
 警告メッセージ: 
 `[<-.factor`(`*tmp*`, 2, value = "mon") で: 
  invalid factor level, NA generated
> y[3] <- "tue"
 警告メッセージ: 
 `[<-.factor`(`*tmp*`, 3, value = "tue") で: 
  invalid factor level, NA generated
> y[4] <- "sun"
> 
> y
[1] sun  <NA> <NA> sun 
Levels: sun

> (y <- factor(c("sun")))

[1] sun

Levels: sun

> y[1] <- "sun"

> y[2] <- "mon"

警告メッセージ:

`[<-.factor`(`*tmp*`, 2, value = "mon") で:

invalid factor level, NA generated

> y[3] <- "tue"

警告メッセージ:

`[<-.factor`(`*tmp*`, 3, value = "tue") で:

invalid factor level, NA generated

> y[4] <- "sun"

> y

[1] sun <NA> <NA> sun

Levels: sun

またlevelsで指定した以外のラベルを指定するとNAとなり、最初の要素は無視され、その後追加しようとした要素はNAとして保存される。

> (y <- factor(c("wed"), levels=c("sun", "mon", "tue")))
[1] <NA>
Levels: sun mon tue
> y[1] <- "sun"
> y[2] <- "mon"
> y[3] <- "tue"
> y[4] <- "wed"
 警告メッセージ: 
 `[<-.factor`(`*tmp*`, 4, value = "wed") で: 
  invalid factor level, NA generated
> 
> y
[1] sun  mon  tue  <NA>
Levels: sun mon tue

> (y <- factor(c("wed"), levels=c("sun", "mon", "tue")))

[1] <NA>

Levels: sun mon tue

> y[1] <- "sun"

> y[2] <- "mon"

> y[3] <- "tue"

> y[4] <- "wed"

警告メッセージ:

`[<-.factor`(`*tmp*`, 4, value = "wed") で:

invalid factor level, NA generated

> y

[1] sun mon tue <NA>

Levels: sun mon tue

要素数ゼロから定義する場合

最初からFactor型のベクトルを定義してゼロから要素を追加するには、以下のようにするとよい。

下記の例では、factor()関数の第1引数に仮のベクトルをnumeric(0)で与えているが、character(0)でも同じ結果となり、単なるプレースホルダとなっているらしい。

> (y <- factor(numeric(0), levels=c("sun", "mon", "tue")))
factor(0)
Levels: sun mon tue
> y[1] <- "sun"
> y[2] <- "mon"
> y[3] <- "tue"
> y[4] <- "mon"
> y[5] <- "sun"
> y[6] <- "mon"
> 
> y
[1] sun mon tue mon sun mon
Levels: sun mon tue

> (y <- factor(numeric(0), levels=c("sun", "mon", "tue")))

factor(0)

Levels: sun mon tue

> y[1] <- "sun"

> y[2] <- "mon"

> y[3] <- "tue"

> y[4] <- "mon"

> y[5] <- "sun"

> y[6] <- "mon"

> y

[1] sun mon tue mon sun mon

Levels: sun mon tue

データフレーム生成の場合の因子化について

データフレーム生成時に、文字列型ベクトルが自動的に因子型に変換される。これを抑止する方法についてはこちらを参照。

R – 画面表示

2016-09-18 / tau / コメントする

オブジェクトの直接表示

オブジェクトを直接入力すると、その内容が表示される。

> c(1, 2, 3)
[1] 1 2 3
> x = 1:5
> x
[1] 1 2 3 4 5
> (y = seq(1, 5))
[1] 1 2 3 4 5

> c(1, 2, 3)

[1] 1 2 3

> x = 1:5

> x

[1] 1 2 3 4 5

> (y = seq(1, 5))

[1] 1 2 3 4 5

スクリプトファイルでも行頭にオブジェクトを書くと、その行の実行時点でオブジェクトの内容が表示される。

ただし条件判断やループの場合は、文でもブロックでも表示はされない。

例えば以下のスクリプトの場合、

1:5

for (i in 1:5) {
  1:i
}

for (i in 1:5) 1:i

1:5

for (i in 1:5) {

1:i

}

for (i in 1:5) 1:i

表示されるのは1行目だけ。

> 1:5print
[1] 1 2 3 4 5
> 
> for (i in 1:5) {
+   1:i
+ }
> 
> for (i in 1:5) 1:i

> 1:5print

[1] 1 2 3 4 5

> for (i in 1:5) {

+ 1:i

+ }

> for (i in 1:5) 1:i

print()～一般的な表示

オブジェクトの内容をそのまま表示する。

デフォルトでは文字列が””で囲われるが、quote=Fを指定すると””が表示されなくなる。

> x <- c("one", "two", "three")
> print(x)
[1] "one"   "two"   "three"
> x <- c("one", "two", "three")
> print(x)
[1] "one"   "two"   "three"
> print(x, quote=F)
[1] one   two   three

> x <- c("one", "two", "three")

> print(x)

[1] "one" "two" "three"

> x <- c("one", "two", "three")

> print(x)

[1] "one" "two" "three"

> print(x, quote=F)

[1] one two three

page()～別ウィンドウでの表示

page()関数ごとに別ウィンドウが立ち上がり、オブジェクトが表示される。大量のデータを表示するときに便利。

デフォルトではmethod="dput"が指定され、オブジェクトの定義表現が表示される。

オブジェクトの内容を表示するときは、明示的にmethod="print"を指定する。

x <- 1:100
page(x, method="dput")
page(x, method="print")

x <- 1:100

page(x, method="dput")

page(x, method="print")

1つ目のpage()関数で別ウィンドウが立ち上がり、以下のように表示される。

1:100

1:100

2つ目のpage()関数で2つ目の別ウィンドウが立ち上がり、以下のように表示される。

  [1]   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18
 [19]  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36
 [37]  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53  54
 [55]  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71  72
 [73]  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89  90
 [91]  91  92  93  94  95  96  97  98  99 100

[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

[19] 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36

[37] 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54

[55] 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72

[73] 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90

[91] 91 92 93 94 95 96 97 98 99 100

cat()～文字列の表示

cat()関数は、括弧内の文字列をそのまま出力する。

catは最後に改行をつけないので、改行させたい時は”\n”を付ける。

> cat("This is test for cat()\n")
This is test for cat()

1 2	> cat("This is test for cat()\n") This is test for cat()

str()～オブジェクト情報付き表示

要約されたオブジェクトの情報を付けて内容を表示する。

> str(seq(1, 5))
 int [1:5] 1 2 3 4 5
> str(c("one", "two", "three"))
 chr [1:3] "one" "two" "three"

> str(seq(1, 5))

int [1:5] 1 2 3 4 5

> str(c("one", "two", "three"))

chr [1:3] "one" "two" "three"

summary()～データの要約を表示する。

オブジェクトの内容に応じた要約情報を表示する。

summaryは特に統計データの要約に重要。たとえば▲データフレームの集計▲を参照。

> summary(seq(1, 5))
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      1       2       3       3       4       5 
> summary(c("one", "two", "three"))
   Length     Class      Mode 
        3 character character

> summary(seq(1, 5))

Min. 1st Qu. Median Mean 3rd Qu. Max.

1 2 3 3 4 5

> summary(c("one", "two", "three"))

Length Class Mode

3 character character

R – データフレームの参照・変更

2016-09-15 / tau / コメントする

データフレーム全体の参照

データフレームの名前そのもので、データフレームの内容を参照できる。列名(name, age)や項目名(“1″～”3”)も含めて参照される。

> name.data <- c("John", "Alice", "Dick")
> age.data <- c(35, 28, 42)
> data <- data.frame(name=name.data, age=age.data)
> data$name <- as.character(data$name)
> 
> data
   name age
1  John  35
2 Alice  28
3  Dick  42

> name.data <- c("John", "Alice", "Dick")

> age.data <- c(35, 28, 42)

> data <- data.frame(name=name.data, age=age.data)

> data$name <- as.character(data$name)

> data

name age

1 John 35

2 Alice 28

3 Dick 42

データフレームの行数・列数の参照

nrow()関数、ncol()関数でデータフレームの行数、列数を参照できる。dim()関数は(行数, 列数)のベクトルを返す。

> nrow(data)
[1] 3
> ncol(data)
[1] 2
> dim(data)
[1] 3 2

> nrow(data)

[1] 3

> ncol(data)

[1] 2

> dim(data)

[1] 3 2

データフレームの内容の参照・変更

列名・項目名の参照・変更

列名はnames()関数かcolnames()関数で、項目名はrownames()関数で取得できる。

> name.data <- c("John", "Alice", "Dick")
> age.data <- c(35, 28, 42)
> data <- data.frame(name=name.data, age=age.data)
> data$name <- as.character(data$name)
> 
> data
   name age
1  John  35
2 Alice  28
3  Dick  42
> 
> names(data)
[1] "name" "age" 
> 
> colnames(data)
[1] "name" "age" 
> 
> rownames(data)
[1] "1" "2" "3"

> name.data <- c("John", "Alice", "Dick")

> age.data <- c(35, 28, 42)

> data <- data.frame(name=name.data, age=age.data)

> data$name <- as.character(data$name)

> data

name age

1 John 35

2 Alice 28

3 Dick 42

> names(data)

[1] "name" "age"

> colnames(data)

[1] "name" "age"

> rownames(data)

[1] "1" "2" "3"

列名や項目名は、それぞれの参照関数にベクトルを代入することで変更できる。

> names(data) <- c("NAME", "AGE")
> rownames(data) <- c("a", "b", "c")
> data
   NAME AGE
a  John  35
b Alice  28
c  Dick  42

> names(data) <- c("NAME", "AGE")

> rownames(data) <- c("a", "b", "c")

> data

NAME AGE

a John 35

b Alice 28

c Dick 42

データフレームの要素の参照・変更

行・列を直接指定して参照する場合、列の場合は列名を指定するか列番号で、行の場合は行番号を指定して参照する。行・列の番号を指定して1つのデータを取得することもできる。

行番号を指定する場合は後ろに、列番号を指定する場合は前に”,”をつける必要があり、これは後述の行の抽出の場合に重要になる。

なお、参照した要素の右に代入文を書くことで、その要素や業・列の内容を変更できる。

> name.data <- c("John", "Alice", "Dick")
> age.data <- c(35, 28, 42)
> data <- data.frame(name=name.data, age=age.data)
> data$name <- as.character(data$name)
> 
> data
   name age
1  John  35
2 Alice  28
3  Dick  42
> 
> data$age
[1] 35 28 42
> 
> data[,2]
[1] 35 28 42
> 
> data[1,]
  name age
1 John  35
> 
> data[3,2]
[1] 42

> name.data <- c("John", "Alice", "Dick")

> age.data <- c(35, 28, 42)

> data <- data.frame(name=name.data, age=age.data)

> data$name <- as.character(data$name)

> data

name age

1 John 35

2 Alice 28

3 Dick 42

> data$age

[1] 35 28 42

> data[,2]

[1] 35 28 42

> data[1,]

name age

1 John 35

> data[3,2]

[1] 42

行・列の追加と削除

行・列の追加

行の追加はrbind()関数で、列の追加はcbind()関数で行う。

これらの関数は元のデータフレームを変更せず、新たなデータフレームを結果として返す。

rbindの注意点として、文字型を意図した項目はあらかじめFactor型から文字型に変更しておかないと、文字列を含んだデータを結合しようとするとエラーになる。

cbindの注意点としては、デフォルトでは引数の変数名が項目名にあてられる。直接c(…)と書いたりすると、それがそのまま項目名になってしまう。

【追記】　以下の例ではrbindの引数にベクトルを渡しているが、文字列と数値が混在している下記のような例では、これは危ない→rbindについてを参照

> name.data <- c("John", "Alice", "Dick")
> age.data <- c(35, 28, 42)
> data <- data.frame(name=name.data, age=age.data)
> data$name <- as.character(data$name)
> 
> data
   name age
1  John  35
2 Alice  28
3  Dick  42
> 
> rbind(data, c("Elen", 32))
   name age
1  John  35
2 Alice  28
3  Dick  42
4  Elen  32
> 
> height <- c(180, 162, 172)
> cbind(data, height)
   name age height
1  John  35    180
2 Alice  28    162
3  Dick  42    172

> name.data <- c("John", "Alice", "Dick")

> age.data <- c(35, 28, 42)

> data <- data.frame(name=name.data, age=age.data)

> data$name <- as.character(data$name)

> data

name age

1 John 35

2 Alice 28

3 Dick 42

> rbind(data, c("Elen", 32))

name age

1 John 35

2 Alice 28

3 Dick 42

4 Elen 32

> height <- c(180, 162, 172)

> cbind(data, height)

name age height

1 John 35 180

2 Alice 28 162

3 Dick 42 172

行・列の削除

行や列の番号を指定して削除する場合は、番号にマイナスをつける。範囲指定も可能。

行・列の追加と同じく、これらの操作も元のデータフレームを変更せず、新たなデータフレームを結果として返す。

> name.data <- c("John", "Alice", "Dick")
> age.data <- c(35, 28, 42)
> height.data <- c(180, 162, 172)
> data <- data.frame(name=name.data, age=age.data, height=height.data)
> 
> data
   name age height
1  John  35    180
2 Alice  28    162
3  Dick  42    172
> 
> data[-2,]
  name age height
1 John  35    180
3 Dick  42    172
> 
> data[,-2]
   name height
1  John    180
2 Alice    162
3  Dick    172
> 
> data[-1:-2,]
  name age height
3 Dick  42    172

> name.data <- c("John", "Alice", "Dick")

> age.data <- c(35, 28, 42)

> height.data <- c(180, 162, 172)

> data <- data.frame(name=name.data, age=age.data, height=height.data)

> data

name age height

1 John 35 180

2 Alice 28 162

3 Dick 42 172

> data[-2,]

name age height

1 John 35 180

3 Dick 42 172

> data[,-2]

name height

1 John 180

2 Alice 162

3 Dick 172

> data[-1:-2,]

name age height

3 Dick 42 172

データの抽出

列項目の条件を指定して、要素を抽出することができる。

指定の条件の後に”,”をつけるのを忘れないこと。これは行要素に対して条件指定していることを表している。

> name.data <- c("John", "Gene", "Jack", "Luice", "Elen")
> gender.data <- c("M", "F", "M", "M", "F")
> height.data <- c(165, 160, 170, 178, 157)
> weight.data <- c(62, 56, 75, 82, 58)
> qualified.data <- c(T, F, T, F, T)
> 
> data <- data.frame(
+   name=name.data,
+   gender=gender.data,
+   height=height.data,
+   weight=weight.data,
+   qualified=qualified.data
+ )
> data$name <- as.character(data$name)
> 
> data
   name gender height weight qualified
1  John      M    165     62      TRUE
2  Gene      F    160     56     FALSE
3  Jack      M    170     75      TRUE
4 Luice      M    178     82     FALSE
5  Elen      F    157     58      TRUE
> 
> data[data$name=="Luice",]
   name gender height weight qualified
4 Luice      M    178     82     FALSE
> 
> data[data$gender=="F",]
  name gender height weight qualified
2 Gene      F    160     56     FALSE
5 Elen      F    157     58      TRUE
> 
> data[data$height>160,]
   name gender height weight qualified
1  John      M    165     62      TRUE
3  Jack      M    170     75      TRUE
4 Luice      M    178     82     FALSE
> 
> data[weight>=60 & qualified==T,]
  name gender height weight qualified
1 John      M    165     62      TRUE
3 Jack      M    170     75      TRUE

> name.data <- c("John", "Gene", "Jack", "Luice", "Elen")

> gender.data <- c("M", "F", "M", "M", "F")

> height.data <- c(165, 160, 170, 178, 157)

> weight.data <- c(62, 56, 75, 82, 58)

> qualified.data <- c(T, F, T, F, T)

> data <- data.frame(

+ name=name.data,

+ gender=gender.data,

+ height=height.data,

+ weight=weight.data,

+ qualified=qualified.data

+ )

> data$name <- as.character(data$name)

> data

name gender height weight qualified

1 John M 165 62 TRUE

2 Gene F 160 56 FALSE

3 Jack M 170 75 TRUE

4 Luice M 178 82 FALSE

5 Elen F 157 58 TRUE

> data[data$name=="Luice",]

name gender height weight qualified

4 Luice M 178 82 FALSE

> data[data$gender=="F",]

name gender height weight qualified

2 Gene F 160 56 FALSE

5 Elen F 157 58 TRUE

> data[data$height>160,]

name gender height weight qualified

1 John M 165 62 TRUE

3 Jack M 170 75 TRUE

4 Luice M 178 82 FALSE

> data[weight>=60 & qualified==T,]

name gender height weight qualified

1 John M 165 62 TRUE

3 Jack M 170 75 TRUE

抽出操作はもとのデータフレームに影響を与えず、結果は新たなデータフレームとして返される。

> subdata <- data[data$gender=="F",]
> 
> data
   name gender height weight qualified
1  John      M    165     62      TRUE
2  Gene      F    160     56     FALSE
3  Jack      M    170     75      TRUE
4 Luice      M    178     82     FALSE
5  Elen      F    157     58      TRUE
> 
> subdata
  name gender height weight qualified
2 Gene      F    160     56     FALSE
5 Elen      F    157     58      TRUE

> subdata <- data[data$gender=="F",]

> data

name gender height weight qualified

1 John M 165 62 TRUE

2 Gene F 160 56 FALSE

3 Jack M 170 75 TRUE

4 Luice M 178 82 FALSE

5 Elen F 157 58 TRUE

> subdata

name gender height weight qualified

2 Gene F 160 56 FALSE

5 Elen F 157 58 TRUE

R – データフレームのソート

2016-09-15 / tau / 2件のコメント

order()関数

以下のデータを準備する。

name.data <- c("John", "Gene", "Jack", "Luice", "Elen")
gender.data <- c("M", "F", "M", "M", "F")
height.data <- c(165, 160, 170, 178, 157)
weight.data <- c(62, 56, 75, 82, 58)
qualified.data <- c(T, F, T, F, T)

data <- data.frame(
  name=name.data,
  gender=gender.data,
  height=height.data,
  weight=weight.data,
  qualified=qualified.data
)

name.data <- c("John", "Gene", "Jack", "Luice", "Elen")

gender.data <- c("M", "F", "M", "M", "F")

height.data <- c(165, 160, 170, 178, 157)

weight.data <- c(62, 56, 75, 82, 58)

qualified.data <- c(T, F, T, F, T)

data <- data.frame(

name=name.data,

gender=gender.data,

height=height.data,

weight=weight.data,

qualified=qualified.data

)

このデータフレームをheightの項目の昇順のオーダーでソートしたいとする。

order()関数というのがあって、引数の項目でソートしたときに元データの項目番号がどういう順番で並ぶかを返してくれる。

> data$height
[1] 165 160 170 178 157
> order(data$height)
[1] 5 2 1 3 4

> data$height

[1] 165 160 170 178 157

> order(data$height)

[1] 5 2 1 3 4

たとえば1番目のデータは1番小さい157で、これは5番目のデータ。2番目のデータは2番目に小さい160で2番目のデータ・・・という風に、heightデータを昇順に並べた時の元データの項目番号の並びを教えてくれる。

rank()関数がデータを昇順に並べた時の、そのデータのソート後の順番を返すのとは違う点に注意。

この結果を元のデータフレームの行部分に使うと、その順番で並べ替えられたデータを返してくれる。

> data
   name gender height weight qualified
1  John      M    165     62      TRUE
2  Gene      F    160     56     FALSE
3  Jack      M    170     75      TRUE
4 Luice      M    178     82     FALSE
5  Elen      F    157     58      TRUE
> 
> data[order(data$height),]
   name gender height weight qualified
5  Elen      F    157     58      TRUE
2  Gene      F    160     56     FALSE
1  John      M    165     62      TRUE
3  Jack      M    170     75      TRUE
4 Luice      M    178     82     FALSE

> data

name gender height weight qualified

1 John M 165 62 TRUE

2 Gene F 160 56 FALSE

3 Jack M 170 75 TRUE

4 Luice M 178 82 FALSE

5 Elen F 157 58 TRUE

> data[order(data$height),]

name gender height weight qualified

5 Elen F 157 58 TRUE

2 Gene F 160 56 FALSE

1 John M 165 62 TRUE

3 Jack M 170 75 TRUE

4 Luice M 178 82 FALSE

降順ソート

データを降順にソートしたい時は、decreasing=Tで指示する。

> data[order(data$height, decreasing=T),]
   name gender height weight qualified
4 Luice      M    178     82     FALSE
3  Jack      M    170     75      TRUE
1  John      M    165     62      TRUE
2  Gene      F    160     56     FALSE
5  Elen      F    157     58      TRUE

> data[order(data$height, decreasing=T),]

name gender height weight qualified

4 Luice M 178 82 FALSE

3 Jack M 170 75 TRUE

1 John M 165 62 TRUE

2 Gene F 160 56 FALSE

5 Elen F 157 58 TRUE

複数列のソートなど

以下の例は、数値以外でもソートできることと、複数のオーダーを組み合わせたソートの例を示している。

> data[order(data$qualified, data$weight),]
   name gender height weight qualified
2  Gene      F    160     56     FALSE
4 Luice      M    178     82     FALSE
5  Elen      F    157     58      TRUE
1  John      M    165     62      TRUE
3  Jack      M    170     75      TRUE

> data[order(data$qualified, data$weight),]

name gender height weight qualified

2 Gene F 160 56 FALSE

4 Luice M 178 82 FALSE

5 Elen F 157 58 TRUE

1 John M 165 62 TRUE

3 Jack M 170 75 TRUE

行番号の変更

ソート後に行ラベルを振り直したい場合は、rownames()の内容を変更する。

> data <- data[order(data$height),]
> data
   name gender height weight qualified
5  Elen      F    157     58      TRUE
2  Gene      F    160     56     FALSE
1  John      M    165     62      TRUE
3  Jack      M    170     75      TRUE
4 Luice      M    178     82     FALSE
> rownames(data) <- 1:nrow(data)
> data
   name gender height weight qualified
1  Elen      F    157     58      TRUE
2  Gene      F    160     56     FALSE
3  John      M    165     62      TRUE
4  Jack      M    170     75      TRUE
5 Luice      M    178     82     FALSE

> data <- data[order(data$height),]

> data

name gender height weight qualified

5 Elen F 157 58 TRUE

2 Gene F 160 56 FALSE

1 John M 165 62 TRUE

3 Jack M 170 75 TRUE

4 Luice M 178 82 FALSE

> rownames(data) <- 1:nrow(data)

> data

name gender height weight qualified

1 Elen F 157 58 TRUE

2 Gene F 160 56 FALSE

3 John M 165 62 TRUE

4 Jack M 170 75 TRUE

5 Luice M 178 82 FALSE

R – データフレームの集計

2016-09-15 / tau / コメントする

summary()関数で、データ全体の集計が行える。

> name.data <- c("John", "Gene", "Jack", "Luice", "Elen")
> gender.data <- c("M", "F", "M", "M", "F")
> height.data <- c(165, 160, 170, 178, 157)
> weight.data <- c(62, 56, 75, 82, 58)
> qualified.data <- c(T, F, T, F, T)
> 
> data <- data.frame(
+   name=name.data,
+   gender=gender.data,
+   height=height.data,
+   weight=weight.data,
+   qualified=qualified.data
+ )
> data$name <- as.character(data$name)
> 
> summary(data)
     name           gender     height        weight     qualified      
 Length:5           F:2    Min.   :157   Min.   :56.0   Mode :logical  
 Class :character   M:3    1st Qu.:160   1st Qu.:58.0   FALSE:2        
 Mode  :character          Median :165   Median :62.0   TRUE :3        
                           Mean   :166   Mean   :66.6   NA's :0        
                           3rd Qu.:170   3rd Qu.:75.0                  
                           Max.   :178   Max.   :82.0

> name.data <- c("John", "Gene", "Jack", "Luice", "Elen")

> gender.data <- c("M", "F", "M", "M", "F")

> height.data <- c(165, 160, 170, 178, 157)

> weight.data <- c(62, 56, 75, 82, 58)

> qualified.data <- c(T, F, T, F, T)

> data <- data.frame(

+ name=name.data,

+ gender=gender.data,

+ height=height.data,

+ weight=weight.data,

+ qualified=qualified.data

+ )

> data$name <- as.character(data$name)

> summary(data)

name gender height weight qualified

Length:5 F:2 Min. :157 Min. :56.0 Mode :logical

Class :character M:3 1st Qu.:160 1st Qu.:58.0 FALSE:2

Mode :character Median :165 Median :62.0 TRUE :3

Mean :166 Mean :66.6 NA's :0

3rd Qu.:170 3rd Qu.:75.0

Max. :178 Max. :82.0

by()関数によって、特定のデータの層別に集計することができる。

> by(data, data$gender, summary)
data$gender: F
     name           gender     height          weight     qualified      
 Length:2           F:2    Min.   :157.0   Min.   :56.0   Mode :logical  
 Class :character   M:0    1st Qu.:157.8   1st Qu.:56.5   FALSE:1        
 Mode  :character          Median :158.5   Median :57.0   TRUE :1        
                           Mean   :158.5   Mean   :57.0   NA's :0        
                           3rd Qu.:159.2   3rd Qu.:57.5                  
                           Max.   :160.0   Max.   :58.0                  
--------------------------------------------------------- 
data$gender: M
     name           gender     height          weight     qualified      
 Length:3           F:0    Min.   :165.0   Min.   :62.0   Mode :logical  
 Class :character   M:3    1st Qu.:167.5   1st Qu.:68.5   FALSE:1        
 Mode  :character          Median :170.0   Median :75.0   TRUE :2        
                           Mean   :171.0   Mean   :73.0   NA's :0        
                           3rd Qu.:174.0   3rd Qu.:78.5                  
                           Max.   :178.0   Max.   :82.0

> by(data, data$gender, summary)

data$gender: F

name gender height weight qualified

Length:2 F:2 Min. :157.0 Min. :56.0 Mode :logical

Class :character M:0 1st Qu.:157.8 1st Qu.:56.5 FALSE:1

Mode :character Median :158.5 Median :57.0 TRUE :1

Mean :158.5 Mean :57.0 NA's :0

3rd Qu.:159.2 3rd Qu.:57.5

Max. :160.0 Max. :58.0

---------------------------------------------------------

data$gender: M

name gender height weight qualified

Length:3 F:0 Min. :165.0 Min. :62.0 Mode :logical

Class :character M:3 1st Qu.:167.5 1st Qu.:68.5 FALSE:1

Mode :character Median :170.0 Median :75.0 TRUE :2

Mean :171.0 Mean :73.0 NA's :0

3rd Qu.:174.0 3rd Qu.:78.5

Max. :178.0 Max. :82.0

もちろん、個別の数値データについて各種代表値を計算することもできる。

> max(data$height)
[1] 178
> min(data$height)
[1] 157
> range(data$height)
[1] 157 178
> sum(data$height)
[1] 830
> mean(data$height)
[1] 166
> var(data$height)
[1] 69.5
> sd(data$height)
[1] 8.336666

> max(data$height)

[1] 178

> min(data$height)

[1] 157

> range(data$height)

[1] 157 178

> sum(data$height)

[1] 830

> mean(data$height)

[1] 166

> var(data$height)

[1] 69.5

> sd(data$height)

[1] 8.336666

R – データフレームの列の非因子化

2016-09-15 / tau / コメントする

ベクトルから生成する場合

データフレームを複数のベクトルから生成する場合、文字列のベクトルがFactor型(因子型)になってしまう。

> name <- c("John", "Alice", "Dick")
> age <- c(35, 28, 42)
> data <- data.frame(name=name, age=age)
> str(data)
'data.frame':   3 obs. of  2 variables:
 $ name: Factor w/ 3 levels "Alice","Dick",..: 3 1 2
 $ age : num  35 28 42

> name <- c("John", "Alice", "Dick")

> age <- c(35, 28, 42)

> data <- data.frame(name=name, age=age)

> str(data)

'data.frame': 3 obs. of 2 variables:

$ name: Factor w/ 3 levels "Alice","Dick",..: 3 1 2

$ age : num 35 28 42

これを文字型に直すのに、以下の3つの方法がある。

as.charactor()関数

as.charactor()関数で指定した列がcharacter化されるので、それを元の列に代入。

> data$name <- as.character(data$name)
> str(data$name)
 chr [1:3] "John" "Alice" "Dick"

> data$name <- as.character(data$name)

> str(data$name)

chr [1:3] "John" "Alice" "Dick"

levels()関数

仕組みはよくわかっていない。

> data$name <- levels(data$name)[data$name]
> str(data$name)
 chr [1:3] "John" "Alice" "Dick"

> data$name <- levels(data$name)[data$name]

> str(data$name)

chr [1:3] "John" "Alice" "Dick"

transform()関数

データフレーム全体に適用。

> data <- transform(data, name=levels(name)[name])
> str(data$name)
 chr [1:3] "John" "Alice" "Dick"

> data <- transform(data, name=levels(name)[name])

> str(data$name)

chr [1:3] "John" "Alice" "Dick"

ファイルから読み込む場合

ファイルから読み込んだ後に上記の操作を行ってもよいが、読み込み時にFactor型への変換を抑止するため、引数にstringsAsFactors = Fを指定する方法もある。

個の引数指定は、read.table、read.delim、read.csvの何れでも指定できる。

> data <- read.csv("data/demo-dataframe1.csv", stringsAsFactors=F)
> str(data$name)
 chr [1:5] "John" "Gene" "Jack" "Luice" "Elen"

> data <- read.csv("data/demo-dataframe1.csv", stringsAsFactors=F)

> str(data$name)

chr [1:5] "John" "Gene" "Jack" "Luice" "Elen"

R – データフレームの生成

2016-09-15 / tau / コメントする

ベクトル列から生成する方法

同じ長さのベクトルを各列として、データフレームを生成可能。

name.data <- c("John", "Gene", "Jack", "Luice", "Elen")
gender.data <- c("M", "F", "M", "M", "F")
height.data <- c(165, 160, 170, 178, 157)
weight.data <- c(62, 56, 75, 82, 58)
qualified.data <- c(T, F, T, F, T)

data <- data.frame(
  name=name.data,
  gender=gender.data,
  height=height.data,
  weight=weight.data,
  qualified=qualified.data
)

data

name.data <- c("John", "Gene", "Jack", "Luice", "Elen")

gender.data <- c("M", "F", "M", "M", "F")

height.data <- c(165, 160, 170, 178, 157)

weight.data <- c(62, 56, 75, 82, 58)

qualified.data <- c(T, F, T, F, T)

data <- data.frame(

name=name.data,

gender=gender.data,

height=height.data,

weight=weight.data,

qualified=qualified.data

)

data

上記の結果は以下の通り。

> data
   name gender height weight qualified
1  John      M    165     62      TRUE
2  Gene      F    160     56     FALSE
3  Jack      M    170     75      TRUE
4 Luice      M    178     82     FALSE
5  Elen      F    157     58      TRUE

> data

name gender height weight qualified

1 John M 165 62 TRUE

2 Gene F 160 56 FALSE

3 Jack M 170 75 TRUE

4 Luice M 178 82 FALSE

5 Elen F 157 58 TRUE

ファイルからの読み込み

通常、作業ディレクトリかその下にあるディレクトリにあるファイルを扱う。扱いやすいのはタブ区切りテキスト、CSV。

read.tableによる方法

TAB区切り／ヘッダなし

John	M	165	62	T
Gene	F	160	56	F
Jack	M	170	75	T
Luice	M	178	82	F
Elen	F	157	58	T

John M 165 62 T

Gene F 160 56 F

Jack M 170 75 T

Luice M 178 82 F

Elen F 157 58 T

read.tableでそのまま読み込む。項目名はRが勝手につけてくれる。

デフォルトでTABが区切り文字になってるが、明示する場合は引数にsep="\t"を追加。

> data <- read.table("data/demo-dataframe0.txt")
> data
     V1 V2  V3 V4    V5
1  John  M 165 62  TRUE
2  Gene  F 160 56 FALSE
3  Jack  M 170 75  TRUE
4 Luice  M 178 82 FALSE
5  Elen  F 157 58  TRUE

> data <- read.table("data/demo-dataframe0.txt")

> data

V1 V2 V3 V4 V5

1 John M 165 62 TRUE

2 Gene F 160 56 FALSE

3 Jack M 170 75 TRUE

4 Luice M 178 82 FALSE

5 Elen F 157 58 TRUE

CSV／ヘッダなし

John,M,165,62,T
Gene,F,160,56,F
Jack,M,170,75,T
Luice,M,178,82,F
Elen,F,157,58,T

John,M,165,62,T

Gene,F,160,56,F

Jack,M,170,75,T

Luice,M,178,82,F

Elen,F,157,58,T

read.tableで引数にsep=","を付けて読み込む。

> data <- read.table("data/demo-dataframe0.csv", sep=",")
> data
     V1 V2  V3 V4    V5
1  John  M 165 62  TRUE
2  Gene  F 160 56 FALSE
3  Jack  M 170 75  TRUE
4 Luice  M 178 82 FALSE
5  Elen  F 157 58  TRUE

> data <- read.table("data/demo-dataframe0.csv", sep=",")

> data

V1 V2 V3 V4 V5

1 John M 165 62 TRUE

2 Gene F 160 56 FALSE

3 Jack M 170 75 TRUE

4 Luice M 178 82 FALSE

5 Elen F 157 58 TRUE

TAB区切り／ヘッダあり

name	gender	height	weight	qualified
John	M	165	62	T
Gene	F	160	56	F
Jack	M	170	75	T
Luice	M	178	82	F
Elen	F	157	58	T

name gender height weight qualified

John M 165 62 T

Gene F 160 56 F

Jack M 170 75 T

Luice M 178 82 F

Elen F 157 58 T

read.tableでheader=Tを付けて読み込む。sep="\t"を指定してもよい。

> data <- read.table("data/demo-dataframe1.txt", header=T)
> data
   name gender height weight qualified
1  John      M    165     62      TRUE
2  Gene      F    160     56     FALSE
3  Jack      M    170     75      TRUE
4 Luice      M    178     82     FALSE
5  Elen      F    157     58      TRUE

> data <- read.table("data/demo-dataframe1.txt", header=T)

> data

name gender height weight qualified

1 John M 165 62 TRUE

2 Gene F 160 56 FALSE

3 Jack M 170 75 TRUE

4 Luice M 178 82 FALSE

5 Elen F 157 58 TRUE

この形式の場合、wrapperクラスのread.delimでファイルのみ指定して読み込める。

> data <- read.delim("data/demo-dataframe1.txt")
> data
   name gender height weight qualified
1  John      M    165     62      TRUE
2  Gene      F    160     56     FALSE
3  Jack      M    170     75      TRUE
4 Luice      M    178     82     FALSE
5  Elen      F    157     58      TRUE

> data <- read.delim("data/demo-dataframe1.txt")

> data

name gender height weight qualified

1 John M 165 62 TRUE

2 Gene F 160 56 FALSE

3 Jack M 170 75 TRUE

4 Luice M 178 82 FALSE

5 Elen F 157 58 TRUE

CSV／ヘッダあり

name,gender,height,weight,qualified
John,M,165,62,T
Gene,F,160,56,F
Jack,M,170,75,T
Luice,M,178,82,F
Elen,F,157,58,T

name,gender,height,weight,qualified

John,M,165,62,T

Gene,F,160,56,F

Jack,M,170,75,T

Luice,M,178,82,F

Elen,F,157,58,T

read.tableでsep=","とheader=Tを指定して読み込む。

> data <- read.table("data/demo-dataframe1.csv", sep=",", header=T)
> data
   name gender height weight qualified
1  John      M    165     62      TRUE
2  Gene      F    160     56     FALSE
3  Jack      M    170     75      TRUE
4 Luice      M    178     82     FALSE
5  Elen      F    157     58      TRUE

> data <- read.table("data/demo-dataframe1.csv", sep=",", header=T)

> data

name gender height weight qualified

1 John M 165 62 TRUE

2 Gene F 160 56 FALSE

3 Jack M 170 75 TRUE

4 Luice M 178 82 FALSE

5 Elen F 157 58 TRUE

この形式の場合、wrapperクラスのread.csvでファイルのみ指定して読み込める。

> data <- read.csv("data/demo-dataframe1.csv")
> data
   name gender height weight qualified
1  John      M    165     62      TRUE
2  Gene      F    160     56     FALSE
3  Jack      M    170     75      TRUE
4 Luice      M    178     82     FALSE
5  Elen      F    157     58      TRUE

> data <- read.csv("data/demo-dataframe1.csv")

> data

name gender height weight qualified

1 John M 165 62 TRUE

2 Gene F 160 56 FALSE

3 Jack M 170 75 TRUE

4 Luice M 178 82 FALSE

5 Elen F 157 58 TRUE

注意点：Factor型への自動変換

ベクトルからの生成にしても、ファイルからの読み込みにしても、文字列のデータを持ったベクトルをデータフレームに取り込むと、自動的にFactor型(因子型)にされてしまう。

> data <- read.csv("data/demo-dataframe1.csv")
> str(data$name)
 Factor w/ 5 levels "Elen","Gene",..: 4 2 3 5 1

> data <- read.csv("data/demo-dataframe1.csv")

> str(data$name)

Factor w/ 5 levels "Elen","Gene",..: 4 2 3 5 1

これを解決するための方法は列の非因子化を参照。

イベント制御によるポアソン過程のシミュレーション

2016-09-12 / tau / コメントする

イベント制御による分析

時刻制御(time driven)では微小な時間間隔の間において到着イベントを確率的に発生させた。そこでは結果としての到着時間間隔の指数分布や到着数のPoisson分布は前提にはおかれていない。

イベント制御(event driven)の考え方では、ある到着があった後、次の到着までの時間間隔を指数分布に従う乱数を発生させて計算する。計算にはR言語を使う。

イベント制御の考え方の概要やその他の考え方についてはRによるポアソン過程のシミュレーションを参照。

到着イベントの時系列

ここでは、到着率はこれまでと同じλ = 1/10として、時刻t = 0からt ≤ 1000秒の間、到着の時間間隔が確率密度 $e^{- \lambda t}$ の指数分布に従うような乱数を発生させていく。

指数分布に従う乱数を生成するには逆関数法を使う。

指数分布の確率分布関数は以下の通り。

(1) $\begin{equation*} F(T \le t) = 1 - e^{- \lambda t} \end{equation*}$

一様乱数runifを与えて指数分布に従う乱数を得るには、一様乱数を分布関数の逆関数に適用すればよい。

(2) $\begin{equation*} F^{-1}(t) = - \frac{1}{\lambda}\ ln(1 - {\rm runif(1)}) \end{equation*}$

lambda <- 1/ 10

data <- c()
for (i in 1:1000) {
  r <- (1 - log(runif(1))) / lambda
  data <- c(data, r)
}

lambda <- 1/ 10

data <- c()

for (i in 1:1000) {

r <- (1 - log(runif(1))) / lambda

data <- c(data, r)

}

時刻0を起点として、1番目の到着時刻をこの指数乱数で決定し、その次の到着時刻も指数乱数で・・・と繰り返して、時刻が上限を超えるまで時系列として記録する。

interval <- function(lambda) return( (1 - log(runif(1))) / lambda )

lambda <- 1/ 10
t.obs <- 5000
rank.width <- 100

t <- 0
arrivals <- c()
while (t < t.obs) {
  arrivals <- c(arrivals, t)
  t <- t + interval(lambda)
}

hist(arrivals, breaks=seq(0, t.obs, rank.width))

interval <- function(lambda) return( (1 - log(runif(1))) / lambda )

lambda <- 1/ 10

t.obs <- 5000

rank.width <- 100

t <- 0

arrivals <- c()

while (t < t.obs) {

arrivals <- c(arrivals, t)

t <- t + interval(lambda)

}

hist(arrivals, breaks=seq(0, t.obs, rank.width))

一様乱数による場合と同じく、到着率1/10、観測時間5000秒として、階級幅100秒、500秒の場合の時系列を生成したのが下図。階級あたりのデータ数と分布の平滑さの関係は、一様乱数による場合やtime drivenの場合と同じ。

poisson-process-event-driven-arrival100

poisson-process-event-driven-arrival500

到着数の分布

到着数の確率分布は、一様乱数による場合やtime drivenと同じように集計する。

interval <- function(lambda) return( -log(1 - runif(1)) / lambda )

generate <- function(t.obs, lambda) {
  t <- 0
  data <- c()
  while (t < t.obs) {
    data <- c(data, t)
    t <- t + interval(lambda)
  }
  return (length(data))
}

lambda <- 1/ 10
t.obs <- 1000
n.loop <- 100

arrivals <- rep(0, n.loop)
for (i in 1:n.loop) arrivals[i] <- (generate(t.obs, lambda))

hist(arrivals, freq=FALSE)
curve((lambda*t.obs)^x/factorial(x)*exp(-lambda*t.obs), add=TRUE)

interval <- function(lambda) return( -log(1 - runif(1)) / lambda )

generate <- function(t.obs, lambda) {

t <- 0

data <- c()

while (t < t.obs) {

data <- c(data, t)

t <- t + interval(lambda)

}

return (length(data))

}

lambda <- 1/ 10

t.obs <- 1000

n.loop <- 100

arrivals <- rep(0, n.loop)

for (i in 1:n.loop) arrivals[i] <- (generate(t.obs, lambda))

hist(arrivals, freq=FALSE)

curve((lambda*t.obs)^x/factorial(x)*exp(-lambda*t.obs), add=TRUE)

結果は、Poisson分布の理論式ともよくあっている。

poisson-process-event-driven-poisson

スクリプトの記述

スクリプトの実行

エディタからの実行

コンソールからの実行

rbind()で困った点

ベクトルではなくリストを使う

準備

因子型への変換

因子を指定した要素の抽出

因子の順序の指定

因子の大小関係の指定

Factorベクトルの新規生成

一つ目の要素を定義する場合

要素数ゼロから定義する場合

データフレーム生成の場合の因子化について

オブジェクトの直接表示

print()～一般的な表示

page()～別ウィンドウでの表示

cat()～文字列の表示

str()～オブジェクト情報付き表示

summary()～データの要約を表示する。

データフレーム全体の参照

データフレームの行数・列数の参照

データフレームの内容の参照・変更

列名・項目名の参照・変更

データフレームの要素の参照・変更

行・列の追加と削除

行・列の追加

行・列の削除

データの抽出

order()関数

降順ソート

複数列のソートなど

行番号の変更

ベクトルから生成する場合

as.charactor()関数

levels()関数

transform()関数

ファイルから読み込む場合

ベクトル列から生成する方法

ファイルからの読み込み

read.tableによる方法

TAB区切り／ヘッダなし

CSV／ヘッダなし

TAB区切り／ヘッダあり

CSV／ヘッダあり

注意点：Factor型への自動変換

イベント制御による分析

到着イベントの時系列

到着数の分布

関連リンク