データ解析のための統計モデリング2章

> load("data.RData") # データを読み込む
> data # データの確認
 [1] 2 2 4 6 4 5 2 3 1 2 0 4 3 3 3 3 4 2 7 2 4 3 3 3 4 3 7 5 3 1 7 6 4 6 5 2
[37] 4 7 2 2 6 2 4 5 4 5 1 3 2 3
> length(data) #データの個数確認
[1] 50
> summary(data) #データの基礎統計量を調査
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   0.00    2.00    3.00    3.56    4.75    7.00 
> table(data) # 数字ごとに集計 クロス集計も可能
data
 0  1  2  3  4  5  6  7 
 1  3 11 12 10  5  4  4 
> hist(data,breaks = seq(-0.5, 9.5, 1)) # ヒストグラム書く
> var(data) # 標本分散
[1] 2.986122
> sd(data) # 標本分散
[1] 1.72804
> sqrt(var(data))
[1] 1.72804
> y <- 0;9
[1] 9
> y <- 0:9
> prob <- dpois(y, lambda = 3.56) #dpoisはポアソン分布
> plot(y, prob, type = "b", lty = 2) #TypeBは点と線 ltyは破線

コメントつけながら覚えていきます
ポアソン分布を見る

> logL <- function(m) sum(dpois(data, m, log = TRUE))
> lambda <- seq(2, 5, 0.1)
> plot(lambda, sapply(lambda, logL), type = "1")
 以下にエラー plot.xy(xy, type, ...) :  プロットのタイプ '1' が不正です 
> plot(lambda, sapply(lambda, logL), type = "l")
> 

最尤推定法のことが書いてありますね
要は確率分布の積が最大になるようなパラメーターを推定すればいいのです

また推定や予測、当てはまりの良さについても書かれています

2.6確率分布の選び方
・説明したい量は離散連続か?
・説明したい量の範囲は?
・説明したい量の標本分散と標本平均の関係は?

この本で使われる確率分布
ポアソン分布 離散値 0以上、上限なし 平均≒分散
・二項分布 離散値 0以上で有限の範囲 分散は平均の関数

正規分布 連続値 範囲は-∞から∞ 分散と平均は無関係に決まる
・ガンマ分布 連続値 範囲は[0,+∞] 分散は平均の関数