データ解析のための統計モデリング2章

> load("data.RData") #　データを読み込む
> data　#　データの確認
 [1] 2 2 4 6 4 5 2 3 1 2 0 4 3 3 3 3 4 2 7 2 4 3 3 3 4 3 7 5 3 1 7 6 4 6 5 2
[37] 4 7 2 2 6 2 4 5 4 5 1 3 2 3
> length(data)　#データの個数確認
[1] 50
> summary(data)　#データの基礎統計量を調査
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   0.00    2.00    3.00    3.56    4.75    7.00 
> table(data)　# 数字ごとに集計　クロス集計も可能
data
 0  1  2  3  4  5  6  7 
 1  3 11 12 10  5  4  4 
> hist(data,breaks = seq(-0.5, 9.5, 1))　#　ヒストグラム書く
> var(data)　#　標本分散
[1] 2.986122
> sd(data)　#　標本分散
[1] 1.72804
> sqrt(var(data))
[1] 1.72804
> y <- 0;9
[1] 9
> y <- 0:9
> prob <- dpois(y, lambda = 3.56) #dpoisはポアソン分布
> plot(y, prob, type = "b", lty = 2)　#TypeBは点と線　ltyは破線

コメントつけながら覚えていきます
ポアソン分布を見る

> logL <- function(m) sum(dpois(data, m, log = TRUE))
> lambda <- seq(2, 5, 0.1)
> plot(lambda, sapply(lambda, logL), type = "1")
 以下にエラー plot.xy(xy, type, ...) :  プロットのタイプ '1' が不正です 
> plot(lambda, sapply(lambda, logL), type = "l")
>

最尤推定法のことが書いてありますね
要は確率分布の積が最大になるようなパラメーターを推定すればいいのです

また推定や予測、当てはまりの良さについても書かれています

2.6確率分布の選び方
・説明したい量は離散か連続か？
・説明したい量の範囲は？
・説明したい量の標本分散と標本平均の関係は？

この本で使われる確率分布
・ポアソン分布　離散値　0以上、上限なし　平均≒分散
・二項分布　離散値　0以上で有限の範囲　分散は平均の関数

・正規分布　連続値　範囲は-∞から∞　分散と平均は無関係に決まる
・ガンマ分布　連続値　範囲は[0,+∞]　分散は平均の関数