データ解析のための統計モデリング2章
> load("data.RData") # データを読み込む > data # データの確認 [1] 2 2 4 6 4 5 2 3 1 2 0 4 3 3 3 3 4 2 7 2 4 3 3 3 4 3 7 5 3 1 7 6 4 6 5 2 [37] 4 7 2 2 6 2 4 5 4 5 1 3 2 3 > length(data) #データの個数確認 [1] 50 > summary(data) #データの基礎統計量を調査 Min. 1st Qu. Median Mean 3rd Qu. Max. 0.00 2.00 3.00 3.56 4.75 7.00 > table(data) # 数字ごとに集計 クロス集計も可能 data 0 1 2 3 4 5 6 7 1 3 11 12 10 5 4 4 > hist(data,breaks = seq(-0.5, 9.5, 1)) # ヒストグラム書く > var(data) # 標本分散 [1] 2.986122 > sd(data) # 標本分散 [1] 1.72804 > sqrt(var(data)) [1] 1.72804 > y <- 0;9 [1] 9 > y <- 0:9 > prob <- dpois(y, lambda = 3.56) #dpoisはポアソン分布 > plot(y, prob, type = "b", lty = 2) #TypeBは点と線 ltyは破線
コメントつけながら覚えていきます
ポアソン分布を見る
> logL <- function(m) sum(dpois(data, m, log = TRUE)) > lambda <- seq(2, 5, 0.1) > plot(lambda, sapply(lambda, logL), type = "1") 以下にエラー plot.xy(xy, type, ...) : プロットのタイプ '1' が不正です > plot(lambda, sapply(lambda, logL), type = "l") >
最尤推定法のことが書いてありますね
要は確率分布の積が最大になるようなパラメーターを推定すればいいのです
また推定や予測、当てはまりの良さについても書かれています
2.6確率分布の選び方
・説明したい量は離散か連続か?
・説明したい量の範囲は?
・説明したい量の標本分散と標本平均の関係は?
この本で使われる確率分布
・ポアソン分布 離散値 0以上、上限なし 平均≒分散
・二項分布 離散値 0以上で有限の範囲 分散は平均の関数
・正規分布 連続値 範囲は-∞から∞ 分散と平均は無関係に決まる
・ガンマ分布 連続値 範囲は[0,+∞] 分散は平均の関数