データ解析のための統計モデリング入門5章

d$y.rnd <- rpois(100, lambda = mean(d$y)) # 新のモデルから生成
mean(d$y) # 平均
fit1 <- glm(y.rnd ~ 1, data = d, family = poisson)
fit2 <- glm(y.rnd ~ x, data = d, family = poisson)
>fit1$deviance - fit2$deviance #逸脱度の差
[1] 1.273795

get.dd <- function(d) # データの生成と逸脱度差の評価
{
  n.sample <- nrow(d) #データ数
  y.mean <- mean(d$y) #標本平均
  d$y.rnd <- rpois(n.sample, lambda = y.mean)
  fit1 <- glm(y.rnd ~ 1, data = d, family = poisson)
  fit2 <- glm(y.rnd ~ x, data = d, family = poisson)
  fit1$deviance - fit2$deviance #逸脱度の差
}
pb <- function(d, n.boostrap)
{
  replicate(n.boostrap, get.dd(d))
}

source("pb.R") #pb.Rを読み込む
dd12 <- pb(d, n.boostrap = 1000)


>summary(dd12)
 Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
0.000004 0.092320 0.470900 0.937300 1.317000 7.150000 
hist(dd12,100)
abline(v = 4.5, lty = 2)

> sum(dd12 >= 4.5)
[1] 21
> quantile(dd12, 0.95)
     95% 
3.504927 
> anova(fit1, fit2, test = "Chisq")
Analysis of Deviance Table

Model 1: y.rnd ~ 1
Model 2: y.rnd ~ x
  Resid. Df Resid. Dev Df Deviance Pr(>Chi)
1        99     95.952                     
2        98     94.678  1   1.2738   0.2591

この章ではどのような統計モデルでも利用可能な尤度比検定について説明する
尤度比検定に限らずパラメーターを最尤推定できる統計モデルの検定を総称して、統計モデルの検定とこの章では呼ぶこともある
全パラメーターを最尤推定できる統計モデルは、パラメトリックな統計モデルと総称できるかも
パラメトリック
比較的小数のパラメーターをもつという意味
正規分布を使ったという意味ではない
ノンパラメトリック検定はこの本では扱わない

統計モデルの検定
1.解析対象のデータを確定
2.データを説明できるような統計モデルを設計
3.ネストした統計モデルたちのパラメーターを最尤推定計算
4.帰無仮説棄却の危険率を評価
5.帰無仮説棄却の可否を判断

AICによるモデル選択
1.解析対象のデータを確定
2.データを説明できるような統計モデルを設計
3.ネストした統計モデルたちのパラメーターを最尤推定計算
4.モデル選択基準AICの評価
5.予測の良いモデルを選ぶ

4章で解説したモデル選択と似てるので手順を並べる
どちらも共通しているのは
・まず使用データを確定させる
・一旦データを確定させたら、最後までそのデータだけを使い、しかも常にすべてを使う