データ解析のための統計モデリング4章
> fit <- glm(y ~ x, data = d, family = poisson) > fit # プリントでもいい Call: glm(formula = y ~ x, family = poisson, data = d) Coefficients: (Intercept) x 1.29172 0.07566 Degrees of Freedom: 99 Total (i.e. Null); 98 Residual Null Deviance: 89.51 Residual Deviance: 84.99 AIC: 474.8 > summary(fit) Call: glm(formula = y ~ x, family = poisson, data = d) Deviance Residuals: Min 1Q Median 3Q Max -2.3679 -0.7348 -0.1775 0.6987 2.3760 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.29172 0.36369 3.552 0.000383 *** x 0.07566 0.03560 2.125 0.033580 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 89.507 on 99 degrees of freedom Residual deviance: 84.993 on 98 degrees of freedom AIC: 474.77 Number of Fisher Scoring iterations: 4 > logLik(fit) 'log Lik.' -235.3863 (df=2) > plot(d$x, d$y, pch = c(21, 19)[d$f]) > xx <- seq(min(d$x), max(d$x), length = 100) > lines(xx, exp(1.29 + 0.0757 * xx), lwd = 2) > fit.f <- glm(y ~ f, data = d, family = poisson) > fit.f Call: glm(formula = y ~ f, family = poisson, data = d) Coefficients: (Intercept) fT 2.05156 0.01277 Degrees of Freedom: 99 Total (i.e. Null); 98 Residual Null Deviance: 89.51 Residual Deviance: 89.48 AIC: 479.3 > fit.all <- glm(y ~ x + f, data = d, family = poisson) > fit.all Call: glm(formula = y ~ x + f, family = poisson, data = d) Coefficients: (Intercept) x fT 1.26311 0.08007 -0.03200 Degrees of Freedom: 99 Total (i.e. Null); 97 Residual Null Deviance: 89.51 Residual Deviance: 84.81 AIC: 476.6 > logLik(fit.all) 'log Lik.' -235.2937 (df=3) > fit.null <- glm(formula = y ~ 1, family = poisson, data = d) > fit.null Call: glm(formula = y ~ 1, family = poisson, data = d) Coefficients: (Intercept) 2.058 Degrees of Freedom: 99 Total (i.e. Null); 99 Residual Null Deviance: 89.51 Residual Deviance: 89.51 AIC: 477.3 > logLik(fit.null) 'log Lik.' -237.6432 (df=1)
この章では良い統計モデルとは何だろう?という疑問、あるいは良いモデルを選び出す方法を検討している
複数の統計モデルの中から、なんらかの意味で良いモデルを選ぶことをモデル選択という
ここではAICというモデル選択基準について説明する
AICは「良い予測をするモデルが良いモデルである」という考え方にもとづいて設計された基準であり、「当てはまりの良さ重視」とは異なる考え方である
4.2 統計モデルの当てはまりの悪さ:逸脱度
当てはまりの良さである最大対数尤度を変形した統計量である逸脱度を説明する
Rのglm()関数を使ったGLMをデータに当てはめると、
推定結果には当てはまりの悪さである逸脱度が出力される
簡単のために対数尤度logL({β_j})をlogLと表記する
このlogLを最大にするパラメーターを探すのが最尤推定法である
最大対数尤度をlogL*と表記する
逸脱度とは当てはまりの良さではなく当てはまりの悪さを表現する指標で
と定義される。最大対数尤度logL*に-2を掛けただけ