データ解析のための統計モデリング4章

> fit <- glm(y ~ x, data = d, family = poisson)
> fit # プリントでもいい

Call:  glm(formula = y ~ x, family = poisson, data = d)

Coefficients:
(Intercept)            x  
    1.29172      0.07566  

Degrees of Freedom: 99 Total (i.e. Null);  98 Residual
Null Deviance:      89.51 
Residual Deviance: 84.99        AIC: 474.8
> summary(fit)

Call:
glm(formula = y ~ x, family = poisson, data = d)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.3679  -0.7348  -0.1775   0.6987   2.3760  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  1.29172    0.36369   3.552 0.000383 ***
x            0.07566    0.03560   2.125 0.033580 *  
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for poisson family taken to be 1)

    Null deviance: 89.507  on 99  degrees of freedom
Residual deviance: 84.993  on 98  degrees of freedom
AIC: 474.77

Number of Fisher Scoring iterations: 4

> logLik(fit)
'log Lik.' -235.3863 (df=2)
> plot(d$x, d$y, pch = c(21, 19)[d$f])
> xx <- seq(min(d$x), max(d$x), length = 100)
> lines(xx, exp(1.29 + 0.0757 * xx), lwd = 2)
> fit.f <- glm(y ~ f, data = d, family = poisson)
> fit.f

Call:  glm(formula = y ~ f, family = poisson, data = d)

Coefficients:
(Intercept)           fT  
    2.05156      0.01277  

Degrees of Freedom: 99 Total (i.e. Null);  98 Residual
Null Deviance:      89.51 
Residual Deviance: 89.48        AIC: 479.3
> fit.all <- glm(y ~ x + f, data = d, family = poisson)
> fit.all

Call:  glm(formula = y ~ x + f, family = poisson, data = d)

Coefficients:
(Intercept)            x           fT  
    1.26311      0.08007     -0.03200  

Degrees of Freedom: 99 Total (i.e. Null);  97 Residual
Null Deviance:      89.51 
Residual Deviance: 84.81        AIC: 476.6
> logLik(fit.all)
'log Lik.' -235.2937 (df=3)
> fit.null <- glm(formula = y ~ 1, family = poisson, data = d)
> fit.null

Call:  glm(formula = y ~ 1, family = poisson, data = d)

Coefficients:
(Intercept)  
      2.058  

Degrees of Freedom: 99 Total (i.e. Null);  99 Residual
Null Deviance:      89.51 
Residual Deviance: 89.51        AIC: 477.3
> logLik(fit.null)
'log Lik.' -237.6432 (df=1)

この章では良い統計モデルとは何だろう?という疑問、あるいは良いモデルを選び出す方法を検討している

複数の統計モデルの中から、なんらかの意味で良いモデルを選ぶことをモデル選択という
ここではAICというモデル選択基準について説明する
AICは「良い予測をするモデルが良いモデルである」という考え方にもとづいて設計された基準であり、「当てはまりの良さ重視」とは異なる考え方である

4.2 統計モデルの当てはまりの悪さ:逸脱度
当てはまりの良さである最大対数尤度を変形した統計量である逸脱度を説明する
Rのglm()関数を使ったGLMをデータに当てはめると、
推定結果には当てはまりの悪さである逸脱度が出力される

簡単のために対数尤度logL({β_j})をlogLと表記する
このlogLを最大にするパラメーターを探すのが最尤推定法である
最大対数尤度をlogL*と表記する

逸脱度とは当てはまりの良さではなく当てはまりの悪さを表現する指標で
{D=-2logL*}
と定義される。最大対数尤度logL*に-2を掛けただけ