2016年 統計検定準1級 論述 解説
問1 適合度検定
[1]
(1)
ポアソン分布において、
$$E[X]=V[X]=\lambda$$
$$1.67^2=2.7889$$
となり、平均≒分散となっていることと、発生頻度が低い事象となっているため。
(2)
実際に計算すると、
上陸回数 | 観測度数 | 確率 | 期待度数 | カイ二乗値 |
0 | 4 | 0.058 | 3.71 | 0.022 |
1 | 7 | 0.166 | 10.62 | 1.236 |
2 | 17 | 0.236 | 15.10 | 0.238 |
3 | 18 | 0.223 | 14.27 | 0.974 |
4 | 10 | 0.158 | 10.14 | 0.002 |
5 | 5 | 0.090 | 5.76 | 0.100 |
6 | 2 | 0.043 | 2.72 | 0.193 |
7 | 0 | 0.017 | 1.11 | 1.106 |
8 | 0 | 0.006 | 0.39 | 0.392 |
9 | 0 | 0.002 | 0.12 | 0.124 |
10 | 1 | 0.001 | 0.04 | 26.466 |
計 | 64 | 1 | 64 | 30.853 |
(3)この表の自由度は9なので、臨界値は
$$\chi^2_0.05(9)=16.92<\chi^2=24.28$$
であり、この事象はポアソン分布に従うといえない。
検定統計量の値を大きくしているのは上陸回数10回の値である。
(4)
6回以上をまとめれば、
上陸回数 | 観測度数 | 確率 | 期待度数 | カイ二乗値 |
0 | 4 | 0.058 | 3.739 | 0.018 |
1 | 7 | 0.166 | 10.619 | 1.234 |
2 | 17 | 0.236 | 15.080 | 0.245 |
3 | 18 | 0.223 | 14.275 | 0.972 |
4 | 10 | 0.158 | 10.136 | 0.002 |
5 | 5 | 0.090 | 5.757 | 0.100 |
6回以上 | 3 | 0.069 | 4.394 | 0.442 |
計 | 64 | 1 | 64 | 3.012 |
表の様な値が得られ、
$$\chi^2=3.012<\chi^2_0.05(5)=11.07$$
であり、帰無仮説が受容され、ポアソン分布に従わないとは言えないことがわかる。
これに加えて、7,8,9回が0であることを考えると6回以上でまとめたほうが妥当といえる。
[2]
Aさんの主張通りに6回以上の上陸率は3/64≒0.047であること、
Bさんのポアソン分布に従うという主張の妥当性も確かめられ、それに基づくと5回以上の上陸率は7%ほどになっている。
総合すると5回以上の上陸率は5~7%程度と考えられ、有意水準を5%にするならぎりぎり棄却できない値といえる。
10回以上の上陸はポアソン分布から導出すると0.1%である。
1000年に1回起こるかどうかの事象である。
今回の問題は台風の対策ということだが、1000年に1回の事象のために対策を講じることは採算上難しいと考えられる。
数百年に1度程度の大地震の備えでさえ困難なのだから。
外れ値とみなして除外するか6回以上としてまとめるかにすべきだと考える。
問2 回帰分析
行列による回帰分析をさらっていたかどうかで難易度が激変する問題。
[1]
[2]
(1)
[1]における説明変数行列のZの2列目は各xを標準化した値となっている。
$$z^2は標準化した値の2乗値であるので、$$
$$\tilde{\boldsymbol{Z}}=\begin{pmatrix}1&-2&4\\1&-1&1\\1&0&0\\1&1&1\\1&2&4\end{pmatrix}$$
切片及び回帰係数の推定量は、
$$\boldsymbol{\tilde{\beta}}=(\boldsymbol{tilde{X’}}\boldsymbol{\tilde{X}})^{-1}\boldsymbol{\tilde{X’}}\boldsymbol{y}\tag{3}$$
[1]と同様に計算していくと、
$$(\boldsymbol{tilde{X’}}\boldsymbol{\tilde{X}})^{-1}=\begin{pmatrix}5&0&10\\0&10&0\\10&0&34\end{pmatrix}=\begin{pmatrix}\frac{17}{35}&0&-\frac{1}{7}\\0&\frac{1}{10}&0\\-\frac{1}{7}&0&\frac{1}{14}\end{pmatrix}$$
$$\boldsymbol{\tilde{X’}}\boldsymbol{y}=\begin{pmatrix}36.5\\1.2\\76.6\end{pmatrix}
[3]
単回帰のAIC,重回帰のAICをそれぞれ、
$$AIC_1,AIC_2$$
とする。
AICは小さいほど当てはまりが良いので大小を比較してみる。
$$AIC_1-AIC_2=5\begin{pmatrix}\log 1.1-\log 0.17\end{pmatrix}-2=5\begin{pmatrix}\log \frac{1.1}{0.17}\end{pmatrix}-2$$
$$\log \frac{1.1}{0.17}=\log 6.47\geq 1なので、(cf. e\simeq 2.7)$$
$$AIC_1-AIC_2\geq 0$$
で、重回帰のAICのほうが小さな値とわかったので、AICの観点からは重回帰がより良いモデルといえる。