例年と比べると母比率の区間推定、一元配置分散分析などややマニアックな内容が多く難化した印象です。
なお、他の開催分の解答例はこちらを参照ください。
問1
[1]階級(E)以外の値を合計し、100から引いて求める。
[2]各記述は
- 滞在日数が一週間未満(階級(A)+(B))の割合が最も高いのは韓国なので「誤」
- 米国で最も割合が高いのは階級(C)なので「誤」
- マレーシアで1週間以上滞在する人の割合は階級(C)だけで[math]50\%[/math]を超えており「誤」
- 韓国の階級(A)+(B)が[math]90\%[/math]を超えており「誤」
- フランスの中央値は階級(C)に含まれており、他国より高く「正」
[3]階級(C)が[math]50\%[/math]程度あり、階級(B), (D)が[math]20\%[/math]程度ある「1」が適切。
問2
[4]強い負の相関がある[math]{\rm I}[/math]が「平均気温」、弱い負の相関がある[math]{\rm I}\hspace{-.1em}{\rm I}\hspace{-.1em}{\rm I}[/math]が「日照時間」なので「1」が適切。
[5]「[math]t[/math]値 = 係数[math]\div[/math]標準誤差」から計算。
[6]回帰式に代入すると[math]3.2[/math]が得られるので「4月3日」が適切。
問3
[7]キャベツの価格表から中央値は[math]214[/math]で、変動係数は「標準偏差[math]\div[/math]平均」なので[math]0.261[/math]となる。よって「4」が適切。
[8]箱ひげ図から右に裾がながい[math]{\rm I}\hspace{-.1em}{\rm I}\hspace{-.1em}{\rm I}[/math]がキャベツ、左右の裾の長さがほぼ同じで大きな外れ値が1点ある[math]{\rm I}\hspace{-.1em}{\rm I}[/math]がビールなので「5」が適切。
[9]記述[math]{\rm I}[/math]〜[math]{\rm I}\hspace{-.1em}{\rm I}\hspace{-.1em}{\rm I}[/math]の正誤は
- Lagが12の値を比較しキャベツの相関が高いので「正」
- 翌月とは正の相関があり、ある月が平均より高ければ翌月の価格も平均より高い可能性が高く「正」
- コレログラムからは「キャベツ」「ビール」の2変量間の関係はわからず「誤」
問4
[10]
「個別価格指数を合成するときにウェイトとして基準時点の購入金額の割合を用いる」とあるので牛肉、豚肉の基準時点での購入金額の割合を[math]w_b,\ w_p[/math]とすると
[math]
\begin{eqnarray}
w_b &=& \dfrac{340.73 \times 6200}{340.73 \times 6200 + 149.57 \times 19865} \\
w_p &=& \dfrac{149.57 \times 19865}{340.73 \times 6200 + 149.57 \times 19865}
\end{eqnarray}
[/math]
であり、牛肉、豚肉の個別価格指数を[math]p_b,\ p_p[/math]とすると
[math]
\begin{eqnarray}
p_b &=& \dfrac{340.03}{340.73} \times 100 \\
p_p &=& \dfrac{144.30}{149.57} \times 100
\end{eqnarray}
[/math]
なのでラスパイレス価格指数は
[math]
\begin{eqnarray}
&& w_b\times p_b + w_p \times p_p \\
&=& \dfrac{340.03 \times 6200 + 144.30 \times 19865}{340.73 \times 6200 + 149.57 \times 19865}\times 100
\end{eqnarray}
[/math]
になり「1」が適切。
[11]1970年代に大きな伸び(前年比[math]20[/math]〜[math]30\%[/math]程度)があり、1990年代以降は増加、減少がともにある、つまり変化率に正、負がともにある「3」が適切。
問5
記述[math]{\rm I}[/math]〜[math]{\rm I}\hspace{-.1em}{\rm I}\hspace{-.1em}{\rm I}[/math]の正誤は
- 「正」
- 多段抽出法は抽出コストが低いメリットがあるが、標本に偏りが生じやすいというデメリットがあるため「誤」
- 「正」
になり「4」が適切。
問6
観察研究は研究対象に対して意図的な介入を行わず対象グループの行動情報などを集めて観察するものなので「3」が適切。
問7
生産したおもちゃが不良品である事象を[math]F[/math]とする。
[math]
\begin{eqnarray}
P(A | F) &=& \dfrac{P(A)P(F|A)}{P(F)} \\
&=& \dfrac{P(A)P(F|A)}{P(A)P(F|A)+P(B)P(F|B)} \\
&=& \dfrac{0.6\times 0.01}{0.6\times 0.01 + 0.4\times 0.005} \\
&=& \dfrac{6}{6+2} \\
&=& 0.75
\end{eqnarray}
[/math]
より「4」が適切。
問8
[15]密度関数を定義域全体で積分すると1になるので
[math]
\begin{eqnarray}
\int_{-\infty}^\infty f(x)dx &=& c\int_{0}^2 x(2-x)dx \\
&=& \dfrac{4}{3}c \\
&=& 1
\end{eqnarray}
[/math]
より[math]c=\frac{3}{4}[/math]なので「3」が適切。
[16]まず平均を求めると
[math]
\begin{eqnarray}
E[X] &=& \dfrac{3}{4}\int_{0}^{2}x^2(2-x) dx \\
&=& 1
\end{eqnarray}
[/math]
であり、[math]E[X^2][/math]を求めると
[math]
\begin{eqnarray}
E[X^2] &=& \dfrac{3}{4}\int_{0}^{2}x^3(2-x) dx \\
&=& \dfrac{6}{5}
\end{eqnarray}
[/math]
なので分散は
[math]
\begin{eqnarray}
V[X] &=& E[X^2] – \left(E[X]\right)^2 \\
&=& \dfrac{1}{5}
\end{eqnarray}
[/math]
になる。よって「4」が適切。
問9
[17]それぞれカイ二乗分布、[math]t[/math]分布、[math]F[/math]分布となるので「5」が適切。
[18]
[math]Y \sim F(20, 10)[/math]より
[math]
\begin{eqnarray}
&& P(Y \leq a) = 0.05 \\
&\Leftrightarrow& P(Y \leq 1/F_{0.05}(10,20)) = 0.05
\end{eqnarray}
[/math]
より[math]a = 1/F_{0.05}(10,20) = 1/2.348[/math]なので「2」が適切。
問10
[19][math]\frac{X_1-50}{10}[/math]が標準正規分布に従うことから
[math]
\begin{eqnarray}
P(X_1 \geq 60) &=& P\left(\dfrac{X_1-50}{10} \geq 1 \right) \\
&=& 0.1587
\end{eqnarray}
[/math]
より「1」が適切。
[20]まず
- 特定の1人が60点以上
- 残りの4人が60点未満
をとる確率は[math]0.1587\times (1-0.1578)^4=0.0794[/math]である。特定1人の選び方は5通りあるので求める確率は[math]5 \times 0.0794 = 0.397[/math]になり「4」が適切。
[21]標本平均[math]\bar{X}[/math]は平均[math]50[/math], 標準偏差[math]\frac{10}{\sqrt{5}}[/math]正規分布に従うので
[math]
\begin{eqnarray}
P(\bar{X} \geq 52) &=& P\left(\dfrac{\bar{X}-50}{10/\sqrt{5}} \geq \dfrac{\sqrt{5}}{5} \right) \\
&=& 0.3300
\end{eqnarray}
[/math]
より「2」が適切。
問11
[22]ポアソン分布の分散は平均と等しくなるので「2」が適切。
[23]事故が1件も発生しない確率は
[math]
f(0)=e^{-\lambda}=e^{-518/365}=1/4.13=0.24
[/math]
より「3」が適切。
問12
[24]回帰モデルの自由度は「標本のサイズ[math]-[/math]回帰係数の数[math](=2)[/math]」であり出力結果から標本サイズは[math]199+2=201[/math]になるので「5」が適切。
[25]検定統計量は「(回帰係数[math]-[/math]帰無仮説)[math]\div[/math]標準誤差」なので「1」が適切。
[26]記述[math]{\rm I}[/math]〜[math]{\rm I}\hspace{-.1em}{\rm I}\hspace{-.1em}{\rm I}[/math]の正誤は
- log(販売価格)の回帰係数が[math]-4.9[/math]なので「正」
- log(販売価格)の回帰係数が負なので「正」
- log(販売価格)が[math]-0.3[/math]の時、log(販売数量)は[math]9.39[/math]なので「誤」
なので「3」が適切。
問13
[27]母比率の[math]95\%[/math]信頼区間は標本比率を[math]r[/math], 標本サイズを[math]n[/math]として
[math]
r \pm 1.96 \times \sqrt{\dfrac{r(1-r)}{n}}
[/math]
で与えられる。[math]r=0.483,\ n=1897[/math]を代入し[math][0.461,\ 0.505][/math]になるので「3」が適切。
[28]比率の差の[math]95\%[/math]信頼区間は2群の比率を[math]r_1, r_2[/math]、標本サイズを[math]n_1, n_2[/math]として
[math]
p_1 – p_2 \pm 1.96 \times \sqrt{\dfrac{r_1(1-r_1)}{n_1} + \dfrac{r_2(1-r_2)}{n_2}}
[/math]
で与えられ、[math]r_1=0.483, r_2=0.416[/math]および[math]n_1=1897, n_2=1925[/math]を代入し下限が0をまたがないことから有意水準[math]5\%[/math]で「割合が変化した」と言え「2」が適切。
問14
[29]記述[math]{\rm I}[/math]〜[math]{\rm I}\hspace{-.1em}{\rm I}\hspace{-.1em}{\rm I}[/math]の正誤は
- 対立仮説が正しい場合に「[math]1-[/math]帰無仮説を棄却しない確率」が検出力なので「誤」
- 「正」
- 「正」
なので「5」が適切。
問15
[30][math]2 \times 3[/math]の分割表になるので自由度は[math](2-1)\times (3-1)=2[/math]になり「2」が適切。
[31]検定統計量は期待値を[math]E_i[/math]、観測値を[math]O_i[/math]として
[math]
\displaystyle\sum_{i}\dfrac{(O_i – E_i)^2}{E_i}
[/math]
になる。検定統計量を計算すると[math]5.66[/math]になり[math]P[/math]値を計算すると[math]5\%[/math]より大きくなるので棄却できず「5」が適切。
問16
[32]各地域の国数と平均値から全体平均を求めれば良い。
[33][math]F[/math]値は分子が「要因平均と全体平均の差の平方和[math]\div[/math]自由度」、分母が「各要素と要因平均の差の平方和[math]\div[/math]自由度」になるので「4」が適切。
[34]記述[math]{\rm I}[/math]〜[math]{\rm I}\hspace{-.1em}{\rm I}\hspace{-.1em}{\rm I}[/math]の正誤は
- 出力結果の「Pr(>F)」が6.898e-16と[math]1\%[/math]より小さいので「正」
- 帰無仮説「地域により自動車保有台数に差がない」は有意水準[math]1\%[/math]で棄却できる。これはいずれかの地域間で自動車保有台数の平均の[math]99\%[/math]信頼区間が重ならないことを意味しているので「誤」
- [math]P[/math]値は[math]1\%[/math]より小さいので「誤」
なので「1」が適切。
丁寧なご解説ありがとうございます。
恐縮ながら質問なのですが、
[34]Ⅱ の記述について、
「各地域について群間変動と郡内変動の差が有意にあった」
→「各地域それぞれの地域内の標本のバラツキよりも、各地域間のバラツキが有意に大きいことがわかった」
→『「各地域の自動車保有台数の平均は同じである」は有意水準1%で棄却される』
まではかろうじで理解できたのですが、
ここからなぜ、「それぞれの地域の自動車保有台数の99%信頼区間は、重ならないペアが1つ以上存在する」という結論が導けるのか、直感的に理解ができません、、
もしお時間ございましたら、この点ご教示願えますと幸いです、、
質問ありがとうございます。
一元配置分散分析の関心の対象は
「群内平均」が「全体平均」と同じといえるか
で、その判定手段として分散を使っています。
(手法の名前に「分散」が入っているのでややこしいのですが、関心の対象は「分散(バラツキ)」ではなく「平均」にあります)
また、統計的仮説検定と区間推定(信頼区間)は密接にかかわっています。
例えば
http://www3.u-toyama.ac.jp/kkarato/2016/statistics/handout/statistics-2016-19-0621.pdf
などでも「ある検定統計量を用いて帰無仮説を棄却すること」と「母数の信頼区間から外れること」の対応関係が説明されています。
(本質的には同じ状況を「仮説検定という見方」で見るか、「信頼区間という見方」で見るかの違いとお考え下さい。)
一元配置分散分析では帰無仮説を
H0: 各群の平均がすべて等しい
と置きます。今回の問題では
H0: 各地域の平均がすべて等しい
を有意水準1%で検定しています。これは信頼区間の見方でみると
各地域の平均の99%信頼区間がすべて重なっている(※)
(どの2つ地域の平均の信頼区間も重なりを持つ)
ことに対応します。
感覚的には
2つの地域の平均の信頼区間が重なっている
⇒2つの地域の平均が異なると積極的に主張する材料はない
ということを意味しています。逆に
ある2つの地域の平均の信頼区間が重なっていない
⇒ある2つの地域の平均が統計的には偶然起きたとは考えにくいほど差がある
を意味しており、これは帰無仮説が棄却される状況に対応しています。
一元配置分散分析は帰無仮説の下で統計量FがF分布に従うことを利用して
仮説検定を行います。今回の問題では有意水準1%で棄却されるので(※)が否定され信頼区間の見方でみると
ある2つの地域の平均の99%信頼区間が重なっていない
ことを意味します。
ご返信ありがとうございます!
「信頼区間から外れること」と「平均は等しいとする帰無仮説を棄却すること」は同じだということは理解できましたが、F検定が入ってくると個人的にはすごくややこしくて、、
群間変動と群内変動の比のF検定で有意水準1%以下で棄却することと、各群の平均の信頼区間が重ならないことの対応が、私のIQでは複雑極まりないです、、(なぜなら、F検定によってわかったことは、あくまで「各群内の要素のバラツキを考慮したとしても、やはり群同士の平均は大きく異なるよね」ということで、そこからなぜ「群の数だけある信頼区間の中で、重ならないペアが1つ以上ある」にもっていけるのかがわからず、、「全て重ならない」ではなく、なぜ「少なくとも1ペアは重ならない」なのか?など、バカすぎて辛いです、、
2群のt検定での「信頼区間と仮説棄却の関係」の話とニュアンスが異なるように見えるのです、、)。
たぶん私が分散分析の本質を全くわかっていないせいだと思います、ご回答を精読すれば答えが見えるはずなのかもしれませんが、1時間半考えても私にはわからなかったので、もうそれはそういうものとして覚えます、、
とはいえ、ご回答を機に、色々再認識できました、本当にご丁寧にありがとうございました!