【統計検定1級過去問】2018年(理工学)大問5 解答例

投稿者: | 2019-05-06

コメント

混合正規分布の多峰性をテーマにした面白い問題でした。

確かにデータ分析をしていても混合正規分布が単峰型になることもあればならないこともあり、なぜそうなるか?は深く考えたことがなかったですが理論的に単峰型、二峰型になる条件を導くことができます。

少し計算量が多いですが、ぜひ一度解いてみて欲しい問題です。

問題

母集団全体の分布[math]F[/math]は分散は等しいが平均が異なる正規分布[math]N(\mu_1, \sigma^2)[/math]と[math]N(\mu_2, \sigma^2)[/math]の混合率[math]1/2[/math]ずつの混合であるとする。[math]N(\mu_j, \sigma^2)[/math]の確率密度関数を[math]f_j(x)=\dfrac{1}{\sqrt{2 \pi} \sigma} \exp \left[-\dfrac{\left(x-\mu_{j}\right)^{2}}{2 \sigma^{2}}\right][/math]とすると分布[math]F[/math]の確率密度関数[math]f(x)[/math]は

[math]

f(x)=\dfrac{f_1(x) + f_2(x)}{2}
[/math]

で与えられる。分布[math]F[/math]に従う確率変数を[math]X[/math]とする時、以下の問いに答えよ。

(出典:統計検定HP「統計検定 1級の過去問題」。問題文を一部略記。)

問1

[math]E[X]=\dfrac{\mu_1 + \mu_2}{2}[/math], [math]V[X]=\sigma^2 + \left(\dfrac{\mu_{1}-\mu_{2}}{2}\right)^{2}[/math]であることを示せ。

まず期待値を求めると

[math]
\begin{eqnarray}

E[X] &=& \int_{-\infty}^\infty xf(x)dx \\
&=& \dfrac{1}{2}\int_{-\infty}^\infty x(f_1(x)+f_2(x))dx \\
&=& \dfrac{\mu_1 + \mu_2}{2}
\end{eqnarray}
[/math]

である。つぎに分散を求める。

[math]

V[X] = \displaystyle \dfrac{1}{2}\sum_{j=1}^2 \int_{-\infty}^\infty \left(x-\dfrac{\mu_{1}+\mu_{2}}{2}\right)^{2}f_j(x)dx
[/math]

であり[math]\left(x-\dfrac{\mu_{1}+\mu_{2}}{2}\right)^{2}=\left(x-\mu_{1}+\dfrac{\mu_{1}-\mu_{2}}{2}\right)^{2}[/math]に注意すると

[math]
\begin{eqnarray}

&& \int_{-\infty}^\infty \left(x-\dfrac{\mu_{1}+\mu_{2}}{2}\right)^{2}f_1(x)dx \\
&=& \int_{-\infty}^\infty \left(x-\mu_{1}+\dfrac{\mu_{1}-\mu_{2}}{2}\right)^{2}f_1(x)dx \\
&=& \int_{-\infty}^\infty \left\{ (x-\mu_1)^2 +(x-\mu_1)(\mu_1-\mu_2) \right. \\
&& \quad +\left. \left(\dfrac{\mu_{1}-\mu_{2}}{2}\right)^{2}\right\}f_1(x)dx \\
&=& \int_{-\infty}^\infty (x-\mu_1)^2 f_1(x)dx \\
&& \quad + \left(\dfrac{\mu_{1}-\mu_{2}}{2}\right)^{2}\int_{-\infty}^\infty f_1(x)dx \\
&=& \sigma^2 + \left(\dfrac{\mu_{1}-\mu_{2}}{2}\right)^{2}
\end{eqnarray}
[/math]

である。同様に

[math]
\displaystyle 
\int_{-\infty}^\infty \left(x-\dfrac{\mu_{1}+\mu_{2}}{2}\right)^{2}f_2(x)dx = \sigma^2 + \left(\dfrac{\mu_{1}-\mu_{2}}{2}\right)^{2}
[/math]

なので

[math]
V[X] = 
\sigma^2 + \left(\dfrac{\mu_{1}-\mu_{2}}{2}\right)^{2}
[/math]

である。

問2

クラスA(受講者数: 100人)の試験結果は

  • 数学選択: 受講者数 50人, 平均 [math]69.7[/math], 標準偏差 [math]6.8[/math]
  • 数学非選択: 受講者数 50人, 平均 [math]49.6[/math], 標準偏差 [math]7.8[/math]

であった。この時、クラスA全体の平均と標準偏差を求めよ。

問1で使った[math]\left(x-\dfrac{\mu_{1}+\mu_{2}}{2}\right)^{2}=\left(x-\mu_{1}+\dfrac{\mu_{1}-\mu_{2}}{2}\right)^{2}[/math]を使うことで標準偏差を求めることができます。

クラスAの平均は[math]\dfrac{50\times 69.7 + 50\times 49.6}{50+50}=59.65[/math]である。

受講者を添字[math]i[/math]で表し、数学選択の受講者の集合を[math]M[/math]とする。受講者[math]i[/math]の試験結果を[math]x_i[/math]とし、数学選択者の平均点を[math]\mu_1[/math], 数学非選択者の平均点を[math]\mu_2[/math]とすると

  • [math]\frac{1}{50}\sum_{i\in M}(x_i – \mu_1)^2=6.8^2[/math]
  • [math]\frac{1}{50}\sum_{i\notin M}(x_i – \mu_2)^2=7.8^2[/math]

である。ここで

[math]
\begin{eqnarray}


&& \displaystyle \sum_{i} \left(x_i-\dfrac{\mu_1+\mu_2}{2}\right)^2 \\
&=& \sum_{i\in M} \left(x_i-\dfrac{\mu_1+\mu_2}{2}\right)^2 + \sum_{i\notin M} \left(x_i-\dfrac{\mu_1+\mu_2}{2}\right)^2
\end{eqnarray}
[/math]

と書け[math]\left(x-\dfrac{\mu_{1}+\mu_{2}}{2}\right)^{2}=\left(x-\mu_{1}+\dfrac{\mu_{1}-\mu_{2}}{2}\right)^{2}[/math]に注意すると

[math]
\begin{eqnarray}
&& 
\sum_{i\in M} \left(x_i-\dfrac{\mu_1+\mu_2}{2}\right)^2 \\
&=& 
\sum_{i\in M}\left(x-\mu_{1}+\dfrac{\mu_{1}-\mu_{2}}{2}\right)^{2} \\
&=& 
\sum_{i\in M}(x-\mu_1)^2 + 
\sum_{i\in M}\left(\dfrac{\mu_{1}-\mu_{2}}{2}\right)^{2} \\
&=& 50\times 6.8^2 + 50\times \left(\dfrac{69.7-49.6}{2}\right)^{2}
\end{eqnarray}
[/math]

となり、同様に

[math]
\begin{eqnarray}



&& \displaystyle 
\sum_{i\notin M} \left(x_i-\dfrac{\mu_1+\mu2}{2}\right)^2 \\
&=& 50\times 7.8^2 + 50\times \left(\dfrac{69.7-49.6}{2}\right)^{2}
\end{eqnarray}
[/math]

になる。これより分散は

[math]
\begin{eqnarray}

s^2 &=& \dfrac{1}{100}\sum_{i} \left(x_i-\dfrac{\mu_1+\mu2}{2}\right)^2 \\
&=& \dfrac{6.8^2}{2}+\dfrac{7.8^2}{2}+\left(\dfrac{69.7-49.6}{2}\right)^{2} \\
&=& 154.54
\end{eqnarray}
[/math]

となり、これより[math]s=12.43[/math]を得る。

問3

[math]f'(x), f”(x)[/math]を求めよ。[math]x=\dfrac{\mu_1 + \mu_2}{2}[/math]は[math]f(x)[/math]の極値を与えることを示せ。

[math]f_j(x)[/math]の1次導関数を求めると

[math]

f_j'(x) = \dfrac{1}{\sqrt{2 \pi} \sigma}\left(-\dfrac{x-\mu_{j}}{\sigma^{2}}\right)\exp\left[-\dfrac{(x-\mu_j)^{2}}{2 \sigma^{2}}\right]
[/math]

なので[math]f'(x)[/math]を求めると

[math]


\displaystyle 

f'(x) = \dfrac{1}{2\sqrt{2 \pi} \sigma}\sum_{j=1}^2\left(-\dfrac{x-\mu_{j}}{\sigma^{2}}\right)\exp\left[-\dfrac{(x-\mu_j)^{2}}{2 \sigma^{2}}\right]
[/math]

である。

つぎに[math]y=f(x)[/math]は[math]x=\frac{\mu_1 + \mu_2}{2}[/math]に関して線対称になることを示す。任意の[math]x[/math]について

[math]

f_1\left(-x + \frac{\mu_1 + \mu_2}{2}\right) = f_2\left(x + \frac{\mu_1 + \mu_2}{2}\right)
[/math]

が成立するので任意の[math]x[/math]について

[math]

f\left(x+\frac{\mu_1 + \mu_2}{2}\right) = f\left(-x + \frac{\mu_1 + \mu_2}{2}\right)
[/math]

が成立し[math]y=f(x)[/math]は[math]x=\frac{\mu_1 + \mu_2}{2}[/math]に関して線対称になる。

[math]x=\frac{\mu_1 + \mu_2}{2}[/math]の時、[math]x-\mu_1 = -(x-\mu_2)[/math]なので[math]f'(\frac{\mu_1 + \mu_2}{2})=0[/math]となる。線対称性より、[math]f(x)[/math]は[math]x=\frac{\mu_1 + \mu_2}{2}[/math]で極値をとる。

つぎに[math]f_j(x)[/math]の2次導関数を求めると

[math]
\begin{eqnarray}


&& f_j”(x) \\
&=& \dfrac{1}{\sqrt{2 \pi} \sigma^3}\left\{\left(\dfrac{x-\mu_{j}}{\sigma}\right)^2-1\right\}\exp\left[-\dfrac{(x-\mu_j)^{2}}{2 \sigma^{2}}\right]
\end{eqnarray}
[/math]

なので[math]f”(x)[/math]を求めると

[math]
\begin{eqnarray}
&& 
\displaystyle 

f”(x) \\
&=& \dfrac{1}{2\sqrt{2 \pi} \sigma^3}\sum_{j=1}^2 \left\{\left(\dfrac{x-\mu_{j}}{\sigma}\right)^2-1\right\}\exp\left[-\dfrac{(x-\mu_j)^{2}}{2 \sigma^{2}}\right]
\end{eqnarray}
[/math]

である。

問4

分布[math]F[/math]が二峰性を示すための[math]\mu_{1}, \mu_{2}, \sigma[/math]の条件を求めよ。

分布[math]F[/math]は[math]x=\frac{\mu_1 + \mu_2}{2}[/math]に関して対称なので二峰性を示すための条件は[math]x=\frac{\mu_1 + \mu_2}{2}[/math]で下に凸、つまり[math]f”(\frac{\mu_1 + \mu_2}{2}) > 0[/math]になる時である。

[math]x=\frac{\mu_1 + \mu_2}{2}[/math]の時、[math](x-\mu_1)^{2}=(x-\mu_2)^{2}=\left(\frac{\mu_1-\mu_2}{2}\right)^2[/math]なので

[math]
\begin{eqnarray}

&& f”(x) > 0 \\
&\Leftrightarrow& \left(\dfrac{x-\mu_{1}}{\sigma}\right)^2+\left(\dfrac{x-\mu_{2}}{\sigma}\right)^2-2 > 0 \\
&\Leftrightarrow& \dfrac{|\mu_1 – \mu_2|}{\sigma} > 2
\end{eqnarray}
[/math]

である。

シリーズ記事

スポンサーリンク


コメントを残す

メールアドレスが公開されることはありません。