コメント
混合正規分布の多峰性をテーマにした面白い問題でした。
確かにデータ分析をしていても混合正規分布が単峰型になることもあればならないこともあり、なぜそうなるか?は深く考えたことがなかったですが理論的に単峰型、二峰型になる条件を導くことができます。
少し計算量が多いですが、ぜひ一度解いてみて欲しい問題です。
問題
[math]
f(x)=\dfrac{f_1(x) + f_2(x)}{2}
[/math]
で与えられる。分布[math]F[/math]に従う確率変数を[math]X[/math]とする時、以下の問いに答えよ。
(出典:統計検定HP「統計検定 1級の過去問題」。問題文を一部略記。)
問1
まず期待値を求めると
[math]
\begin{eqnarray}
E[X] &=& \int_{-\infty}^\infty xf(x)dx \\
&=& \dfrac{1}{2}\int_{-\infty}^\infty x(f_1(x)+f_2(x))dx \\
&=& \dfrac{\mu_1 + \mu_2}{2}
\end{eqnarray}
[/math]
である。つぎに分散を求める。
[math]
V[X] = \displaystyle \dfrac{1}{2}\sum_{j=1}^2 \int_{-\infty}^\infty \left(x-\dfrac{\mu_{1}+\mu_{2}}{2}\right)^{2}f_j(x)dx
[/math]
であり[math]\left(x-\dfrac{\mu_{1}+\mu_{2}}{2}\right)^{2}=\left(x-\mu_{1}+\dfrac{\mu_{1}-\mu_{2}}{2}\right)^{2}[/math]に注意すると
[math]
\begin{eqnarray}
&& \int_{-\infty}^\infty \left(x-\dfrac{\mu_{1}+\mu_{2}}{2}\right)^{2}f_1(x)dx \\
&=& \int_{-\infty}^\infty \left(x-\mu_{1}+\dfrac{\mu_{1}-\mu_{2}}{2}\right)^{2}f_1(x)dx \\
&=& \int_{-\infty}^\infty \left\{ (x-\mu_1)^2 +(x-\mu_1)(\mu_1-\mu_2) \right. \\
&& \quad +\left. \left(\dfrac{\mu_{1}-\mu_{2}}{2}\right)^{2}\right\}f_1(x)dx \\
&=& \int_{-\infty}^\infty (x-\mu_1)^2 f_1(x)dx \\
&& \quad + \left(\dfrac{\mu_{1}-\mu_{2}}{2}\right)^{2}\int_{-\infty}^\infty f_1(x)dx \\
&=& \sigma^2 + \left(\dfrac{\mu_{1}-\mu_{2}}{2}\right)^{2}
\end{eqnarray}
[/math]
である。同様に
[math]
\displaystyle
\int_{-\infty}^\infty \left(x-\dfrac{\mu_{1}+\mu_{2}}{2}\right)^{2}f_2(x)dx = \sigma^2 + \left(\dfrac{\mu_{1}-\mu_{2}}{2}\right)^{2}
[/math]
なので
[math]
V[X] =
\sigma^2 + \left(\dfrac{\mu_{1}-\mu_{2}}{2}\right)^{2}
[/math]
である。
問2
- 数学選択: 受講者数 50人, 平均 [math]69.7[/math], 標準偏差 [math]6.8[/math]
- 数学非選択: 受講者数 50人, 平均 [math]49.6[/math], 標準偏差 [math]7.8[/math]
であった。この時、クラスA全体の平均と標準偏差を求めよ。
クラスAの平均は[math]\dfrac{50\times 69.7 + 50\times 49.6}{50+50}=59.65[/math]である。
受講者を添字[math]i[/math]で表し、数学選択の受講者の集合を[math]M[/math]とする。受講者[math]i[/math]の試験結果を[math]x_i[/math]とし、数学選択者の平均点を[math]\mu_1[/math], 数学非選択者の平均点を[math]\mu_2[/math]とすると
- [math]\frac{1}{50}\sum_{i\in M}(x_i – \mu_1)^2=6.8^2[/math]
- [math]\frac{1}{50}\sum_{i\notin M}(x_i – \mu_2)^2=7.8^2[/math]
である。ここで
[math]
\begin{eqnarray}
&& \displaystyle \sum_{i} \left(x_i-\dfrac{\mu_1+\mu_2}{2}\right)^2 \\
&=& \sum_{i\in M} \left(x_i-\dfrac{\mu_1+\mu_2}{2}\right)^2 + \sum_{i\notin M} \left(x_i-\dfrac{\mu_1+\mu_2}{2}\right)^2
\end{eqnarray}
[/math]
と書け[math]\left(x-\dfrac{\mu_{1}+\mu_{2}}{2}\right)^{2}=\left(x-\mu_{1}+\dfrac{\mu_{1}-\mu_{2}}{2}\right)^{2}[/math]に注意すると
[math]
\begin{eqnarray}
&&
\sum_{i\in M} \left(x_i-\dfrac{\mu_1+\mu_2}{2}\right)^2 \\
&=&
\sum_{i\in M}\left(x-\mu_{1}+\dfrac{\mu_{1}-\mu_{2}}{2}\right)^{2} \\
&=&
\sum_{i\in M}(x-\mu_1)^2 +
\sum_{i\in M}\left(\dfrac{\mu_{1}-\mu_{2}}{2}\right)^{2} \\
&=& 50\times 6.8^2 + 50\times \left(\dfrac{69.7-49.6}{2}\right)^{2}
\end{eqnarray}
[/math]
となり、同様に
[math]
\begin{eqnarray}
&& \displaystyle
\sum_{i\notin M} \left(x_i-\dfrac{\mu_1+\mu2}{2}\right)^2 \\
&=& 50\times 7.8^2 + 50\times \left(\dfrac{69.7-49.6}{2}\right)^{2}
\end{eqnarray}
[/math]
になる。これより分散は
[math]
\begin{eqnarray}
s^2 &=& \dfrac{1}{100}\sum_{i} \left(x_i-\dfrac{\mu_1+\mu2}{2}\right)^2 \\
&=& \dfrac{6.8^2}{2}+\dfrac{7.8^2}{2}+\left(\dfrac{69.7-49.6}{2}\right)^{2} \\
&=& 154.54
\end{eqnarray}
[/math]
となり、これより[math]s=12.43[/math]を得る。
問3
[math]f_j(x)[/math]の1次導関数を求めると
[math]
f_j'(x) = \dfrac{1}{\sqrt{2 \pi} \sigma}\left(-\dfrac{x-\mu_{j}}{\sigma^{2}}\right)\exp\left[-\dfrac{(x-\mu_j)^{2}}{2 \sigma^{2}}\right]
[/math]
なので[math]f'(x)[/math]を求めると
[math]
\displaystyle
f'(x) = \dfrac{1}{2\sqrt{2 \pi} \sigma}\sum_{j=1}^2\left(-\dfrac{x-\mu_{j}}{\sigma^{2}}\right)\exp\left[-\dfrac{(x-\mu_j)^{2}}{2 \sigma^{2}}\right]
[/math]
である。
つぎに[math]y=f(x)[/math]は[math]x=\frac{\mu_1 + \mu_2}{2}[/math]に関して線対称になることを示す。任意の[math]x[/math]について
[math]
f_1\left(-x + \frac{\mu_1 + \mu_2}{2}\right) = f_2\left(x + \frac{\mu_1 + \mu_2}{2}\right)
[/math]
が成立するので任意の[math]x[/math]について
[math]
f\left(x+\frac{\mu_1 + \mu_2}{2}\right) = f\left(-x + \frac{\mu_1 + \mu_2}{2}\right)
[/math]
が成立し[math]y=f(x)[/math]は[math]x=\frac{\mu_1 + \mu_2}{2}[/math]に関して線対称になる。
[math]x=\frac{\mu_1 + \mu_2}{2}[/math]の時、[math]x-\mu_1 = -(x-\mu_2)[/math]なので[math]f'(\frac{\mu_1 + \mu_2}{2})=0[/math]となる。線対称性より、[math]f(x)[/math]は[math]x=\frac{\mu_1 + \mu_2}{2}[/math]で極値をとる。
つぎに[math]f_j(x)[/math]の2次導関数を求めると
[math]
\begin{eqnarray}
&& f_j”(x) \\
&=& \dfrac{1}{\sqrt{2 \pi} \sigma^3}\left\{\left(\dfrac{x-\mu_{j}}{\sigma}\right)^2-1\right\}\exp\left[-\dfrac{(x-\mu_j)^{2}}{2 \sigma^{2}}\right]
\end{eqnarray}
[/math]
なので[math]f”(x)[/math]を求めると
[math]
\begin{eqnarray}
&&
\displaystyle
f”(x) \\
&=& \dfrac{1}{2\sqrt{2 \pi} \sigma^3}\sum_{j=1}^2 \left\{\left(\dfrac{x-\mu_{j}}{\sigma}\right)^2-1\right\}\exp\left[-\dfrac{(x-\mu_j)^{2}}{2 \sigma^{2}}\right]
\end{eqnarray}
[/math]
である。
問4
分布[math]F[/math]は[math]x=\frac{\mu_1 + \mu_2}{2}[/math]に関して対称なので二峰性を示すための条件は[math]x=\frac{\mu_1 + \mu_2}{2}[/math]で下に凸、つまり[math]f”(\frac{\mu_1 + \mu_2}{2}) > 0[/math]になる時である。
[math]x=\frac{\mu_1 + \mu_2}{2}[/math]の時、[math](x-\mu_1)^{2}=(x-\mu_2)^{2}=\left(\frac{\mu_1-\mu_2}{2}\right)^2[/math]なので
[math]
\begin{eqnarray}
&& f”(x) > 0 \\
&\Leftrightarrow& \left(\dfrac{x-\mu_{1}}{\sigma}\right)^2+\left(\dfrac{x-\mu_{2}}{\sigma}\right)^2-2 > 0 \\
&\Leftrightarrow& \dfrac{|\mu_1 – \mu_2|}{\sigma} > 2
\end{eqnarray}
[/math]
である。
シリーズ記事
- 過去問と解答例
- 2018年(理工学)大問1
- 2018年(理工学)大問1 解答例
- 2018年(理工学)大問2
- 2018年(理工学)大問2 解答例
- 2018年(理工学)大問5
- 2018年(理工学)大問5 解答例(本記事)