【統計検定対策】順序統計量

定義

累積分布関数[math]F_X(x)[/math]に従う独立な確率変数[math]X_1,\dots,X_n[/math]を小さい順に並び替えた確率変数[math]X_{(1)},\dots,X_{(n)}[/math]を順序統計量と呼ぶ。

順序統計量の意味

順序統計量は得られた標本から[math]k(=1,\dots,n)[/math]番目に小さい標本を求めたもので、[math]k=1[/math]は最小値を、[math]k=n[/math]は最大値に対応しています。

順序統計量の問題

過去にも以下のような順序統計量[math]X_{(k)}[/math]の確率密度関数を求める問題や、ある標本が最大値/最小値となる確率を求める問題が出題されています。

[math]U_1, U_2, U_3[/math]を区間[math](0,1)[/math]の一様分布に従う独立な確率変数とする。このとき、順序統計量[math]U_{(1)},U_{(2)},U_{(3)}[/math]の確率密度関数を求めよ。

順序統計量の定石

順序統計量のうち対象となるのが最小値[math](k=1)[/math], 最大値[math](k=n)[/math]の場合は以下の関係に着目することで簡単に累積分布関数を求めることができます。

最小値の場合

与えられた[math]x[/math]に対して「最小値[math]X_{(1)}[/math]が[math]x[/math]以下」となるのは「[math]X_1,\dots,X_n[/math]のいずれかが[math]x[/math]以下」すなわち「[math]X_1,\dots,X_n[/math]のすべてが[math]x[/math]より大きい」事象の補集合になることに着目します。

[math]P(X_{(1)}\leq x)=1-P(X_1>x)P(X_2>x)\cdots P(X_n>x)=1-\left(1-F_X(x)\right)^n[/math]

となります。

最大値の場合

与えられた[math]x[/math]に対して「最大値[math]X_{(n)}[/math]が[math]x[/math]以下」となるのは「[math]X_1,\dots,X_n[/math]すべてが[math]x[/math]以下」と同値になることに着目します。

[math]P(X_{(n)}\leq x)=P(X_1\leq x)P(X_2\leq x)\cdots P(X_n\leq x)=F_X(x)^n[/math]

となります。

一般の[math]X_{(k)}[/math]の場合

最小値/最大値に限らない一般の[math]X_{(k)}[/math]についても累積分布関数を求めることができます。与えられた[math]x[/math]に対して確率変数[math]Y[/math]を「[math]X_i\leq x[/math]となるサンプルの数」と定義します。事象「[math]X_i\leq x[/math]」は確率[math]F_X(x)[/math]で生じるので確率変数[math]Y[/math]は二項分布[math]B(n,F_X(x))[/math]に従うことが分かります。さらに「[math]k[/math]番目に小さい値[math]X_{(k)}[/math]が[math]x[/math]以下」は「[math]X_i\leq x[/math]となるサンプルが[math]k[/math]個以上」と同値になるので累積分布関数は以下で与えられます。

[math]
\begin{eqnarray}
P(X_{(k)}\leq x) &=& P(Y=k)+P(Y=k+1)+\dots+P(Y=n) \\
&=&\displaystyle\sum_{j=k}^n{}_nC_jF_X(x)^j(1-F_X(x))^{n-j}
\end{eqnarray}
[/math]

「[math]X_i\leq x[/math]となるサンプルの数」に着目して累積分布関数を求める方法は知っていないとその場で思いつくのは難しいかもしれませんね。

順序統計量の同時確率密度関数

順序統計量間の共分散を求める問題も出題されています。

[math]U_1, U_2, U_3[/math]を区間[math](0,1)[/math]の一様分布に従う独立な確率変数とし、順序統計量[math]U_{(1)},U_{(2)},U_{(3)}[/math]とする。この時、[math]U_{(3)}-U_{(1)}[/math]の分散を求めよ。

ここでは共分散の計算に必要な同時確率密度関数を求めてみます。

2個の順序統計量[math]X_{(k)}, X_{(l)}[/math]の同時確率密度関数を[math]f_{X_{(k)}, X_{(l)}}(x_k, x_l)[/math]とします。[math]X_{(k)}, X_{(l)}[/math]がそれぞれ[math][u, u+du],\ [v, v+dv],\ (u < v)[/math]の値を取る確率は[math]n[/math]個の値[math]X_1,\dots,X_n[/math]が

区間[math](-\infty, u)[/math]内: [math]k-1[/math]個
区間[math][u, u+du][/math]内: [math]1[/math]個
区間[math](u, v)[/math]内: [math]l-k-1[/math]個
区間[math][v, v+dv][/math]内: [math]1[/math]個
区間[math](v, \infty)[/math]: [math]n-l[/math]個

の範囲に入る場合なので

[math]
\begin{eqnarray}
&& f_{X_{(k)}, X_{(l)}}(u, v)du dv \\
&=& \dfrac{n!}{(k-1)!(l-k-1)!(n-l)!} \\
&& \times F_X(u)^{k-1}f_X(u)du\left[F_X(v)-F_X(u)\right]^{l-k-1} \\
&& \times f_X(v)dv\left[1-F_X(v)\right]^{n-l}
\end{eqnarray}
[/math]

が成立します。ここで[math]f_X[/math]は確率密度関数、[math]F_X[/math]は累積分布関数です。これより

[math]
\begin{eqnarray}
&& f_{X_{(k)}, X_{(l)}}(u, v) \\
&=& \dfrac{n!}{(k-1)!(l-k-1)!(n-l)!} \\
&& \times F_X(u)^{k-1}f_X(u)\left[F_X(v)-F_X(u)\right]^{l-k-1} \\
&& \times f_X(v)\left[1-F_X(v)\right]^{n-l}
\end{eqnarray}
[/math]

が得られます。

参考文献

Casella, G and Berger, R.L.(1990), Statistical Inference(Second Edition): Section 5.4 Order Statistics

定義

順序統計量の意味

順序統計量の問題