誰も止めないので書けるだけ書く

読みやすくするように頑張ります

段階反応モデルにおける受験者能力の最尤推定について

外国語能力試験などでは、各項目に対する反応について統計的なモデルを適用し、受験者の能力や項目の難易度・識別力を算出する項目反応理論が用いられることが多い。よく用いられる2パラメータロジスティックモデル (2PLM) においては、能力値が \theta である受験者が識別力 a_i (\gt 0)、困難度 b_i の項目 i に正答する確率 P_i(\theta)

\begin{align}
P_i(\theta)=\frac{1}{1+e^{-a_i(\theta-b_i)}}\tag{1}
\end{align}

としている。識別力 a_i が大きいほど確率は \theta に対して敏感に変動する。困難度 b_i は正答率が50%になる \theta を示している。

様々な a_ib_i に対する  P_i(\theta)

これは1つの項目に対する反応が正誤の2パターンである場合に使えるが、反応が優劣の順序のついた3つ以上の段階からなる場合に用いられるモデルに段階反応モデルがある。

例えば、項目 j に対する反応が評価の低い順に0から4までの5段階あり、それらの反応が得られる確率をモデル化するとする。この場合、2PLMの項目が項目 j_1 から項目 j_4 の4つあるとして表すのが素直だが、2PLMの項目 j_kh が正答する確率 P_{j_k}(\theta_h) はもとの項目 j に対する反応が k 以上である確率であるから、項目 j への反応 k_jk である確率Q_{j}(k_j=k|\theta)

\begin{align}
Q_{j}(k_j=k|\theta)=P_{j_k}(\theta)-P_{j_{k+1}}(\theta)\tag{2}
\end{align}

ただし P_{j_0}(\theta)=1P_{j_5}(\theta)=0

全ての \theta に対してP_{j_1}(\theta)\lt P_{j_2}(\theta)\lt P_{j_3}(\theta)\lt P_{j_4}(\theta)であるために、各2PLMの項目の識別力 a_{j_k} は共通の値 a_j であり、また b_{j_1}\lt b_{j_2}\lt b_{j_3}\lt b_{j_4} でなければならない。

 

a_j=3.62b_{j1}=-0.701b_{j2}=-0.167b_{j3}=-0.025b_{j4}=3.206の項目に対する反応が0~4である確率のそれぞれが下図である。

各項目に対し、各段階の反応が起こる確率の例

テストでは、こうした項目が多数あり、それに対する反応の結果 \{k_{j}\} から受験者の能力 \theta を推定し、それが受験者の能力評価値になる。

 

すでに各項目に対する a_jb_{jk} が与えられている場合、推定手法として最尤推定法が有効である。

受験者 h の各項目に対する反応が \{k_{jh}\} のようなときに、受験者 h の能力  \theta_h \theta である尤度 L(\theta_h=\theta|\{k_{jh}\})

\begin{align}
 L(\theta_h=\theta|\{k_{jh}\})=\prod_j{Q_{j}(k_j=k_{jh}|\theta)}\tag{3}
\end{align}

であり、これが最大値をとる \theta を推定値 \hat{\theta_h} とするのが最尤推定法である。しかし、コンピュータによる計算でこれを算出する場合、項目の数が多いと尤度は最大値でも非常に小さくなり、取り扱いにくくなるうえ、各項目に対する反応の尤度の積というのも取り扱いにくいため、尤度は対数を取ることが多い。その場合、(3)式は

\begin{align}
 \ln L(\theta_h=\theta|\{k_{jh}\})=\sum_j{\ln Q_{j}(k_j=k_{jh}|\theta)}\tag{4}
\end{align}

となり、各項目に対する反応の対数尤度の和になって取り扱いやすくなる。以下、 L(\theta_h=\theta|\{k_{jh}\})L_h(\theta)Q_{j}(k_j=k_{jh}|\theta) Q_{hj}(\theta) と略記する。

対数尤度のグラフ例

ここで重要なのは、最尤値 \hat{\theta_h} では対数尤度の微分がゼロになることである。

 

\displaystyle \sum_j{\left. \frac{d}{d\theta} \ln Q_{hj}(\theta) \right|_{\theta=\hat{\theta_h}}}=0\tag{5}

 

とくに対数尤度グラフが上図のような単純な山形である場合、\left. \frac{d}{d\theta} \ln Q_{hj}(\theta) \right|_{\theta=\hat{\theta_h}} が正であるような項目はそれだけ推定値 \hat{\theta_h} の値を「押し上げて」おり、また負であるような項目は \hat{\theta_h} の値を「引き下げて」いるというのが直感的に理解しやすいと思う。

 

ちなみに、各項目では \frac{d}{d\theta} \ln Q_{hj}(\theta) の値は下図からも見て取れるように能力値 \theta が困難度 b_{jk} より十分小さい場合は a_j に漸近し、1段階上の反応の困難度b_{jk+1} より十分大きい場合は -a_j に漸近する。このことから、このモデルはいたずらに困難度の高い項目・反応段階を達することよりも、受験者能力に近い項目・反応段階での成績のほうが受験者能力の推定値に大きく関わってくるということがいえる。

先述の例で、確率の対数をとったもの

ここで、ある項目 j' を除いて回答が同一である二人の受験者 h_1h_2 の能力推定値がどのように異なるのかを考察する。項目 j' に対して h_1k_{j'h_1}h_2k_{j'h_2} と反応したとする(ただし、k_{j'h_1}\lt k_{j'h_2} とする)。受験者 h_1 の能力の最尤推定\hat{\theta_{h_1}}を定める。すると、

\begin{align}
 \ln L_{h_2}(\theta)=\ln L_{h_1}(\theta)-\ln Q_{h_1j'}(\theta)+\ln Q_{h_2j'}(\theta)\tag{6}
\end{align}
ただし、項目の総数が多く、\ln L_{h_1}(\hat{\theta_{h_1}})\ln L_{h_2}(\hat{\theta_{h_1}}) に比べ \ln Q_{h_1j'}(\hat{\theta_{h_1}})\ln Q_{h_2j'}(\hat{\theta_{h_1}}) が十分小さい状況で考えている。  \frac{d}{d\theta}\ln L_{h_2}(\hat{\theta_{h_2}})=0となるような受験者 h_2 の能力の最尤推定\hat{\theta_{h_2}}を求めたいが、ここで \hat{\theta_{h_2}}\hat{\theta_{h_1}} とさほど大きくは変わらないとして、 \ln L_{h_1}(\theta)\theta=\hat{\theta_{h_1}} の周辺で2次近似する。
\begin{align}
 \ln L_{h_1}(\theta)=\frac{1}{2} \left.\frac{d^2}{d\theta^2}\ln L_{h_1}(\theta)\right|_{\theta=\hat{\theta_{h_1}}} (\theta-\hat{\theta_{h_1}})^{2}+\ln L_{h_1}(\hat{\theta_{h_1}})\tag{7}
\end{align}
(7)式を(6)式に代入して両辺を \theta微分すると
\begin{align}
 \frac{d}{d\theta}\ln L_{h_2}(\theta)=\left.\frac{d^2}{d\theta^2}\ln L_{h_1}(\theta)\right|_{\theta=\hat{\theta_{h_1}}} (\theta-\hat{\theta_{h_1}})+\frac{d}{d\theta}\left(\ln Q_{h_2j'}(\theta)-\ln Q_{h_1j'}(\theta)\right)\tag{8}
\end{align}
これが \theta=\hat{\theta_{h_2}}でゼロになるとき、
\begin{align}
\hat{\theta_{h_2}}-\hat{\theta_{h_1}}=-\frac{\left.\frac{d}{d\theta}\left(\ln Q_{h_2j'}(\theta)-\ln Q_{h_1j'}(\theta)\right)\right|_{\theta=\hat{\theta_{h_2}}}}{\left.\frac{d^2}{d\theta^2}\ln L_{h_1}(\theta)\right|_{\theta=\hat{\theta_{h_1}}}}\tag{9}
\end{align}
となる。\hat{\theta_{h_2}}\hat{\theta_{h_1}} とさほど大きくは変わらないのであれば、右辺の分子を \theta=\hat{\theta_{h_1}} での微分としても大きく違わないだろう。