最小二乗法(OLS)や最尤法(MLE)。これら一見異なる手法には、「ある目的関数を最大化(または最小化)してパラメータを求める」という共通点があります。これが Extremum Estimator(極値推定量) です。
しかし、求めた値が「サンプルサイズを増やせば真の値に近づく」という保証、つまり一致性(Consistency)はどこから来るのでしょうか?
今回は、一見難解な一致性の証明を、必要な数学の紹介も交えながら、分かりやすく解説します。
レベルとしては、大学院コア計量2(後半)で出てくる内容です!
Contents
Extremum Estimator とは何か?
Extremum Estimator とは、データから計算される目的関数 \( Q_{n}(\theta) \) を最大化または最小化する値として定義されます。本記事では、最小化で統一します。
\[ \hat{\theta} = \arg\min_{\theta\in\Theta} Q_{n}(\theta) \]
例えば、OLSなら残差平方和、MLEなら対数尤度関数のマイナスが \( Q_n(\theta) \) にあたります。
例1:OLS
OLS は、実際の値と予測値の残差平方和(RSS)を最小化する手法です。
- 目的関数: \( Q_{n}(\beta) = \sum_{i=1}^{n} (y_{i}-x_{i}^{\prime} \beta)^{2} \)
- 極値操作: この \( Q_{n}(\beta) \) を 最小化(Minimize) する \( {\beta} \) を探し、 \( \hat{\beta} \) とします。
例2:MLE
MLE は、手元のデータが得られる確率(尤度)が最も高くなるようなパラメータを推定する手法です。通常は計算を楽にするために対数をとります。
- 目的関数: \( Q_{n}(\theta) = -\sum_{i=1}^{n} \log f(y_{i}\mid x_{i};\theta) \)(対数尤度関数)
- 極値操作: この \( Q_{n}(\theta) \) を 最小化(Minimize)(=対数尤度を最大化) する \( \theta \) を探し、 \( \hat{\theta} \) とします。
例3:GMM
GMM は、「母集団での期待値がゼロになる」というモーメント条件をサンプルで近似し、そのズレ(距離)を最小化する手法です。
- 目的関数: \( Q_{n}(\theta) = g_{n}(\theta)^{\prime}W_{n} g_{n}(\theta) \)
- \( g_{n}(\theta) \) はサンプルモーメント、\( W_{n} \) は重み行列です。
- 極値操作: この \( Q_{n}(\theta) \) を 最小化(Minimize) する \( \theta \) を探し、 \( \hat{\theta} \) とします。
Extremum Estimation では、データから計算される目的関数 \( Q_{n}(\theta) \) に対し、母集団 (population) の概念に対応するものとして \( Q(\theta) \) という目的関数も考えます。
そして真のパラメーター \( \theta_{0} \) は、母集団の目的関数 \( Q(\theta) \) を最小化するものとして定義します。
- 推定量 \( \hat{\theta} = \arg\min_{\theta\in\Theta} Q_{n}(\theta) \) は、データから計算される目的関数 \( Q_{n}(\theta) \) を最小化する。
- 真のパラメーター \( {\theta}_{0} = \arg\min_{\theta\in\Theta} Q(\theta) \) は、母集団の目的関数 \( Q(\theta) \) を最小化する。
一致性(Consistency)のゴール
ここで、示したいゴールを確認します。
推定量 \( \hat{\theta} \) が真のパラメーター \( \theta_{0} \) に確率収束することを示したいのでした。
確率収束の定義は、以下になります。
定義:確率収束
推定量 \( \hat{\theta} \) が真のパラメーター \( \theta_{0} \) に確率収束 (convergence in probability) するとは、
\[ \forall\varepsilon>0 \qquad \lim_{n\to\infty} \mathrm{Pr} \left\{ \left| \hat{\theta} - \theta_{0} \right| > \varepsilon \right\} = 0 \]
が成り立つことである。なお、このとき、
\[ \hat{\theta} \stackrel{p}{\longrightarrow} \theta_{0} \]
と書く。
直感的には、サンプルサイズを増やせば \( \hat{\theta} \) は \( \theta_{0} \) に近づく(確率の意味で)と言っているに過ぎません。
この一致性を証明するにあたり、定義にもある通り、\( \mathrm{Pr} \left\{ \left| \hat{\theta} - \theta_{0} \right| > \varepsilon \right\} \) を評価することになります。
\( \mathrm{Pr} \left\{ \left| \hat{\theta} - \theta_{0} \right| > \varepsilon \right\} \) は確率なので常に \( 0 \) 以上ですから、これを上から評価してやれば、はさみうちの定理により \( 0 \) に収束することが示せます。
一致性の証明
それでは、いよいよ証明に移りましょう。
証明のためには、2つの条件が必要です。
条件1:Identifiable Uniqueness
まず1つ目の条件が、Identifiable Uniqueness (以降 ID) と呼ばれる仮定です。
条件 (ID)
\[ \forall \varepsilon>0 \qquad \inf_{\theta\not\in B(\theta_{0},\varepsilon)} Q(\theta) > Q(\theta_{0}) \]
なんだかものすごい数学数学した見た目ですね。大丈夫です。一つ一つ解説します。
まずは \( B(\theta_{0},\varepsilon) \) ですが、これは \( \theta_{0} \) を中心とした半径 \( \varepsilon \) の球です(あるいは開近傍という言い方をします)。
\( \theta\not\in B(\theta_{0},\varepsilon) \) と言っているので、\( \theta \) は \(\theta_{0}\) の開近傍から取らない、と言っています。
仮定 ID を言葉で言うと、
\( \theta \) を \(\theta_{0}\) の開近傍から取らない限り、
\( Q(\theta_{0}) \) は \(Q(\theta) \) よりも厳密に小さい
となります。
直感的には、\( Q(\theta_{0}) \) は見分けがつくほどに他の値より十分小さく、また唯一の最小値である、と言っています。
前半部分の「見分けがつくほどに」が identifiable、後半部分の「唯一の最小値」が uniqueness に対応します。
条件2:Uniform Consistency
では2つ目の条件です。Uniform Consistency (以降 UC) と呼ばれる仮定です。
条件 (UC)
\[ \sup_{\theta\in\Theta} \left| Q_{n}(\theta) - Q(\theta) \right| \stackrel{p}{\longrightarrow} 0 \]
こちらは実解析で出てくる一様収束という概念の確率版です。
各点で \( Q_{n}(\theta) \) という関数列が \( Q(\theta) \) という関数に確率収束するよりも強い条件を要求しています。
イメージとしては、\( Q_{n}(\theta) \) が \( Q(\theta) \) の周囲の一定幅のバンドに収まりながら収束するイメージです。
この一様収束の概念に関しては、こちらの記事をご覧ください。
いざ、証明
ではこれら2つの仮定 ID, UC の下で一致性を証明してみましょう。
定理(一致性)
条件 (ID), (UC) を仮定する。このとき、
\[ \hat{\theta} \stackrel{p}{\longrightarrow} \theta_{0} \]
が成り立つ。
では、証明を始めます。
まず、一致性の定義にある通り、\( \forall\varepsilon>0 \quad \mathrm{Pr} \left\{ \left| \hat{\theta} - \theta_{0} \right| > \varepsilon \right\} \longrightarrow 0 \) を示したいのでした。そのために、この \( \mathrm{Pr} \left\{ \left| \hat{\theta} - \theta_{0} \right| > \varepsilon \right\} \) を上から評価します。
そのために、まず \( \varepsilon>0 \) を任意にとって固定します。そして仮定 (ID) を使います。仮定 (ID) により、
が成り立つます。この両辺に期待値 \( E[\cdot] \) をとれば、\( E[1\{ \cdot \}] = \mathrm{Pr}\left\{ \cdot \right\} \) ですから、確率になります:
このように左辺を右辺で上から評価できたので、この右辺をさらに上から評価してやれば良いことがわかります。
&\quad \mathrm{Pr}\left\{ Q\left( \hat{\theta} \right) - Q\left( {\theta}_{0} \right) \ge \delta \right\} \\
&= \mathrm{Pr}\left\{ Q\left( \hat{\theta} \right) - Q_{n}\left( \hat{\theta} \right) + \underbrace{ Q_{n}\left( \hat{\theta} \right) - Q_{n}\left( {\theta}_{0} \right) }_{\le 0} + Q_{n}\left( {\theta}_{0} \right) - Q\left( {\theta}_{0} \right) \ge \delta \right\}
\end{align}
↑は同じものを引いて足しているだけなので従います(いわゆる add-and-subtract strategy)。くくった箇所が \( \le 0 \) であることに注意して続きを評価すると、
&\quad \mathrm{Pr}\left\{ Q\left( \hat{\theta} \right) - Q_{n}\left( \hat{\theta} \right) + \underbrace{ Q_{n}\left( \hat{\theta} \right) - Q_{n}\left( {\theta}_{0} \right) }_{\le 0} + Q_{n}\left( {\theta}_{0} \right) - Q\left( {\theta}_{0} \right) \ge \delta \right\} \\
&\le \mathrm{Pr}\left\{ Q\left( \hat{\theta} \right) - Q_{n}\left( \hat{\theta} \right) + Q_{n}\left( {\theta}_{0} \right) - Q\left( {\theta}_{0} \right) \ge \delta \right\}
\end{align}
が成り立ちます。"\( \le 0 \)" の部分を引いたため、左辺が大きくなるからですね。続きを評価する際、\( \sup \) をとれば、
&\quad \mathrm{Pr}\left\{ Q\left( \hat{\theta} \right) - Q_{n}\left( \hat{\theta} \right) + Q_{n}\left( {\theta}_{0} \right) - Q\left( {\theta}_{0} \right) \ge \delta \right\} \\
&\le \mathrm{Pr} \left\{ 2\sup_{\theta\in\Theta} \left| Q_{n}(\theta) - Q(\theta) \right| \ge \delta \right\} \\
&\longrightarrow 0
\end{align}
↑の "\( \longrightarrow 0 \)" は、仮定 (UC) より従います。
さて、すべては一連の続いている操作であったため、まとめると、
\[ \mathrm{Pr}\left\{ \hat{\theta} \not\in B \left( \theta_{0}, \varepsilon \right) \right\} \longrightarrow 0 \]
が従います。これはとりもなおさず、
\[ \lim_{n\to\infty} \mathrm{Pr}\left\{ \left| \hat{\theta} - \theta_{0} \right| > \varepsilon \right\} = 0\]
であることを言い換えているに過ぎません。すなわち、一致性の定義から、
\[ \hat{\theta} \stackrel{p}{\longrightarrow} \theta_{0} \]
が従うわけです。(証明終)
直感的な理解
一致性の証明は、「デコボコしたサンプルのグラフが、サンプルサイズが増えるにつれて滑らかな真のグラフに重なっていき、その頂点も吸い寄せられるように真の頂点に重なるプロセス」を数学的に記述しているに過ぎません。
まとめ
Extremum Estimator の一致性は、(i) 最小解の唯一性より強い Identifiable Uniqueness と (ii) 各点での関数の収束より強い Uniform Consistency が組み合わさることで初めて保証されます。
実証分析で新しいモデルを扱う際も、「この推定量はちゃんと一様に収束するか?」という視点を持つことで、より深い理解が得られるはずです。
