【コア計量】Extremum Estimator の漸近正規性

極値推定量（Extremum Estimator）は、以下の最適化により求まる general なフレームワークでした：

\[ \hat{\theta} = \arg\min_{\theta\in\Theta} Q_{n} (\theta) \]

Extremum Estimator はいくつかの仮定の下、一致性を持ちます。

では、漸近正規性はどうでしょうか？

結論、Extremum Estimator は種々の仮定の下、漸近正規性（asymptotic normality）も持ちます。

ポイント

Extremum Estimator は漸近正規性を持ち、

\[ \sqrt{n}(\hat{\theta} - \theta_{0}) \stackrel{d}{\longrightarrow} N\left( 0, H^{-1}SH^{-1} \right) \]

Extremum Estimator が漸近正規性をもつため、MLE も GMM も漸近正規性をもちます。

上記の漸近分散における \( H \) と \( S \) は、仮定を紹介する中で説明します。

それでは、仮定・証明とともに見ていきましょう！

Contents

1 定理
2 証明で使う補題
3 証明
4 まとめ

定理

それでは、仮定とともに定理を紹介します。

定理（漸近正規性）

以下を仮定する：

\( \hat{\theta} \stackrel{p}{\longrightarrow} \theta_{0} \)
\( \theta_{0} \in \mathrm{int} (\Theta) \)
\( Q_{n} \) が \( \theta_{0} \) の近傍 \( \mathcal{N} \) 上で２回連続微分可能である事象が確率 \( 1 \) に近づく（with probability approaching one, wpa1）。
点 \( \theta_{0} \) において連続な、以下を満たす関数 \( H \) がある：\[ \sup_{\theta\in\mathcal{N}} \left\| \frac{\partial^{2}}{\partial\theta \partial\theta^{\prime}} Q_{n}(\theta) - H(\theta) \right\| = o_{p}(1) \]
\( H \equiv H(\theta_{0}) \) は逆行列をもつ。
\[ \sqrt{n} \frac{\partial}{\partial \theta} Q_{n}(\theta_{0}) \stackrel{d}{\longrightarrow} N(0,S) \]

このとき、

\[ \sqrt{n}(\hat{\theta} - \theta_{0}) \stackrel{d}{\longrightarrow} N\left( 0, H^{-1}SH^{-1} \right) \]

が成り立つ。

それでは上記の仮定について順に説明していきます。

漸近正規性を証明するために、一致性を仮定しておきます。
真のパラメーター \( \theta_{0} \) がパラメーター空間 \( \Theta \) の内部にあるという意味です。
すなわち、\( \theta_{0} \) がパラメーター空間 \( \Theta \) の境界にある状況を除外しています。
なお、一致性を示す際、パラメーター空間 \( \Theta \) のコンパクト性を仮定することが多いです。そのため、パラメーター空間 \( \Theta \) は有界かつ閉（境界を含む）です。
この種の漸近正規性の証明で最も重要な仮定です。２回連続微分可能という箇所が重要です。
つまり、この漸近正規性の議論は、なめらかな \( Q_{n} \) に対してしか成り立ちません。
なお、「\( A_{n} \) という事象が確率１に近づく」とは、\[ \lim_{n\to\infty} \mathrm{Pr}(A_{n}) = 1 \] という意味です。
このことを、英語で "with probability approaching one" といい、wpa1と省略されることが多いです。
ここで、\( A_{n} \) はサンプルサイズ \( n \) に依存します。
なので、日本語で言うと「サンプルサイズを増やせば \( Q_{n} \) が \( \mathcal{N} \) 上で２回連続微分可能になる確率が高まる」という意味です。
関数 \( H \) の連続性は、連続写像定理（Continuous Mapping Theorem）を使うために必要です。
また、\[ \sup_{\theta\in\mathcal{N}} \left\| \frac{\partial^{2}}{\partial\theta \partial\theta^{\prime}} Q_{n}(\theta) - H(\theta) \right\| = o_{p}(1) \] は一様収束です。
\( o_{p}(1) \) は、"\( \stackrel{p}{\longrightarrow} 0 \)" と同じです。
\( H \equiv H(\theta_{0}) \) は、\( H(\theta_{0}) \) を \( H \) と定義するという意味です。
漸近分散が \( H^{-1}SH^{-1} \) となっている通り、\( H \) の逆行列をとる操作があるため、\( H \) が逆行列をもつことを仮定します。
仮定6に現れる漸近分散 \( S \) が、\( \sqrt{n}(\hat{\theta}-\theta_{0}) \) の漸近分散 \( H^{-1}SH^{-1} \) にも現れます。

証明で使う補題

漸近正規性の証明には、以下の補題が必要です。

引き続き、\( \theta_{0} \) の近傍を \( \mathcal{N} \) とします。

補題

以下を仮定する：

\( \hat{\theta} \stackrel{p}{\longrightarrow} \theta_{0} \)
関数 \( H_{n} \) は、非確率的 (deterministic) なある関数 \( H \) に対し、\[ \sup_{\theta\in\mathcal{N}} \left\| H_{n}(\theta) - H(\theta) \right\| = o_{p}(1) \] が成り立つ。
関数 \( H \) は点 \( \theta_{0} \) において連続である。

このとき、

\[ H_{n}\left(\hat{\theta}\right) \stackrel{p}{\longrightarrow} H\left(\theta_{0}\right) \]

が成り立つ。

関数 \( H \) が連続で、\( \hat{\theta} \stackrel{p}{\longrightarrow} \theta_{0} \) ですから、連続写像定理から結果はすぐに成り立ちそうなものです。

しかし、連続写像定理で成り立つのは \[ H\left(\hat{\theta}\right) \stackrel{p}{\longrightarrow} H\left(\theta_{0}\right) \] であって、\[ H_{n}\left(\hat{\theta}\right) \stackrel{p}{\longrightarrow} H\left(\theta_{0}\right) \] ではありません。

つまり、この補題は、連続写像定理よりも強いことを言っています。
そしてそのために仮定 2. の一様収束の強い仮定がおかれています。

では、この補題について証明をしておきましょう。

補題の証明には、以下の事実を使います。

事実

\[ o_{p}(1) + o_{p}(1) = o_{p}(1) \]

この事実は連続写像定理から直ちに従います。

\( o_{p}(1) \) は、"\( \stackrel{p}{\longrightarrow} 0 \)" という意味なのでした。これを思い出せば、"事実" は直ちに示せます。

\( X_{n} \stackrel{p}{\longrightarrow} 0 \), \( Y_{n} \stackrel{p}{\longrightarrow} 0 \) とします。
すると、連続写像定理から \( X_{n}+Y_{n} \stackrel{p}{\longrightarrow} 0 \) です。
これは \( X_{n}+Y_{n} = o_{p}(1) \) を意味します。すなわち、\( o_{p}(1) + o_{p}(1) = o_{p}(1) \) です。（証明終）

さて、補題に戻ります。念のため、再掲しておきます。

補題（再掲）

以下を仮定する：

\( \hat{\theta} \stackrel{p}{\longrightarrow} \theta_{0} \)
関数 \( H_{n} \) は、非確率的 (deterministic) なある関数 \( H \) に対し、\[ \sup_{\theta\in\mathcal{N}} \left\| H_{n}(\theta) - H(\theta) \right\| = o_{p}(1) \] が成り立つ。
関数 \( H \) は点 \( \theta_{0} \) において連続である。

このとき、

\[ H_{n}\left(\hat{\theta}\right) \stackrel{p}{\longrightarrow} H\left(\theta_{0}\right) \]

が成り立つ。

では、仮定 1. - 3. と事実を使って、この補題を証明しましょう。

以下をタップすることで、証明を確認できます。

補題の証明はここをクリック！

\begin{align}
&\ \left\| H_{n}(\hat{\theta}) - H(\theta_{0}) \right\| \\
&= \left\| H_{n}(\hat{\theta}) - H(\hat{\theta}) + H(\hat{\theta}) - H(\theta_{0}) \right\| \\
&\le \left\| H_{n}(\hat{\theta}) - H(\hat{\theta}) \right\| + \left\| H(\hat{\theta}) - H(\theta_{0}) \right\| \ \cdots \text{(A)}
\end{align}上の不等号は三角不等式から成り立ちます。
ここで、仮定 1. より \( \hat{\theta} \stackrel{p}{\longrightarrow} \theta_{0} \) ですから、\( \stackrel{p}{\longrightarrow} \) の定義から \[ \lim_{n\to\infty}\mathrm{Pr}\left( \hat{\theta} \in \mathcal{N} \right) = 1 \] が成り立ちます（\( \mathcal{N} \) は \( \theta_{0} \) の近傍です）。
すなわち、\( \hat{\theta} \in \mathcal{N} \) が wpa1 (with probability approaching one) で成り立ちます（＝サンプルサイズを増やせば、高確率で \( \hat{\theta} \) は近傍 \( \mathcal{N} \) に含まれます）。
よって、\[ \left\| H_{n}(\hat{\theta}) - H(\hat{\theta}) \right\| \le \sup_{\theta\in\mathcal{N}} \left\| H_{n}(\theta) - H(\theta) \right\| \ \cdots \text{(B)} \] が wpa1 で成り立ちます。
一方、仮定 3. より \( H \) は \( \theta_{0} \) で連続でしたから、連続写像定理より、\( H(\hat{\theta}) \stackrel{p}{\longrightarrow} H(\theta_{0}) \) すなわち \[ \left\| H(\hat{\theta}) - H(\theta_{0}) \right\| = o_{p}(1) \ \cdots \text{(C)} \] が成り立ちます。
(A),(B),(C) をあわせると、\begin{align}
&\ \left\| H_{n}(\hat{\theta}) - H(\theta_{0}) \right\| \\
&\le \left\| H_{n}(\hat{\theta}) - H(\hat{\theta}) \right\| + \left\| H(\hat{\theta}) - H(\theta_{0}) \right\| \\
&\le \sup_{\theta\in\mathcal{N}} \left\| H_{n}(\theta) - H(\theta) \right\| + o_{p}(1) \\
&= o_{p}(1) + o_{p}(1) \quad \text{(仮定 2. より)} \\
&= o_{p}(1) \quad \text{(上の「事実」より)}
\end{align}が成り立ちます。これはとりもなおさず \[ H_{n}\left(\hat{\theta}\right) \stackrel{p}{\longrightarrow} H\left(\theta_{0}\right)　\] です。（証明終）

証明

では、上記の補題を示せたところで、メインの定理を証明します。

定理（漸近正規性・再掲）

以下を仮定する：

\( \hat{\theta} \stackrel{p}{\longrightarrow} \theta_{0} \)
\( \theta_{0} \in \mathrm{int} (\Theta) \)
\( Q_{n} \) が \( \theta_{0} \) の近傍 \( \mathcal{N} \) 上で２回連続微分可能である事象が確率 \( 1 \) に近づく（with probability approaching one, wpa1）。
点 \( \theta_{0} \) において連続な、以下を満たす関数 \( H \) がある：\[ \sup_{\theta\in\mathcal{N}} \left\| \frac{\partial^{2}}{\partial\theta \partial\theta^{\prime}} Q_{n}(\theta) - H(\theta) \right\| = o_{p}(1) \]
\( H \equiv H(\theta_{0}) \) は逆行列をもつ。
\[ \sqrt{n} \frac{\partial}{\partial \theta} Q_{n}(\theta_{0}) \stackrel{d}{\longrightarrow} N(0,S) \]

このとき、

\[ \sqrt{n}(\hat{\theta} - \theta_{0}) \stackrel{d}{\longrightarrow} N\left( 0, H^{-1}SH^{-1} \right) \]

が成り立つ。

それでは、何ステップかに分けて証明を行います。

Step 1: FOC にテイラー展開

証明の第一ステップは、

１階の条件 (FOC) にテイラー展開（中間値の定理）を適用

することです。

\begin{align}
0 &= \frac{\partial}{\partial\theta} Q_{n}(\hat{\theta}) \\
&= \frac{\partial}{\partial\theta} Q_{n}({\theta}_{0}) + \frac{\partial^{2}}{\partial\theta \partial\theta^{\prime}} Q_{n}\left(\overline{\theta}\right) (\hat{\theta} - \theta_{0})
\end{align}

１つ目の等号は、１階の条件 (FOC) そのものです。

\( \overline{\theta} \) は \( \hat{\theta} \) と \( \theta_{0} \) の間にあるものです。

上の両辺を \( \sqrt{n} \) 倍することで

\[ 0 = \sqrt{n} \frac{\partial}{\partial\theta} Q_{n}({\theta}_{0}) + \frac{\partial^{2}}{\partial\theta \partial\theta^{\prime}} Q_{n}\left(\overline{\theta}\right) \sqrt{n} (\hat{\theta} - \theta_{0}) \quad \cdots \text{(A)} \]

を得ます。

右辺の \( \displaystyle \sqrt{n} \frac{\partial}{\partial\theta} Q_{n}({\theta}_{0}) \) は仮定 6. より "\( N(0,S) \) " に分布収束するのでした。

\( \overline{\theta} \) は \( \hat{\theta} \) と \( \theta_{0} \) の間にあり、かつ仮定 1. より \( \hat{\theta} \stackrel{p}{\longrightarrow} \theta_{0} \) でした。
よって、 \( \hat{\theta} \) と \( \theta_{0} \) の間にある \( \overline{\theta} \) も、当然 \( \theta_{0} \) に確率収束します。
なので、\( \overline{\theta} \in \mathcal{N} \) が wpa1 で成り立ちます。

Step 2: 2階微分を評価

ここで補題を用います。
\[ H_{n}(\theta) = \frac{\partial^{2}}{\partial\theta \partial\theta^{\prime}} Q_{n}(\theta) \]とすれば、補題の仮定 2. が成り立つので、補題により \[ \frac{\partial^{2}}{\partial\theta \partial\theta^{\prime}} Q_{n}(\overline{\theta}) \stackrel{p}{\longrightarrow} H(\theta_{0}) \] が従います。これを言い換えると、\[ \frac{\partial^{2}}{\partial\theta \partial\theta^{\prime}} Q_{n}(\overline{\theta}) = H(\theta_{0}) + o_{p}(1) \quad \cdots \text{(B)} \] です。

Step 3: うまいこと移項する

(A), (B) を組み合わせると \[ 0 = \sqrt{n} \frac{\partial}{\partial\theta} Q_{n}({\theta}_{0}) + \left[ H(\theta_{0}) + o_{p}(1) \right] \sqrt{n} (\hat{\theta} - \theta_{0}) \] となります。これを移項すると、\[ \sqrt{n} (\hat{\theta} - \theta_{0}) = - \left[ H(\theta_{0}) + o_{p}(1) \right]^{-1} \sqrt{n} \frac{\partial}{\partial\theta} Q_{n}({\theta}_{0}) \quad \cdots \text{(C)} \] を得ます。ここで、\[ \left[ H(\theta_{0}) + o_{p}(1) \right]^{-1} = H(\theta_{0})^{-1} + o_{p}(1) \]という事実を使います。仮定 5. より、\( H = H(\theta_{0}) \) は逆行列をもつのでしたから、上記のように逆行列をとれることがわかります。

なお、上記の事実の証明はこちらをクリックして開いてください。

\( A_{n} = H(\theta_{0}) + o_{p}(1) \) とおきます。すると定義より \[ A_{n} = H(\theta_{0}) + o_{p}(1) \stackrel{p}{\longrightarrow} H(\theta_{0}) = H \] より、\[ A_{n}^{-1} \stackrel{p}{\longrightarrow} H^{-1} \] となるので、\[ A_{n}^{-1} = \left[ H(\theta_{0}) + o_{p}(1) \right]^{-1} = H^{-1} + o_{p}(1) \] です。

よって、(C) は次のように書けます：\[ \sqrt{n} (\hat{\theta} - \theta_{0}) = - \underbrace{ \left[ H^{-1} + o_{p}(1) \right] }_{ \equiv A } \underbrace{ \sqrt{n} \frac{\partial}{\partial\theta} Q_{n}({\theta}_{0}) }_{ \equiv B } \]

Step 4: \( \stackrel{p}{\longrightarrow} \) と \( \stackrel{d}{\longrightarrow} \) を組み合わせる

連続写像定理および仮定 6. より、以下が成り立ちます。

\( A = H^{-1} + o_{p}(1) \stackrel{p}{\longrightarrow} H^{-1} \)
\( B \stackrel{d}{\longrightarrow} N(0,S) \)

スルツキーの定理より、\( \stackrel{p}{\longrightarrow} \) と \( \stackrel{d}{\longrightarrow} \) は組み合わせて \( \stackrel{d}{\longrightarrow} \) になるのでした。

\[ AB \stackrel{d}{\longrightarrow} H^{-1} \ N(0,S) \]

よって、

\begin{align}
-AB \stackrel{d}{\longrightarrow} -H^{-1} \ N(0,S) = N \left( 0,H^{-1} S H^{-1} \right)
\end{align}

となります。したがって、

\[ \sqrt{n}(\hat{\theta} - \theta_{0}) \stackrel{d}{\longrightarrow} N\left( 0, H^{-1}SH^{-1} \right) \]

が証明されました。（証明終）

まとめ

それでは、Extremum Estimator の漸近正規性についてまとめておきます。

まとめ

Extremum Estimator は漸近正規性 (Asymptotic Normality) をもつ。
よって、GMM や MLE も漸近正規性をもつ。
漸近正規性のためには、目的関数 \( Q_{n} \) がなめらか（２回連続微分可能）でなければならない。
漸近分布は \[ \sqrt{n}(\hat{\theta} - \theta_{0}) \stackrel{d}{\longrightarrow} N\left( 0, H^{-1}SH^{-1} \right) \] である。
上記の漸近分散の \( H \) は Hessian (２階微分) に、\( S \) は１階微分の分散に由来する。