極値推定量(Extremum Estimator)は、以下の最適化により求まる general なフレームワークでした:
\[ \hat{\theta} = \arg\min_{\theta\in\Theta} Q_{n} (\theta) \]
Extremum Estimator はいくつかの仮定の下、一致性を持ちます。
では、漸近正規性はどうでしょうか?
結論、Extremum Estimator は種々の仮定の下、漸近正規性(asymptotic normality)も持ちます。
ポイント
Extremum Estimator は漸近正規性を持ち、
\[ \sqrt{n}(\hat{\theta} - \theta_{0}) \stackrel{d}{\longrightarrow} N\left( 0, H^{-1}SH^{-1} \right) \]
Extremum Estimator が漸近正規性をもつため、MLE も GMM も漸近正規性をもちます。
上記の漸近分散における \( H \) と \( S \) は、仮定を紹介する中で説明します。
それでは、仮定・証明とともに見ていきましょう!
Contents
定理
それでは、仮定とともに定理を紹介します。
定理(漸近正規性)
以下を仮定する:
- \( \hat{\theta} \stackrel{p}{\longrightarrow} \theta_{0} \)
- \( \theta_{0} \in \mathrm{int} (\Theta) \)
- \( Q_{n} \) が \( \theta_{0} \) の近傍 \( \mathcal{N} \) 上で2回連続微分可能である事象が確率 \( 1 \) に近づく(with probability approaching one, wpa1)。
- 点 \( \theta_{0} \) において連続な、以下を満たす関数 \( H \) がある:\[ \sup_{\theta\in\mathcal{N}} \left\| \frac{\partial^{2}}{\partial\theta \partial\theta^{\prime}} Q_{n}(\theta) - H(\theta) \right\| = o_{p}(1) \]
- \( H \equiv H(\theta_{0}) \) は逆行列をもつ。
- \[ \sqrt{n} \frac{\partial}{\partial \theta} Q_{n}(\theta_{0}) \stackrel{d}{\longrightarrow} N(0,S) \]
このとき、
\[ \sqrt{n}(\hat{\theta} - \theta_{0}) \stackrel{d}{\longrightarrow} N\left( 0, H^{-1}SH^{-1} \right) \]
が成り立つ。
それでは上記の仮定について順に説明していきます。
- 漸近正規性を証明するために、一致性を仮定しておきます。
- 真のパラメーター \( \theta_{0} \) がパラメーター空間 \( \Theta \) の内部にあるという意味です。
すなわち、\( \theta_{0} \) がパラメーター空間 \( \Theta \) の境界にある状況を除外しています。
なお、一致性を示す際、パラメーター空間 \( \Theta \) のコンパクト性を仮定することが多いです。そのため、パラメーター空間 \( \Theta \) は有界かつ閉(境界を含む)です。 - この種の漸近正規性の証明で最も重要な仮定です。2回連続微分可能という箇所が重要です。
つまり、この漸近正規性の議論は、なめらかな \( Q_{n} \) に対してしか成り立ちません。
なお、「\( A_{n} \) という事象が確率1に近づく」とは、\[ \lim_{n\to\infty} \mathrm{Pr}(A_{n}) = 1 \] という意味です。
このことを、英語で "with probability approaching one" といい、wpa1と省略されることが多いです。
ここで、\( A_{n} \) はサンプルサイズ \( n \) に依存します。
なので、日本語で言うと「サンプルサイズを増やせば \( Q_{n} \) が \( \mathcal{N} \) 上で2回連続微分可能になる確率が高まる」という意味です。 - 関数 \( H \) の連続性は、連続写像定理(Continuous Mapping Theorem)を使うために必要です。
また、\[ \sup_{\theta\in\mathcal{N}} \left\| \frac{\partial^{2}}{\partial\theta \partial\theta^{\prime}} Q_{n}(\theta) - H(\theta) \right\| = o_{p}(1) \] は一様収束です。
\( o_{p}(1) \) は、"\( \stackrel{p}{\longrightarrow} 0 \)" と同じです。 - \( H \equiv H(\theta_{0}) \) は、\( H(\theta_{0}) \) を \( H \) と定義するという意味です。
漸近分散が \( H^{-1}SH^{-1} \) となっている通り、\( H \) の逆行列をとる操作があるため、\( H \) が逆行列をもつことを仮定します。 - 仮定6に現れる漸近分散 \( S \) が、\( \sqrt{n}(\hat{\theta}-\theta_{0}) \) の漸近分散 \( H^{-1}SH^{-1} \) にも現れます。
証明で使う補題
漸近正規性の証明には、以下の補題が必要です。
引き続き、\( \theta_{0} \) の近傍を \( \mathcal{N} \) とします。
補題
以下を仮定する:
- \( \hat{\theta} \stackrel{p}{\longrightarrow} \theta_{0} \)
- 関数 \( H_{n} \) は、非確率的 (deterministic) なある関数 \( H \) に対し、\[ \sup_{\theta\in\mathcal{N}} \left\| H_{n}(\theta) - H(\theta) \right\| = o_{p}(1) \] が成り立つ。
- 関数 \( H \) は点 \( \theta_{0} \) において連続である。
このとき、
\[ H_{n}\left(\hat{\theta}\right) \stackrel{p}{\longrightarrow} H\left(\theta_{0}\right) \]
が成り立つ。
関数 \( H \) が連続で、\( \hat{\theta} \stackrel{p}{\longrightarrow} \theta_{0} \) ですから、連続写像定理から結果はすぐに成り立ちそうなものです。
しかし、連続写像定理で成り立つのは \[ H\left(\hat{\theta}\right) \stackrel{p}{\longrightarrow} H\left(\theta_{0}\right) \] であって、\[ H_{n}\left(\hat{\theta}\right) \stackrel{p}{\longrightarrow} H\left(\theta_{0}\right) \] ではありません。
つまり、この補題は、連続写像定理よりも強いことを言っています。
そしてそのために仮定 2. の一様収束の強い仮定がおかれています。
では、この補題について証明をしておきましょう。
補題の証明には、以下の事実を使います。
事実
\[ o_{p}(1) + o_{p}(1) = o_{p}(1) \]
この事実は連続写像定理から直ちに従います。
\( o_{p}(1) \) は、"\( \stackrel{p}{\longrightarrow} 0 \)" という意味なのでした。これを思い出せば、"事実" は直ちに示せます。
\( X_{n} \stackrel{p}{\longrightarrow} 0 \), \( Y_{n} \stackrel{p}{\longrightarrow} 0 \) とします。
すると、連続写像定理から \( X_{n}+Y_{n} \stackrel{p}{\longrightarrow} 0 \) です。
これは \( X_{n}+Y_{n} = o_{p}(1) \) を意味します。すなわち、\( o_{p}(1) + o_{p}(1) = o_{p}(1) \) です。(証明終)
さて、補題に戻ります。念のため、再掲しておきます。
補題(再掲)
以下を仮定する:
- \( \hat{\theta} \stackrel{p}{\longrightarrow} \theta_{0} \)
- 関数 \( H_{n} \) は、非確率的 (deterministic) なある関数 \( H \) に対し、\[ \sup_{\theta\in\mathcal{N}} \left\| H_{n}(\theta) - H(\theta) \right\| = o_{p}(1) \] が成り立つ。
- 関数 \( H \) は点 \( \theta_{0} \) において連続である。
このとき、
\[ H_{n}\left(\hat{\theta}\right) \stackrel{p}{\longrightarrow} H\left(\theta_{0}\right) \]
が成り立つ。
では、仮定 1. - 3. と事実を使って、この補題を証明しましょう。
以下をタップすることで、証明を確認できます。
補題の証明はここをクリック!
\begin{align}
&\ \left\| H_{n}(\hat{\theta}) - H(\theta_{0}) \right\| \\
&= \left\| H_{n}(\hat{\theta}) - H(\hat{\theta}) + H(\hat{\theta}) - H(\theta_{0}) \right\| \\
&\le \left\| H_{n}(\hat{\theta}) - H(\hat{\theta}) \right\| + \left\| H(\hat{\theta}) - H(\theta_{0}) \right\| \ \cdots \text{(A)}
\end{align}上の不等号は三角不等式から成り立ちます。
ここで、仮定 1. より \( \hat{\theta} \stackrel{p}{\longrightarrow} \theta_{0} \) ですから、\( \stackrel{p}{\longrightarrow} \) の定義から \[ \lim_{n\to\infty}\mathrm{Pr}\left( \hat{\theta} \in \mathcal{N} \right) = 1 \] が成り立ちます(\( \mathcal{N} \) は \( \theta_{0} \) の近傍です)。
すなわち、\( \hat{\theta} \in \mathcal{N} \) が wpa1 (with probability approaching one) で成り立ちます(=サンプルサイズを増やせば、高確率で \( \hat{\theta} \) は近傍 \( \mathcal{N} \) に含まれます)。
よって、\[ \left\| H_{n}(\hat{\theta}) - H(\hat{\theta}) \right\| \le \sup_{\theta\in\mathcal{N}} \left\| H_{n}(\theta) - H(\theta) \right\| \ \cdots \text{(B)} \] が wpa1 で成り立ちます。
一方、仮定 3. より \( H \) は \( \theta_{0} \) で連続でしたから、連続写像定理より、\( H(\hat{\theta}) \stackrel{p}{\longrightarrow} H(\theta_{0}) \) すなわち \[ \left\| H(\hat{\theta}) - H(\theta_{0}) \right\| = o_{p}(1) \ \cdots \text{(C)} \] が成り立ちます。
(A),(B),(C) をあわせると、\begin{align}
&\ \left\| H_{n}(\hat{\theta}) - H(\theta_{0}) \right\| \\
&\le \left\| H_{n}(\hat{\theta}) - H(\hat{\theta}) \right\| + \left\| H(\hat{\theta}) - H(\theta_{0}) \right\| \\
&\le \sup_{\theta\in\mathcal{N}} \left\| H_{n}(\theta) - H(\theta) \right\| + o_{p}(1) \\
&= o_{p}(1) + o_{p}(1) \quad \text{(仮定 2. より)} \\
&= o_{p}(1) \quad \text{(上の「事実」より)}
\end{align}が成り立ちます。これはとりもなおさず \[ H_{n}\left(\hat{\theta}\right) \stackrel{p}{\longrightarrow} H\left(\theta_{0}\right) \] です。(証明終)
証明
では、上記の補題を示せたところで、メインの定理を証明します。
定理(漸近正規性・再掲)
以下を仮定する:
- \( \hat{\theta} \stackrel{p}{\longrightarrow} \theta_{0} \)
- \( \theta_{0} \in \mathrm{int} (\Theta) \)
- \( Q_{n} \) が \( \theta_{0} \) の近傍 \( \mathcal{N} \) 上で2回連続微分可能である事象が確率 \( 1 \) に近づく(with probability approaching one, wpa1)。
- 点 \( \theta_{0} \) において連続な、以下を満たす関数 \( H \) がある:\[ \sup_{\theta\in\mathcal{N}} \left\| \frac{\partial^{2}}{\partial\theta \partial\theta^{\prime}} Q_{n}(\theta) - H(\theta) \right\| = o_{p}(1) \]
- \( H \equiv H(\theta_{0}) \) は逆行列をもつ。
- \[ \sqrt{n} \frac{\partial}{\partial \theta} Q_{n}(\theta_{0}) \stackrel{d}{\longrightarrow} N(0,S) \]
このとき、
\[ \sqrt{n}(\hat{\theta} - \theta_{0}) \stackrel{d}{\longrightarrow} N\left( 0, H^{-1}SH^{-1} \right) \]
が成り立つ。
それでは、何ステップかに分けて証明を行います。
Step 1: FOC にテイラー展開
証明の第一ステップは、
1階の条件 (FOC) にテイラー展開(中間値の定理)を適用
することです。
\begin{align}
0 &= \frac{\partial}{\partial\theta} Q_{n}(\hat{\theta}) \\
&= \frac{\partial}{\partial\theta} Q_{n}({\theta}_{0}) + \frac{\partial^{2}}{\partial\theta \partial\theta^{\prime}} Q_{n}\left(\overline{\theta}\right) (\hat{\theta} - \theta_{0})
\end{align}
1つ目の等号は、1階の条件 (FOC) そのものです。
\( \overline{\theta} \) は \( \hat{\theta} \) と \( \theta_{0} \) の間にあるものです。
上の両辺を \( \sqrt{n} \) 倍することで
\[ 0 = \sqrt{n} \frac{\partial}{\partial\theta} Q_{n}({\theta}_{0}) + \frac{\partial^{2}}{\partial\theta \partial\theta^{\prime}} Q_{n}\left(\overline{\theta}\right) \sqrt{n} (\hat{\theta} - \theta_{0}) \quad \cdots \text{(A)} \]
を得ます。
右辺の \( \displaystyle \sqrt{n} \frac{\partial}{\partial\theta} Q_{n}({\theta}_{0}) \) は仮定 6. より "\( N(0,S) \) " に分布収束するのでした。
\( \overline{\theta} \) は \( \hat{\theta} \) と \( \theta_{0} \) の間にあり、かつ仮定 1. より \( \hat{\theta} \stackrel{p}{\longrightarrow} \theta_{0} \) でした。
よって、 \( \hat{\theta} \) と \( \theta_{0} \) の間にある \( \overline{\theta} \) も、当然 \( \theta_{0} \) に確率収束します。
なので、\( \overline{\theta} \in \mathcal{N} \) が wpa1 で成り立ちます。
Step 2: 2階微分を評価
ここで補題を用います。
\[ H_{n}(\theta) = \frac{\partial^{2}}{\partial\theta \partial\theta^{\prime}} Q_{n}(\theta) \]とすれば、補題の仮定 2. が成り立つので、補題により \[ \frac{\partial^{2}}{\partial\theta \partial\theta^{\prime}} Q_{n}(\overline{\theta}) \stackrel{p}{\longrightarrow} H(\theta_{0}) \] が従います。これを言い換えると、\[ \frac{\partial^{2}}{\partial\theta \partial\theta^{\prime}} Q_{n}(\overline{\theta}) = H(\theta_{0}) + o_{p}(1) \quad \cdots \text{(B)} \] です。
Step 3: うまいこと移項する
(A), (B) を組み合わせると \[ 0 = \sqrt{n} \frac{\partial}{\partial\theta} Q_{n}({\theta}_{0}) + \left[ H(\theta_{0}) + o_{p}(1) \right] \sqrt{n} (\hat{\theta} - \theta_{0}) \] となります。これを移項すると、\[ \sqrt{n} (\hat{\theta} - \theta_{0}) = - \left[ H(\theta_{0}) + o_{p}(1) \right]^{-1} \sqrt{n} \frac{\partial}{\partial\theta} Q_{n}({\theta}_{0}) \quad \cdots \text{(C)} \] を得ます。ここで、\[ \left[ H(\theta_{0}) + o_{p}(1) \right]^{-1} = H(\theta_{0})^{-1} + o_{p}(1) \]という事実を使います。仮定 5. より、\( H = H(\theta_{0}) \) は逆行列をもつのでしたから、上記のように逆行列をとれることがわかります。
なお、上記の事実の証明はこちらをクリックして開いてください。
\( A_{n} = H(\theta_{0}) + o_{p}(1) \) とおきます。すると定義より \[ A_{n} = H(\theta_{0}) + o_{p}(1) \stackrel{p}{\longrightarrow} H(\theta_{0}) = H \] より、\[ A_{n}^{-1} \stackrel{p}{\longrightarrow} H^{-1} \] となるので、\[ A_{n}^{-1} = \left[ H(\theta_{0}) + o_{p}(1) \right]^{-1} = H^{-1} + o_{p}(1) \] です。
よって、(C) は次のように書けます:\[ \sqrt{n} (\hat{\theta} - \theta_{0}) = - \underbrace{ \left[ H^{-1} + o_{p}(1) \right] }_{ \equiv A } \underbrace{ \sqrt{n} \frac{\partial}{\partial\theta} Q_{n}({\theta}_{0}) }_{ \equiv B } \]
Step 4: \( \stackrel{p}{\longrightarrow} \) と \( \stackrel{d}{\longrightarrow} \) を組み合わせる
連続写像定理および仮定 6. より、以下が成り立ちます。
- \( A = H^{-1} + o_{p}(1) \stackrel{p}{\longrightarrow} H^{-1} \)
- \( B \stackrel{d}{\longrightarrow} N(0,S) \)
スルツキーの定理より、\( \stackrel{p}{\longrightarrow} \) と \( \stackrel{d}{\longrightarrow} \) は組み合わせて \( \stackrel{d}{\longrightarrow} \) になるのでした。
\[ AB \stackrel{d}{\longrightarrow} H^{-1} \ N(0,S) \]
よって、
\begin{align}
-AB \stackrel{d}{\longrightarrow} -H^{-1} \ N(0,S) = N \left( 0,H^{-1} S H^{-1} \right)
\end{align}
となります。したがって、
\[ \sqrt{n}(\hat{\theta} - \theta_{0}) \stackrel{d}{\longrightarrow} N\left( 0, H^{-1}SH^{-1} \right) \]
が証明されました。(証明終)
まとめ
それでは、Extremum Estimator の漸近正規性についてまとめておきます。
まとめ
- Extremum Estimator は漸近正規性 (Asymptotic Normality) をもつ。
- よって、GMM や MLE も漸近正規性をもつ。
- 漸近正規性のためには、目的関数 \( Q_{n} \) がなめらか(2回連続微分可能)でなければならない。
- 漸近分布は \[ \sqrt{n}(\hat{\theta} - \theta_{0}) \stackrel{d}{\longrightarrow} N\left( 0, H^{-1}SH^{-1} \right) \] である。
- 上記の漸近分散の \( H \) は Hessian (2階微分) に、\( S \) は1階微分の分散に由来する。