【上級】経験過程理論でひも解く「なめらかでない」 M 推定量の漸近正規性とその条件

本記事では、目的関数が微分可能でない（なめらかでない）ケースにおける M 推定量の漸近正規性を導出する方法を詳しく解説します。

標準的なテイラー展開が使えない状況において、鍵となるのは経験過程（Empirical Process）理論に基づく確率的同程度連続性（Stochastic Equicontinuity）の概念です。

分位点回帰 (LAD 推定量) をはじめとする M 推定量に対して、漸近的な正規性を保証するのか、その数学的なステップを丁寧にひも解いていきます。

Contents

1 M 推定量とは
2 経験過程
- 2.1 Stochastic Equicontinuity（確率的同程度連続性）
3 定理
- 3.1 証明
4 まとめ

M 推定量とは

\( M \) 推定量とは、Extremum Estimator の一種であり、母集団とサンプルの目的関数 \( Q \), \( Q_{n} \) がそれぞれ

\[ Q (\theta) = E \left[ a \left( w, \theta \right) \right] \]

\[ Q_{n} (\theta) = \frac{1}{n} \sum_{i=1}^{n} a \left( w_{i}, \theta \right) \]

を満たす推定量のことです。

OLS や MLE、NLLS（非線形最小二乗法）、さらには分位点回帰 (LAD 推定量) もこの M 推定量の一種です。

この記事では目的関数 \( Q_{n} \) がなめらかでなく微分不可能であるため、通常の M 推定量の漸近正規性の議論を使えないケースを考えます。とくに、分位点回帰 (LAD 推定量) を念頭に置いています。

真のパラメーター \( \theta_{0} \) は \( Q (\theta) \) を最小化しますが、とくに

\[ Q (\theta) = 0 \quad \text{iff} \quad \theta = \theta_{0} \]

を満たすものとします。

M 推定量 \( \hat{\theta} \) は \( Q_{n} (\theta) \) を最小化するため、\( Q_{n} (\hat{\theta}) = 0 \) としたいところですが、ここでは誤差を少しだけ許し、

\[ \sqrt{n} Q_{n} (\hat{\theta}) = o_{p} (1) \]

とします。上の式の意味は、

「\( Q_{n} (\hat{\theta}) \) は厳密に \( 0 \) ではないけれど、サンプルサイズを増やせば、 \( \sqrt{n} \) が無限大にいくよりは速くゼロに確率収束する」

という意味です。そのため、\( Q_{n} (\hat{\theta}) = 0 \) よりゆるい条件となっています。

したがって、M 推定量は以下の２つを満たすものとします。

M 推定量の定義

\( Q \left( \theta_{0} \right) = E \left[ a \left( w, \theta_{0} \right) \right] = 0 \)
\( \sqrt{n} Q_{n} (\hat{\theta}) = o_{p} (1) \)

これら２つを「M 推定量の定義」としておきます。

経験過程

目的関数 \( Q_{n} \) が微分可能でない場合に漸近正規性を示すために、経験過程 (Empirical Process) と呼ばれる統計学のツールを使います。

この記事では、Andrews (1994, Handbook of Econometrics) にしたがって、経験過程の考え方を使いつつ漸近分布を導出します。

以下で定義する \( v_{n} \) を経験過程 (empirical process) といいます：

\[ v_{n} (\theta) = \frac{1}{\sqrt{n}} \sum_{i=1}^{n} \left\{ a \left( w_{i}, \theta \right) - E \left[ a \left( w, \theta \right) \right] \right\} \]

Stochastic Equicontinuity（確率的同程度連続性）

この \( v_{n} \) に対し、ある種の連続性を課します。ここで使う概念が、確率的同程度連続性 (stochastic equicontinuity) と呼ばれるものです。

定義（確率的同程度連続性）

経験過程 \( \{ v_{n} (\theta) \} \) が以下を満たすとき、確率的同程度連続性 (stochastic equicontinuity) をもつという。

\[ \forall \varepsilon >0 \quad \forall \eta >0 \quad \exists \delta > 0 \]

\[ \limsup_{n \to \infty} \mathrm{Pr} \left\{ \sup_{ \| \theta^{\prime} - \theta \| < \delta } \left\| v_{n} (\theta^{\prime}) - v_{n} (\theta) \right\| < \eta \right\} < \varepsilon \]

この確率的同程度連続性の下では、連続写像定理のようなものが成り立ちます。それを保証するのが次の補題です。

補題

以下を仮定する。

\( \hat{\theta} \stackrel{p}{\longrightarrow} \theta_{0} \)
\( v_{n}(\theta) \) は確率的同程度連続性をもつ。

このとき、

\[ v_{n} \left( \hat{\theta} \right) - v_{n} (\theta_{0}) \stackrel{p}{\longrightarrow} 0 \]

が成り立つ。

それでは、この補題を証明しましょう。

補題の証明

任意に \( \varepsilon >0 \), \( \eta >0 \) をとり固定する。

\[ \mathrm{Pr} \left\{ \left\| v_{n} \left( \hat{\theta} \right) - v_{n} (\theta_{0}) \right\| > \eta \right\} \] を示せば良い。ある \( \delta > 0 \) に対し、

\begin{align}
&\ \mathrm{Pr} \left\{ \left\| v_{n} \left( \hat{\theta} \right) - v_{n} (\theta_{0}) \right\| > \eta \right\} \\
&= \mathrm{Pr} \left\{ \left\| \hat{\theta} - \theta_{0} \right\| > \delta, \ \left\| v_{n} \left( \hat{\theta} \right) - v_{n} (\theta_{0}) \right\| > \eta \right\} + \mathrm{Pr} \left\{ \left\| \hat{\theta} - \theta_{0} \right\| < \delta, \ \left\| v_{n} \left( \hat{\theta} \right) - v_{n} (\theta_{0}) \right\| > \eta \right\} \\
&\le \mathrm{Pr} \left\{ \left\| \hat{\theta} - \theta_{0} \right\| > \delta \right\} + \mathrm{Pr} \left\{ \left\| \hat{\theta} - \theta_{0} \right\| < \delta, \ \left\| v_{n} \left( \hat{\theta} \right) - v_{n} (\theta_{0}) \right\| > \eta \right\} \\
&\le \mathrm{Pr} \left\{ \left\| \hat{\theta} - \theta_{0} \right\| > \delta \right\} + \mathrm{Pr} \left\{ \sup_{ \left\| {\theta} - \theta_{0} \right\| < \delta } \left\| v_{n} \left( {\theta} \right) - v_{n} (\theta_{0}) \right\| > \eta \right\}
\end{align}

が成り立つ。ここで、仮定 1. （一致性）より

\[ \lim_{n \to \infty} \mathrm{Pr} \left\{ \left\| \hat{\theta} - \theta_{0} \right\| > \delta \right\} = 0 \]

となるし、仮定 2.（確率的同程度連続性）より

\[ \limsup_{n \to \infty} \mathrm{Pr} \left\{ \sup_{ \left\| {\theta} - \theta_{0} \right\| < \delta } \left\| v_{n} \left( {\theta} \right) - v_{n} (\theta_{0}) \right\| > \eta \right\} < \varepsilon \]

となる。よって、

\begin{align}
&\ \lim_{n \to \infty} \mathrm{Pr} \left\{ \left\| v_{n} \left( \hat{\theta} \right) - v_{n} (\theta_{0}) \right\| > \eta \right\} \\
&= \limsup_{n \to \infty} \mathrm{Pr} \left\{ \left\| v_{n} \left( \hat{\theta} \right) - v_{n} (\theta_{0}) \right\| > \eta \right\} \\
&\le \limsup_{n \to \infty} \mathrm{Pr} \left\{ \left\| \hat{\theta} - \theta_{0} \right\| > \delta \right\} + \limsup_{n \to \infty} \mathrm{Pr} \left\{ \sup_{ \left\| {\theta} - \theta_{0} \right\| < \delta } \left\| v_{n} \left( {\theta} \right) - v_{n} (\theta_{0}) \right\| > \eta \right\} \\
&= \lim_{n \to \infty} \mathrm{Pr} \left\{ \left\| \hat{\theta} - \theta_{0} \right\| > \delta \right\} + \limsup_{n \to \infty} \mathrm{Pr} \left\{ \sup_{ \left\| {\theta} - \theta_{0} \right\| < \delta } \left\| v_{n} \left( {\theta} \right) - v_{n} (\theta_{0}) \right\| > \eta \right\} \\
&< 0 + \varepsilon
\end{align}

となる。これが任意の \( \varepsilon > 0 \) で成り立たないといけないから、最左辺の極限は \( 0 \) でなければならない。
よって、\( v_{n} \left( \hat{\theta} \right) - v_{n} (\theta_{0}) \stackrel{p}{\longrightarrow} 0 \) は示された。（証明終）

少し長くなりましたが、そこまで難しい証明ではありません。

補題をもう一度おさらいすると、

確率的同程度連続性 (stochastic equicontinuity) があれば、連続写像定理が成り立つ！

というのが補題のメインメッセージでした。

定理

それではいよいよ漸近正規性を示すステップに進みましょう。

定理

以下を仮定する。

\( \hat{\theta} \stackrel{p}{\longrightarrow} \theta_{0} \)
\( S \equiv E \left[ a \left( w, \theta_{0} \right) a \left( w, \theta_{0} \right)^{\prime} \right] < \infty \)
\( \{ w_{i} \} \) は i.i.d.
\( Q (\theta) \) は \( \theta_{0} \) で微分可能であり、フルランクなヤコビアン \( D \) をもつ。
\( v_{n} (\theta) \) は \( \theta_{0} \) の近傍 \( \mathcal{N} \) 上で確率的同程度連続性をもつ。

このとき、

\[ \sqrt{n} \left( \hat{\theta} - \theta_{0} \right) \stackrel{d}{\longrightarrow} N \left( 0, D^{-1} S \left( D^{-1} \right)^{\prime} \right) \]

となる。

証明

それでは定理の証明をしましょう。いくつかのステップに分けて証明します。

Step 1: 定義を使う

まず、M 推定量の定義から、

\[ \sqrt{n} Q_{n} \left( \hat{\theta} \right) = o_{p} (1) \]

が成り立ちます。これを変形すると

\[ \sqrt{n} Q \left( \hat{\theta} \right) + \sqrt{n} \left[ Q_{n} \left( \hat{\theta} \right) - Q \left( \hat{\theta} \right) \right] = o_{p} (1) \]

となります。ここで \( v_{n} \) の定義より

\[ \sqrt{n} Q \left( \hat{\theta} \right) + v_{n} \left( \hat{\theta} \right) = o_{p} (1) \]

と整理できます。

この部分は定義から従います。定義を確認したい方はこちらをクリックしてください。

\begin{align}
Q_{n} \left( \hat{\theta} \right)
&= \frac{1}{n} \sum_{i=1}^{n} a \left( w_{i}, \hat{\theta} \right) \\
Q \left( \hat{\theta} \right)
&= E \left[ a \left( w_{i}, \hat{\theta} \right) \right] \\
v_{n} \left( \hat{\theta} \right)
&= \frac{1}{\sqrt{n}} \sum_{i=1}^{n} \left\{ a \left( w_{i}, \hat{\theta} \right) - E \left[ a \left( w, \hat{\theta} \right) \right] \right\}
\end{align}

という定義でしたから、\[ v_{n} \left( \hat{\theta} \right) = \sqrt{n} \left[ Q_{n} \left( \hat{\theta} \right) - Q \left( \hat{\theta} \right) \right] \] が成り立ちます。

Step 2: テイラー展開

先ほどの式の \( \sqrt{n} Q \left( \hat{\theta} \right) \) をテイラー展開します。仮定 4. よりテイラー展開が可能です。

\[ \sqrt{n} \underbrace{ Q \left( \theta_{0} \right) }_{ = 0 } + D \sqrt{n} \left( \hat{\theta} - \theta_{0} \right) + o \left( \left\| \sqrt{n} \left( \hat{\theta} - \theta_{0} \right) \right\| \right) + v_{n} \left( \hat{\theta} \right) = o_{p} (1) \]

ただし M 推定量の定義から \( Q \left( \theta_{0} \right) = 0 \) でしたから、

\[ D \sqrt{n} \left( \hat{\theta} - \theta_{0} \right) + o \left( \left\| \sqrt{n} \left( \hat{\theta} - \theta_{0} \right) \right\| \right) + v_{n} \left( \hat{\theta} \right) = o_{p} (1) \]

となります。項を並び替えて、同じものを足して引く (add-and-subtract strategy) から

\[ v_{n} \left( \theta_{0} \right) + \underbrace{ v_{n} \left( \hat{\theta} \right) - v_{n} \left( \theta_{0} \right) }_{ = o_{p} (1) } + D \sqrt{n} \left( \hat{\theta} - \theta_{0} \right) + o \left( \left\| \sqrt{n} \left( \hat{\theta} - \theta_{0} \right) \right\| \right) = o_{p} (1) \]

となります。仮定 1. と 5. より、上記の補題を用いると、\( v_{n} \left( \hat{\theta} \right) - v_{n} \left( \theta_{0} \right) = o_{p}(1) \) です。よって、

\[ v_{n} \left( \theta_{0} \right) + D \sqrt{n} \left( \hat{\theta} - \theta_{0} \right) + o \left( \left\| \sqrt{n} \left( \hat{\theta} - \theta_{0} \right) \right\| \right) = o_{p} (1) \]

を得ます。

Step 3: オーダーの計算

ここでは一旦省略しますが、こまごまとしたオーダーの計算をまとめることにより、実は

\[ v_{n} \left( \theta_{0} \right) + D \sqrt{n} \left( \hat{\theta} - \theta_{0} \right) = o_{p} (1) \quad \cdots \text{(A)} \]

ということがわかります。

この点が気になる方は、次の一行を開いてチェックしてください。

オーダーの計算の詳細は、こちらをクリック

Step 2 の最後の式より、

\[ \sqrt{n} \left( \hat{\theta} - \theta_{0} \right) = - D^{-1} v_{n} \left( \theta_{0} \right) - o \left( \left\| \sqrt{n} \left( \hat{\theta} - \theta_{0} \right) \right\| \right) + o_{p} (1) \]

となります。
なお、\( v_{n} \left( \theta_{0} \right) \) は Step 4 のとおり CLT を使えますから、正規分布に分布収束します。分布収束する確率変数は \( O_{p} (1) \) （ビッグ・オー・ピー・ワン）ですから、\[ v_{n} \left( \theta_{0} \right) = O_{p} (1) \] です。\( D \) は有限ですから \[ D^{-1} v_{n} \left( \theta_{0} \right) = O_{p} (1) \] も成り立ちます。よって、
\begin{align}
\sqrt{n} \left( \hat{\theta} - \theta_{0} \right)
&= - \frac{ O_{p} (1) }{ 1 + o(1) } + o_{p} (1) \\
&= O_{p} (1) + o_{p} (1) \\
&= O_{p} (1)
\end{align}
なお、オーダーが重要なので符号は無視しています。
\[ o \left( \left\| \sqrt{n} \left( \hat{\theta} - \theta_{0} \right) \right\| \right) = o \left( O_{p} (1) \right) = o_{p} (1) \]最後は \( o \left( O_{p} (1) \right) = o_{p} (1) \) という事実を使っています。これを式 (A) に代入して、

\begin{align}
\sqrt{n} \left( \hat{\theta} - \theta_{0} \right)
&= - D^{-1} v_{n} \left( \theta_{0} \right) - o_{p}(1) + o_{p}(1) \\
&= - D^{-1} v_{n} \left( \theta_{0} \right) + o_{p}(1)
\end{align}

となります。

Step 4: CLT を使う

Step 3 で得られた式を移項して、

\[ \sqrt{n} \left( \hat{\theta} - \theta_{0} \right) = - D^{-1} v_{n} \left( \theta_{0} \right) + o_{p} (1) \]

となります。ここで、仮定 2. と 3. より中心極限定理 (CLT) が使えます。

\[ v_{n} \left( \theta_{0} \right) \stackrel{d}{\longrightarrow} N \left( 0, S \right) \]

となりますから、あわせて

\begin{align}
\sqrt{n} \left( \hat{\theta} - \theta_{0} \right)
&\stackrel{d}{\longrightarrow} - D^{-1} N \left( 0, S \right) \\
&= N \left( 0, D^{-1} S \left( D^{-1} \right)^{\prime} \right)
\end{align}

を得ます。（証明終）

まとめ

目的関数がなめらか（２回連続微分可能）な M 推定量は、２階導関数を用いてテイラー展開をすることにより、漸近分布を得られる。
しかし、なめらかでない場合は、経験過程の道具を使い、確率的同程度連続性を用いることにより、漸近正規性が得られる。
その漸近分布は

\[ \sqrt{n} \left( \hat{\theta} - \theta_{0} \right)
\stackrel{d}{\longrightarrow} N \left( 0, D^{-1} S \left( D^{-1} \right)^{\prime} \right) \]