乱数と計算統計学(その1)

ネット等で調べてみた。あくまでメモ用。

モンテカルロ法は、複雑な過程をシミュレーションして統計手法が持つ標本特性を調べるもので、古くから概念的にはあった。
しかし、近年の計算機の発展とともに、Efronという人の考案したブートストラップ法が発展、また現代的なベイズの普及により
モンテカルロ法が最近広まっている。つまりブートストラップ法はモンテカルロ法の一部である。

                                                  • -
  • ブートストラップ法

ブートストラップ法には大きく分けて2つあり、パラメトリック・ブートストラップとノンパラメトリック・ブートストラップがある。
サンプルサイズが大きい方が望ましい。バイアスの影響を受けるので。

標本データからあるパラメータ(平均値とか標準偏差とか)を得て、そこからある確率分布を想定する。
その確率分布からランダムにサンプリングして、データを得る。(1000回とか)

母数を想定しないで、標本データから重複を許して、リサンプリングする方法。
ただし、平均値などの推定には上記の2つの方法がいいが、分散の推定にはジャックナイフ法がいいらしい。

  • ジャックナイフ法

標本データから重複を許さずにデータを何個が削除して(狭義のジャックナイフ法では1個だが、増やしても可)、リサンプリングして標
本平均を1000回(とか)とる方法。

で、そのリサンプリングデータ(ブートストラップ分布)から信頼区間を推定する。(パーセンタイル法とかBasic法とかある。仮説検定で
もいいし;パラメトリックなブートストラップは帰無仮説に基づく分布を想定してシミュレート)。
詳しくはググったりしてみてください。というか、英語のwikipediaにより詳細に記載されています。

                                                    • -

そこでさらに気になって調べてみたのが、並べ替え検定(permutation test)または無作為化検定(randomaization test)との関係。
並べ替え検定は、早い話がFisherの正確確率検定のように手元のデータからとりうる全ての確率を導きだし(あらゆる可能性を考え)、
現在手元にあるデータが得られる確率を計算するというノンパラメトリック統計。というかFisherが考案者らしいが。
ここでノンパラ・ブートストラップとの大きな違いは非復元抽出であること。並べ替えるだけ。
ただ、2標本のノンパラブートストラップ検定と並べ替え検定はほとんど同じ結果になる。

                                                  • -

これは推測ですが、ノンパラ統計の場合(U検定とかクラスカル-ウォリス検定とか)分布自体が想定されていない。ので、あらゆる可能性を考えてp値を算出するのですが、データが膨大になるとすべての場合を計算するのは不可能になる。
ので、ある程度の数ならべかえて現在手元にあるデータが得られる確率(帰無仮説を想定して)を計算する。

で結果で表示される近似値(z近似でp値が〜〜みたいな)は、どうやら検定方法によるらしいが、計算機の発達していなかった
時代は、ある分布を想定して近似的にp値を算出していたみたいなので、そこから求めているのではないかと。