モデル選択と検定

  • いろいろなwebページに紹介されている。

モデル選択は対等。検定は不対等。
だが、確実性をもつのは検定。(臨床試験など帰無仮説と対立仮説の構造がしっかりできあがっている場合には有効)
以下、こちらの抜粋。

(1)データの分析前には仮説はほとんどなく、『何でもいいから見つからないから』(dredging)状態である→モデル選択でモデルを狭めておく→選ばれたモデルに取り込まれている変数のうち好きなものを検定する

こうすると、見かけ上検定するものが減るので、多重検定の影響を小さくするように見せることができます。

この(1)が変だということはすぐわかります(隠蔽されると、この(1)と以下の(2)を区別するのはしばしば困難ですーしかし、この困難性は検定だけでも似たようなこと[総ざらいで見つけた相関などを、それだけ検定したかのように言う]はあるのでモデル選択との関係で出てくることではないでしょう)。

 以下のケースはどうだろうか、というのが問題です。

(2)分析前に、変数Aが目的変数Bに影響を与えているか、といった内容で仮説は明白。だが、他の要因が変数Bに影響を与えているかどうかはわかっていない。→モデル選択で他の要因(交絡要因、blocking変数、層別因子、共変量と呼ばれるものの一部)のどれをとりこんで検定に使うモデルを構成するか決める→変数Aが目的変数Bに与える影響の検定をする

というのはどうなのでしょうか。何かはさまっているような変な感じはあるのですが(ロジックのちがうものの混在に由来すると思います)、モデル選択を大まかにとらえると、大きく間違っていないような気もします。今、私にはここがおかしいと明快に指摘できるものはありません。

また、これがもしおかしいとすると、他の要因を取り込むかどうかはどうやって決めるべきでしょうか

(2−traditional)検定に使うモデルに他の要因(交絡要因、blocking変数、層別因子、共変量の一部)のどれを取り入れるかは検定で決めるべきである。

がいいのでしょうか。このやり方は昔から使われていますが私にはどうもこれが妥当とは思えないのですが。

 また、

(2−all)とにかく測ってある(わかる)要因はすべて入れる。

というのがいいとは思えません。

あるいは、

(2−radical)分析前に他の要因(交絡要因、blocking変数、層別因子、共変量の一部)も含めて、検定に使うモデルが確定していないなら検定をすべきでない。すべてが確定しているときのみ検定してよい。

もしくは

(2−radical2)分析前に他の要因(交絡要因、blocking変数、層別因子、共変量の一部)も含めて、検定に使うモデルが確定していないなら検定をすべきでない。そういった状況ではモデル選択をすべきで、検定をするべきではない。

ということになるのでしょうか?

 (2)で考えている状況は、結構一般的な状況だと思います。簡単なところでは、Beherens-Fisher問題のような2つの位置母数の比較で、分散(尺度母数)をちがったものにするかどうか、といった問題から、複雑なところでは、分子系統でトポロジーだけに関心があるときに分子進化のモデルとしてはどれを使うか、までいろいろあると思います。

 もちろん、私が1つの問題としてくくれると今とらえている問題(群)が、実は異質な複数の問題であり、そのどれであるかにより適切な方法は異なるということもありえるでしょう。