勘違い1

  • Rのglm関数などによってデータにモデルを当てはめた際、よく行う(?)summary関数による回帰係数の検定表。

実は今までsummary()で出力されるp値は検定の多重性を考慮していないと思っていた。しかし、summary()で出力される推定値のwald検定のp値は、そのパラメータを落としたときにどれだけ当てはまりが悪くなるかを調べている。
ので、あのwald(重回帰におけるt検定)検定量に基づく検定はおそらく独立。

ただし、説明変数の共線性には注意しなければならない。
共線性・・・説明変数間に強い相関がある場合。
例えば、3つの説明変数(x1、x2、x3)があるとして2つ(x1とx3)に強い相関があると、1つの変数を落としても残りの2つの変数で説明できるとして、結局x1とx3のp値が高くなる。

ので、summary表だけ見ると、x2しか重要でないように見えてしまう。
これが共線性。

で、これを回避しようとして、ある変数を除外してもう一度wald検定をしてしまうとその変数に対して2回検定を行うことになり、検定の多重性が生じるので注意が必要。

これを回避するにはモデル選択という手段がベター。

参考文献:「モデル選択」ISBN:4000068431