パラメトリックな手法の(重要な)前提たち
-独立性
近い場所で採取されたり、繰り返しの測定値、nestedなデータであったりする場合。
-
- 対処法としては、random effectを使うべし。非常に重要な前提で、この前提は全ての統計的検定において、重要なものである(ランダムサンプリングは重要)。
-分散の均一性
当てはめられたモデルの周りでの散らばり具合はどこでも等しいという仮定。つまり、どの説明変数でも残差(観測値と推定値の違い)を等しくなければならない。この不等分散については、粕谷先生が論文を書いている(読まなければ!!→こちら)
粕谷先生によると、ノンパラであっても等分散の仮定は守らなければならない。
すなわち、「等分散が仮定できないので、ノンパラメトリック検定にしました」なる記述はおかしいようだ。では、どうするのか?
- とりあえずは2群間であればF検定、多群であればバートレット検定をするべき。
で、もし等分散であるという帰無仮説を棄却できなければ、等分散という仮定のもとに正規性の検定をし、正規性検定によってノンパラかパラメトリックかというルートに行く。しかし、ここで不等分散であるという対立仮説を採択したら、どうするか?
と考えたが、、、
- さらに、こちらの青木先生の解析によると、
粕谷先生は上記の論文の中で、「等分散が仮定できない場合、順序尺度であれば中央値検定、間隔比率であれば等分散を仮定しない(すなわちウェルチの方法の)t検定、等分散検定後に普通のt検定」をすべきと提唱しており、青木先生の解析でも同様の結果が得られた。
というより興味深いのが
正規性ではない2群間の母集団の分散が異なる場合、U検定でも非常に第1種の過誤が起こりやすくなる。(特にサンプルサイズが異なる場合に顕著に見られる。
また
等分散検定の後にt検定するのは「事前検定の不適切性」に当たり、好ましくないので、いきなり最初からウェルチのt検定をするべき。
さらに、多群の場合でも等分散を仮定しないのが一元配置分散分析を行うべき。
とある。
なるほど。ではもし等分散でもなく、入れ子になっているような(独立性が守られていないような場合はどうするのだろう。もしかすると、有意水準の正確性が失われている可能性があるのだろうか。
-誤差の正規性
-
- これも上記と似ているが少し違う。これはモデルの周りでの残差の分布形についての仮定。
- これへの対処法がノンパラ検定というのは正解。
-線形性(加法性)
ノンパラと線形モデル
母分布が正規分布に従っていなさそうな場合、ノンパラ検定と一般化線形モデルを使うのではどちらがよい(検出力が高い?)のだろうか。
以下、http://aoki2.si.gunma-u.ac.jp/lecture/Kentei/nonpara.htmlを引用。
まず、パラメトリックな手法とは?
- 母集団の特性を規定する母数についてある仮説を設けるもので,平均値の差の検定(t 検定と略称されることが多い)や分散分析(F 検定と略称されることがある)などがこれに該当する。これらの検定手法では,母集団の正規性や等分散性が仮定される。
おそらく、この母集団の正規性を二項分布やポワソン分布にまで拡張し、それをlink関数を通して使えるようにしたのが"一般化"線形モデルだろう。
さらに、
ノンパラメトリックな手法
さらに、
ここで注意しなければならない点は,パラメトリックな手法はかなり制限(前提条件)が多く,ノンパラメトリックな手法はそのような制限が少ないからといって,ノンパラメトリックな手法を乱用してはいけないということである。
もし,パラメトリックな手法を適用できる条件がそろっているにもかかわらずノンパラメトリック検定を用いると,後述する検出力(対立仮説が正しいときに帰無仮説を棄却できる確率)が低下するという問題が生ずる。
しかし,逆に言えば,パラメトリックな手法を用いるための前提条件が完全に満たされないときに,ノンパラメトリックな手法を適用して帰無仮説が棄却されたとすれば,その結果はより妥当性を持つであろう。
つまり、標本数が少なくて、十分に記述統計ができない場合(母集団の分布が把握できそうにない場合)はノンパラにしたほうが無難なのか。