統計関係

ちなみに

χ2検定に用いる、χ2統計量は、z^2の値を足し合わせたものである。 つまり、RのGLMで表示されるzという値の2乗がχ2統計量から有意に離れているか を仮説検定しているのが、ワルド検定ということになる。

モデルを比較する3つの方法

尤度比検定 尤度関数における、推定値(ある値と0)を代入した際の尤度の比較 ワルド検定 尤度関数における、漸近標準誤差による推定値と0の検定 χ2検定に近似可能 Fisherのスコア法 尤度関数における、推定値0の時の傾きによる検定 χ2検定に近似可能

Fisherのスコア法

Newton-Raphsonアルゴリズムを単純化したもの.

仮説検定からモデル選択へと統計的手法が変遷することは、従来の実証科学などからの大きなパラダイム転換を図れることにつながるのではないだろうか? ある仮説の真偽を確認、および実証するのが、従来の科学。 理論、仮説も不十分な状況で、かつ、データや…

モデル

めも

QAICの算出方法 -2*logLik/(c-hat)+(2*k) ここで言う、c-hatとは、逸脱度を自由度で割ったもの。(binomialやpoissonの場合は、1に設定されている。) AICc = -2log Likelihood + 2K + 2K(K + 1)/(n-ess - K - 1) QAICc = -2logLik/c-hat + 2K + 2K(K + 1)/(…

再考

最近の流行のモデル選択。 確かに、野外などでさまざまな変数を組み込み多数のモデルが考えられる場合においては やはり非常に有用だろう。だけど、実験下において、仮説を検証する際はやはり従来のNeyman-Peason検定法も重要であることは間違いないだろう。…

さまざまなデータに出会った際、解析をどのようにするか実験計画から考えることも重要だが、すべきことは以下に要約されるだろう。 まず、(多変量データであっても)生データを様々な角度から図示し、どのような傾向があるか、変数、平均、分散などの関係を…

昨日の続き

ランダム切片モデルの大胆な仮定を払拭するのが、ランダム係数モデル。 ランダム係数、つまり係数自体にもランダム誤差を仮定してやる。 補足;ランダム切片とランダム係数を別々に指定すると、それぞれ独立の正規分布からの誤差をとるがランダム係数のみに…

適合値

あるモデル式において、予測される目的変数の値。 適合値を横軸にとり、標準化された残差を縦軸にとると、残差プロットができる。 この残差プロットは、分散均一性もしくは線形性などを視覚的に捉えることができる。

Residual Deviance

統計用語の1つで、よく一般化線形モデル等で解析を行うと出てくる言葉。 H先生は、「残差の平方和」と言っていた。つまり、この値が小さいほど、当てはまりがいいわけだ。(ちなみに、GLMではこの標準誤差が1に)また、K先生の講義ノートでは、「実験者が…

ランダム効果(切片と係数)

ランダム切片 こちらでは、yji=B0*x0+B1*x1+uj+ejiとグループレベルでの誤差分散を考える。 ランダム係数 ランダム切片モデルでは、説明変数x1に対する目的変数の変化が一定だと仮定されている。 交互作用を考えるように、説明変数に対する効果がグループレ…

正月の参考にしたい名言

近いようで遠い偉人A先生の言葉 「物事を一方向から眺めていてはいけない。かならず、ひっくり返してみることが必要である。」A先生はこの言葉を日常生活のある一面で気付いたそうで、もちろん研究活動にも言える ありがたい言葉。一極集中型になりがちな昨…

追記

lmerはおそらくLaplace近似によって計算されているのだろう。 ここら辺データをさらに詳しく解析する必要がありそうだ。

glmmMLとlmerの違いは?

統計ソフトRのglmmMLとlmerで解析すると、同じ「最尤推定法」のはずなのにAICの値が異なる。 なぜだろう。もちろん、lmerのmethodは"ML"にしているし。

モデル選択と検定

いろいろなwebページに紹介されている。 モデル選択は対等。検定は不対等。 だが、確実性をもつのは検定。(臨床試験など帰無仮説と対立仮説の構造がしっかりできあがっている場合には有効) 以下、こちらの抜粋。 (1)データの分析前には仮説はほとんどな…

確率分布のメモ1

一般化線形モデル(以下GLM)が使われるようになってきているが、実際に自分で使う際に重要なのは、自分の持つデータは一体どのような分布に属している(もしくは類似しているか)かだと思う。そこで、改めていろいろな確率分布を教科書、ネットで調べてまと…

ノンパラと線形モデル

母分布が正規分布に従っていなさそうな場合、ノンパラ検定と一般化線形モデルを使うのではどちらがよい(検出力が高い?)のだろうか。以下、http://aoki2.si.gunma-u.ac.jp/lecture/Kentei/nonpara.htmlを引用。 まず、パラメトリックな手法とは? 母集団の…

中央値と平均値の使い方の違い

算術平均は、分布が正規分布に従うとき使い、逆に正規分布に従わないときは中央値がよく使われる。 箱ひげ図も同じ。外れ値の影響を受けにくい。

追記

そうか。母集団の分布の形によらないから一般化線形モデルなのか??

パラメトリックな手法の(重要な)前提たち

-独立性 近い場所で採取されたり、繰り返しの測定値、nestedなデータであったりする場合。 対処法としては、random effectを使うべし。非常に重要な前提で、この前提は全ての統計的検定において、重要なものである(ランダムサンプリングは重要)。 -分散の…

lmer関数はまだやらず、、まずい。

混合モデルの基礎を学習(広津;統計的データ解析より)

まず、混合モデルの場合、交互作用の検定をする。 で、有意差が無いときは、固定効果と誤差との比較。(繰り返しがない場合は、交互作用項と比較。) と書いてあるが、σ2=0の帰無仮説が棄却できなかっただけなので、交互作用項(σ2+σ2(A+B)も含めたMS)で検…