現時点のジツリキ

はっきり言って統計科学もかなり多様化してきているみたいで,私のような末端ユーザがフォローできる範囲は限られてくるだろう。それはおそらく生物系(とりわけ実験系)にいる人はそうだろう。だけども,実験系でこそデータ同化とかグラフ理論のような解析も必要となってくるのではないか。というかツールとしてソフトウェアに組み込まれ,知らず知らずの内に使っている人は多いはず。系統樹の作成のブートストラップとか。にも関わらず,大学などの統計学の講義で非現実的な解析方法を教えたり,確率論の小難しい理論を教えるのはナンセンスのような気がする。けども,実用的な統計学を教えてもらって,ツールとしての統計学の重要性に気付いて,かじり出すと基本的な確率論や微分積分の辺りがしっかり備わってないとつまづく。わけで。私のように多少統計をかじった程度(そこまで数学的な背景のない)の生物系の人には,データの扱いにやはり限界があるわけで。


私が聞いたわけではありませんが
ある偉大なA先生に,データの統計処理について聞いたら,
「生データを見せろ。データを見ないことには分からん。」と言ったそうです。


少々統計かじった小生程度では,データの性質と実験者の目的,ある程度のデータの分布などから,自分の知識と照らし合わせて,「〜という方法の解析をしたら」と提案しますが,やはり統計専門家になると,生データとにらめっこして,データを1つ抜いたり,足したりとデータを色々いじって,推定したり検定したり予測したりするらしい。そこが違うなぁと思った。


データから言えることを「科学的に・統計的に」より強く,正しさを強調するためにP値や検定が示され,統計的手法が用いられてきた。で,私らもそれを使ってきたわけなんだけど,はっきり言って怪しい解析してる論文や間違った解析している論文はかなりあると思う。統計解析ってただのツールで,データから導かれた答えへの付録みたいなもんで,(私は)なんかあんま重要性を感じなくなっている。なぜなら,データを見てかなり差があればどんな解析しようが有意差あるし,微妙な差の時は解析方法によって導かれる答えが違ってしまったり。


U検定では有意差が出なかったけど,GLMでやると有意差が出ました。のような感じ。しかし果たしてGLMの前提条件や残差診断をどの程度の人がしているのだろうか。U検定よりGLMでやるべき理由を,はやっているからだけではなく,生物学的,もしくはデータや分布,記述統計量から得られる根拠がしっかりあるのだろうか。というようなコトも考えてしまう。


なぁんかp値や解析方法に踊らされているだけの科学って,あまり面白みがないような気がする。科学哲学分野の話は疎いのでよく分からないけど,「YES」「NO」で区切るだけが科学じゃない気がする。というかそもそもp値で仕切っている時点で不確実性って拭いきれてないよね。


何がなんだかまとまらない文章になりました。が,現時点での私の考えとしては,

  • 統計学教育について
    • (少なくとも生物系の学生には)もう少し実用的な(実際の例に即した)手法を教えるべきではないか(確率論なんかよりソフトウェアの使い方とか)。
  • 統計解析について(ツールとして使う場合)
    • 10人に生データ見せて,10人みんなから同じ解釈返ってきたら,統計解析はそんなに必要ないではないか。
    • そもそも解析方法で結果が変わってしまうようならば,強く断定すべき結論は導けていないのではないか。
    • 流行っているからGLM,AICモデル選択でやりました。結果こうなりました。だけではなく,そこまで解析方法を学べているのであれば,その根拠や背景を生データに即して説明すべき。(であるならば,やはり自由なベイズがますます重要視されてくるのかなぁ。不確実性が多い野外データや生態データだけでなく,少数データの計画的な実験系データにおいてはどうなのだろう?)
    • 探索的データ解析へ移行していく?だいたい計画的に実験している人がどんだけいるのだろう。私の周りには少なくともいない。だいたいデータが取れてから,統計処理するから対比とか無視して,扱いにくくなるんだよね。でもそれって普通な気がするなぁ。
  • 統計解析(強力に使いたい場合)
    • 専門家に相談するしかない。教科書や論文に載っていないようなデータの取り方,解析をしたい場合。


6年間大学に居て,およそ3年半くらい統計も学んできたけど。結局よく分からないということが分かったなぁ。他人にアドバイスはある程度できるのだけれど,教えてて「本当はこの仮定を満たしてないといけないんだけど」とか「若干分布があやしいな」と感じるような,自分の中ではベターな手法しかアドバイスできなかった。手法の前提を満たしきれていないのにこう断言していいのか,教科書のように前提満たすデータなんてそうそうないだろ!と思いながら解析してきた。もっと数学的に統計的につっ込んだ解析,そのデータにあったベストな解析方法を柔軟に編み出せるようになりたかった。