2012年12月7日

系統解析の注意事項(モデル選択とか不均一モデル)



系統解析について勉強したことをメモしてみます。
詳しいことはプロに聞くことをお勧めします。
ここを見たプロの方、間違いや見逃しがあれば指摘して下さい(*・ω・)ノ
そのためにチラ裏を公開したので。





まず、集めてきた情報が使い物になるのかどうか

1. 生物の想定される系統的距離に対し、集めた配列は適切な進化速度なのか
=遅すぎて解像度が出なかったり、早すぎてサチュってないか。例えば大腸菌の血清型の比較で16Sを使ったり、ヒトとマラリアでSAG1を使おうとしたり(あくまでイメージです)。



2. アーティファクト(ウソ解析結果)を導く要因は無いか
前提として、MLで解析する。NJやMPより結果が頑強らしい。でもMLは進化モデルが違うと弱い。逆にアーティファクトが強く支持されたりする。なのでモデル選びがすごく重要。でもモデル選択では何に気をつければ良いのか??以下に記述。

2.1. 塩基配列の場合、コドンのポジション間で著しい進化速度のずれはないのか
特に3番目の同義置換とか。ナンセンス変異なのでここだけどんどん変わっているかも。その場合、進化モデルが不整合な可能性が高く、アーティファクトの要因になる。サチュってたら単なるノイズ。この場合は3番目を除いて解析したりする。

2.2. GC%のずれは無いか。
生物によってはゲノムが極端にATリッチになったりする。マラリアとか。これは良くない。全然関係ない生き物が同じくATリッチに進化してた場合、両者は似た者同士に分類されてしまう。とりあえず各生き物ごとに配列のGC含量はチェックするが吉。

2.3. コドン使用頻度に系統ごとのずれはないか。
偏ってたらどうすんのよ?チェックするべき。



3. 連結解析(=いくつかの遺伝子をつなげて、まとめて一個として解析)の場合

3.1. 進化プロセスが違う遺伝子はいないか
一個の遺伝子がウソ系統関係をすごく支持してると、全体的な結果も引っ張られる。
なので、使う遺伝子はまず一個だけで樹を描いてみて、明らかに変な結果を返す配列は除くことも必要。

3.2. それぞれの遺伝子って、進化のプロセスが違うはず。同じモデルでいいの?
まとめて一個で解析するほかに、遺伝子ごとにモデルを選べたり、コドンポジションごとにモデルを選んで解析する方法がある。それぞれ試みるべき。



そんなことに気をつけて、モデル選びソフトにでも突っ込んで結果を見る。 
気をつけなければいけないのが、パラメーターが多いほどよりフィットしたモデルになってしまうこと。これは間違い。僕らもやりましたよね、阻害曲線でやたらパラメーター増やして、Rが上がったと喜んでたり(僕だけ!?)そりゃ誤差を拾ってるだけ、原理上シグモイドならそれを適用すれば良いのです。つまり、フィット(適合度)より妥当性が大事。

で、その辺りの結論はAICで判断(ソフトが勝手に計算してくれる)。BICでも良い。もはや好みらしい(我々数理統計のシロウトが計り知れる問題ではない)AICは小さい方が良い。とにかく最小のを選べばOK、それがbestな置換モデル。あとはこのモデルとアライメントファイルとMLソフトを使ってPCに仕事させればよし。



と思ったけど、最近はモデルの不均一性が問題らしい。
つまり、マラリア(とかアピコンプレクサ)と哺乳類では置換速度が違うし、進化モデルも(多分)違うのに、全体でベストなモデルを選んではまずいでしょ。ということらしい。そのために最近では、不均一モデルを使った系統解析がメジャーになりつつある。

このモデル選択には、マニュアルとオートのやり方がある。例えば明らかに進化の仕方が変わった場所がわかる場合、その変化点(Break point)を境に自分で別モデルを選択すれば良い。それすら分からない場合、オートで検討してくれるソフトも存在する。つまり、枝分かれの毎にBreak pointを仮定して、尤度判定してくれる。

最終的には、ここで選ばれた不均一モデルと、従来の均一モデルとの間でAICを比較し、低い方を採用する。AICは手計算。
AIC = 2k - lnL (kはパラメータの数、Lは最大尤度)
パラメーター数は、Break pointの数と各モデルのパラメーター値で計算できる。




補足
そもそも、きちんと系統群でOTU数がぶれないようtaxon samplingしてるか?とか、アライメントは適切に取れているのか?とか、そういう基礎も大事ですよね。ああ難しい。ちなみにBayesはそんなに推奨されないらしい。それはBayesが悪いというより、「どうせMLと同じ結果なんでしょ。ならわざわざやらなくても一緒でしょ」という感覚のよう。

そう考えると、我々の「適当に18S集めてMega4のNJで描きました」的系統樹は、だいぶまずいですよね…。言い訳したいこともたくさんあるんですが。極論すればマイナー分野の悲哀といったところですかね。以上。




0 件のコメント:

コメントを投稿