オミクスデータは、実験日、実験者、実験室、機械、試薬またはもっと微妙な何かの差の影響を敏感に受けます。 従って、オミクスデータは純粋に真実を反映しているのではなく、何らかの非線形系統誤差が必ずかかっているものと見做すべきです。 比較(あるいは解析)可能なのは、同質の系統誤差がかかっている(以降、"同じタイプ" と言う)のサンプルの間だけで、異質の系統誤差のかかった(以降、"異なるタイプ" と言う)サンプル間では直接比較ができないものなのです。
こちらの例をご覧ください。生物学的な実験パラメータ―より、繰り返しの前半と後半でデータの質が異なっています。 どちらのグループの質が良いのか、あるいは本当の状態を正しく反映しているのかは不可知です。 分かることは、このデータセットは "二つのタイプ" のデータが混在しているということです。 この例はマイクロアレイのデータセットですが、RNA-Seqもこの問題と無縁ではありません。 むしろ、マイクロアレイのように物理的な共通基盤を持たないせいか、RNA-Seqのデータセットのほうが異質のデータが混在する頻度が高いように思います。
サンプル数が多いほどこのリスクは高まり、一部の実験、最悪の場合はすべての実験をやり直さなければならない事態が起こりえます。プロジェクトのコストの見積もりには、単価×サンプル数で求められる「失敗がない場合のコスト」だけでなく、「何らかの問題が発生したときのやり直しにかかるコストの期待値」も考慮に入れる必要があります。そして、リスクヘッジの仕組みを実験計画の段階で組み込んでおくことで、後者を低減することは可能です。
また、
- 再実験が困難な場合
- 前向き研究の場合
- 測定の難しいサンプルの場合
も、データ解析が難しくなる可能性が高まりますので、リスクヘッジすることは不可欠です。
実験を始める前に、実験計画の段階でぜひ一度Subioにご相談ください。