メチル化データ解析チュートリアル

これからご紹介する方法は、Illuminaのどのメチル化アレイにも適用できるのはもちろん、シーケンサーなど別のテクノロジーを使って測定したデータにも幅広く応用できます。ポイントとなるのは、膨大なメチル化サイトを二つのカテゴリー、つまりプロモーター領域とそれ以外に分けることです。プロモーター領域と CpGアイランドは重複していることが多いですが、完全に一致するものではありません。ヒトの遺伝子の約30%は CpGアイランドをTSS近傍に持ちません。CpGアイランドなしでも、それらの遺伝子のメチル化状態は適切に制御されています。そこで、CpGアイランド以外のプロモーター領域も漏らさずに解析するための準備から始めます。

メチレーションデータ解析チュートリアル1:  プロモーターのプローブとそれ以外を定義する。

プロモータ領域のメチル化レベルは、多くの場合脱メチル化状態に保たれている。一方、プロモーター以外は高メチル化状態に保たれている。CpGアイランドはプロ―モーター領域と重複していることが多いですが、一致はしていません。そこで、プロモーターとして認識させる領域をどうやってCpG islandから拡張するかを、このムービーで紹介しています。ただし、これは基本的なアイデアにすぎず、これをベースにそれぞれの研究者の目的にあった定義にしていただけます。

メチレーションデータ解析チュートリアル2: プロモーターまたはゲノムビンごとの平均ベータ値の算出

前のムービーで定義したプロモーター領域のプローブを抽出して、プロモーターごとの平均ベータ値を算出します。また、プロモーター以外のプローブは、固定長のゲノムビンごとに平均ベータ値を計算します。個別のメチル化サイトの数は膨大で、扱うのは大変ですが、このように生物学的な意味のある領域ごとの平均ベータ値に変換することで、データ解析がやりやすく、解析結果を理解しやすくなります。

メチレーションデータ解析チュートリアル3: プロモーター領域のメチル化レベルの解析

ご存じのとおり、プロモーター領域のメチル化レベルは、その下流の遺伝子の発現レベルと強い関係があります。プロモーターのメチル化パターンは、遺伝子ごとにばらばらではなく、何らかの制御を受けているようで、いくつかのクラスターに分類できます。

メチレーションデータ解析チュートリアル4: ゲノムビンのメチル化パターンの解析

ゲノムビンのメチル化パターンは、近傍遺伝子の発現パターンとまったく関係がありません。しかし、ゲノムビンのメチル化パターンはそれぞれバラバラではなく、クラスターに分類できます。そして、そのクラスタ―は染色体上の偏在が見るられます。この現象の生物学的意味は分かっておらず、これからの研究が期待されます。