TCGAはがん患者から得られた様々な種類のオミクスデータを提供しています。Subio Platformは、基本的には量的データを解析するためのソフトウェアで、変異のような質的データを解析するためのものではありません。TCGAのSomatic mutationデータは、MAFフォーマットのファイルとして提要されていて、これはエクセルを使って解析できます。
MAFフォーマットは下のような列を持っています。(ただし、R列以降は省略)
- A: Hugo_Symbol
- B: Entrez_Gene_Id
- C: Center
- D: Ncbi_Build
- E: Chrom
- F: Start_Position
- G: End_Position
- H: Strand
- I: Variant_Classification
- J: Variant_Type
- K: Reference_Allele
- L: Tumor_Seq_Allele1
- M: Tumor_Seq_Allele2
- N: Dbsnp_Rs
- O: Dbsnp_Val_Status
- P: Tumor_Sample_Barcode
- Q: Matched_Norm_Sample_Barcode
A-B は、遺伝子の情報
C は、データを出した研究所
D-Hは、ゲノム上の位置情報
I-Jは、変異の種類
K-Mは、塩基配列の変異
Pは、tumor sampleのID
Qは、normal sampleのID
エクセルを使って、次のようなことができるでしょう。
- I-J列の、変異の種類でデータを分ける。
- 位置ごとに変異をカウントして、共通の変異かどうかを見る。
- 別ファイルのclinical informationを使って、患者をいくつかのグループに分ける。
- グループごとにカウントをやり直す。
このような解析をエクセルで行った後、Subio Platformに取り込んで視覚化することができます。さらに、Subio Platformに取り込めば、それ以外の遺伝子発現やDNAメチル化データと統合解析もできます。
somatic mutationのデータ解析も、弊社の解析サービスにて承ることができますので、お気軽にご相談ください。