TPM/FPKM/RPKMを過度に信用してはいけない。RNA-Seqデータの系統誤差を除去できているとは限らない。

  • Microarray
  • High-Throughput Sequencing
  • Gene Expression
  • Exon Expression
  • miRNA Expression
GSE159751_1_histogram

RNA-Seqによる発現データの解析には、リードカウントではなくTPM、FPKM、またはRPKMを用いるべきだと信じている人が多いです。その理由の一つに、サンプル間の系統誤差を回避することがあげられます。しかし、100万リードあたりで均すやり方は、一種のグローバルノーマライズに過ぎず、これで除去できるのは線形の系統誤差だけです。これは、現実のオミクスデータ解析に対して甘すぎる前提と言わざるを...

なぜ bulk RNA-Seq の解析にはPCA、シングルセルRNA-Seqの解析には t-SNE が使われるのか?

  • High-Throughput Sequencing
  • Gene Expression
FAQ

t-SNE がシングルセルRNA-Seqのデータ解析でよく使われるようになっています。しかし、「なぜbulk RNA-SeqにはPCAで、scRNA-Seqにはt-SNEか」という説明をいくら読んでも、個人的には納得できる説明が見当たりません。 高次元のデータを可視化するt-SNEの効果的な使い方 という説明が t-SNE とは何かを知るのに最適だと思いますので、ここで述べられている特徴を見...

発現データの探索的解析(例:TCGA-BLCA)

  • Gene Expression
  • High-Throughput Sequencing
an exploratory analysis on TCGA-BLCA

オミクスデータの解析は、標準的なワークフローに従ってできるようなものではありません。実際の解析は(1)データを見て、(2)何かを見つけて、(3)見つけたことを検証する、という過程を繰り返すサイクルのようなものです。 (1)データを見る:  オミクスデータは、先入観なしに見なければなりません。なぜなら、大きなデータセットには必ず非線形のバイアスや人工的な影響が紛れ込んでいるからです。教科書のよ...

TCGA PRAD の RNA-Seq と miRNA-Seq データの統合解析

  • Gene Expression
  • miRNA Expression
  • High-Throughput Sequencing
TCGA PRAD Integrated Analysis of RNA seq and miRNA seq (part 2)

The Cancer Genome Atlas (TCGA) は、がんに関するマルチオミクスデータとクリニカル情報の大量に蓄積しているサイトです。 このケーススタディでは、normal と tumor のグループ間で発現差のある遺伝子(DEGs)を抽出し(part 1)、発現を制御している可能性のあるmiRNAの抽出を行います(part 2)。ただし、下記のムービーで見るものより、TCGAの...