TPM/FPKM/RPKMを過度に信用してはいけない。RNA-Seqデータの系統誤差を除去できているとは限らない。

  • Microarray
  • High-Throughput Sequencing
  • Gene Expression
  • Exon Expression
  • miRNA Expression
GSE159751_1_histogram

RNA-Seqによる発現データの解析には、リードカウントではなくTPM、FPKM、またはRPKMを用いるべきだと信じている人が多いです。その理由の一つに、サンプル間の系統誤差を回避することがあげられます。しかし、100万リードあたりで均すやり方は、一種のグローバルノーマライズに過ぎず、これで除去できるのは線形の系統誤差だけです。これは、現実のオミクスデータ解析に対して甘すぎる前提と言わざるを...

DNAの脱メチル化と、エピジェネティック修飾 H3K4me3 の強い関連

  • Microarray
  • High-Throughput Sequencing
  • Epigenetics
Histon Modification And Dna Unmethylation   Fig5

CpG アイランドでは多くの場合脱メチル化されていることが知られています。しかし、実際の測定データを見ると多くの例外を簡単に見つけることができます。GSE97484 (DNAメチル化アレイと、H3K4me3 および H3K27ac のChIP-Seq 測定データを含むマルチオミクスのデータセット)を例にとって、DNAの脱メチル化について詳しく見てみましょう。 ゲノムブラウザー上でベータ値を棒...

DNAのメチル化状態は、遺伝子発現にどのくらい影響を与えるのか (DNAメチル化データ解析のケーススタディ)

  • Gene Expression
  • Epigenetics
  • High-Throughput Sequencing
TSS_DiffOfBetaValuesOfOne

はじめに Subio Platform を使えば、TCGAのRNA-SeqとDNAメチル化アレイのデータを簡単にインポートできます。(インポートの操作は、"TCGAのRNA-Seqデータをインポートする" または "TCGAのDNAメチル化データをインポートして解析する" のチュートリアルをご覧ください。) 遺伝子発現とDNAメチル化を統合解析する実践的なケーススタディを始めましょう。 それ...

P値は、生物学にとってそれほど重要ではない

  • Gene Expression
  • Microarray
  • High-Throughput Sequencing
Statistics

経験の浅い人ほどP値を過信する傾向がありますが、P値を上手に使うためにはバランスの取れた視点が必要です。P値は物差しの一つでしかありません。 まず、P値とは何かを正確に知るべきです。統計学的有意であることと、生物学的有意であることの間には、なんの関係もありません。下記のStatementをよくご覧ください。 AMERICAN STATISTICAL ASSOCIATION RELEASES ...

どのバージョンのGTFを使えばいい?

  • Gene Expression
  • High-Throughput Sequencing
which version of the gtf file

EnsemblのFTPでは、最新版のGTFがcurrentという名前で提供されています。そして、よく見るとたくさんのバージョンがあって、どれでもダウンロード可能です。何かのツールの操作方法を学びながらやっていると、特定のバージョン番号を記述していたりしますが、それが最新版でないときもあります。どちらのバージョンを選択するのがいいのでしょうか?  これについては、どのバージョンでもいいと思いま...

オミクスデータ解析を学ぶ、効率的な方法とは?

Technologies and analysis layers

たとえば、授業や講習会でRNA-Seqやマイクロアレイのデータ解析を学ぶとします。ほとんどの場合、解析必要なツールやデータを揃えてセットアップしたり、生データを処理するところから始まります。そこからデータ処理をして、統計解析、生物学的解釈と進んでいくでしょう。いちばん大事なのは最後の生物学的解釈のところなのですが、ここにはあまり時間が割かれません。その前のたいして重要でもないところに多くの時...

実際のところ、Single Cell RNA-Seq データの品質ってどうなの?

  • Gene Expression
  • High-Throughput Sequencing
scRNA-Seq Scatter Plot

GSE164898 は、10X Genomics のプロトコルで測定されたデータです。組織から数千の細胞に分けて、細胞ごとの発現量を出してくれるそうですが、1細胞あたりのリード数は数万程度しかありません。 RNA-Seqのダイナミックレンジはリード数に依存します。リード数が数万しかなければ、非常に発現が高い数十個の遺伝子の発現量しか捉えられないだろうと予想されます。それでは、実際にデータを見...

microRNA の発現データには要注意

  • Gene Expression
  • miRNA Expression
  • Microarray
  • High-Throughput Sequencing
miRNA - comparing data sets

遺伝子の発現量を測定する技術は、少なくとも2004年までには現在の水準に達していますので、ちゃんとしたスキルを持つ実験者により測定されたデータであれば、信頼できると言えます。一方で、マイクロRNAの発現量の測定は今なお難しいです。miRNAの発現データが、遺伝子発現データと同等に信頼できるものではないということは知っておいたほうが良いでしょう。ここでは、hepatocellular carc...

なぜ bulk RNA-Seq の解析にはPCA、シングルセルRNA-Seqの解析には t-SNE が使われるのか?

  • High-Throughput Sequencing
  • Gene Expression
FAQ

t-SNE がシングルセルRNA-Seqのデータ解析でよく使われるようになっています。しかし、「なぜbulk RNA-SeqにはPCAで、scRNA-Seqにはt-SNEか」という説明をいくら読んでも、個人的には納得できる説明が見当たりません。 高次元のデータを可視化するt-SNEの効果的な使い方 という説明が t-SNE とは何かを知るのに最適だと思いますので、ここで述べられている特徴を見...

なぜ遺伝子発現データにZ-score Normalizationを使うべきでないのか

FAQ

お客様から「Z-score Normalizationはできますか?」や「なぜZ-score Normalizationを入れないんですか?」と聞かれることがあります。このような質問をする人は、おそらく古い教科書を持っていて、その指示通りに解析をしたいのだろうと想像します。 しかし、もはやZ-score normalizationは使うべきでないいうのが私たちの考えです。その理由を説明します。

オミクス実験は、非線形バイアスの問題を逃れられない

  • Microarray
  • High-Throughput Sequencing
  • Gene Expression
  • Exon Expression
  • miRNA Expression
Trouble Shooting

オミクスデータは、実験日、実験者、実験室、機械、試薬またはもっと微妙な何かの差の影響を敏感に受けます。 従って、オミクスデータは純粋に真実を反映しているのではなく、何らかの非線形系統誤差が必ずかかっているものと見做すべきです。 比較(あるいは解析)可能なのは、同質の系統誤差がかかっている(以降、"同じタイプ" と言う)のサンプルの間だけで、異質の系統誤差のかかった(以降、"異なるタイプ" と...

良い研究は、優れた実験計画から。

  • Microarray
  • High-Throughput Sequencing
  • Gene Expression
  • Exon Expression
  • miRNA Expression
Trouble Shooting

1. 実験区とN数の割り当てこそ、工夫のしどころです。 予算・時間・人員が無尽蔵に使えるのであれば、理論上最適な実験計画を策定すれば済むことなのですが、現実世界には様々な制約があります。 マイクロアレイやRNA-Seqでいちばんネックとなるのは予算でしょう。 統計学が想定するサンプル数に対してオミクス実験のサンプル数は少な過ぎるので、統計学的要求に闇雲に従うのは無意味です。 私たちの解析経験...

発現データの探索的解析(例:TCGA-BLCA)

  • Gene Expression
  • High-Throughput Sequencing
an exploratory analysis on TCGA-BLCA

オミクスデータの解析は、標準的なワークフローに従ってできるようなものではありません。実際の解析は(1)データを見て、(2)何かを見つけて、(3)見つけたことを検証する、という過程を繰り返すサイクルのようなものです。 (1)データを見る:  オミクスデータは、先入観なしに見なければなりません。なぜなら、大きなデータセットには必ず非線形のバイアスや人工的な影響が紛れ込んでいるからです。教科書のよ...

P値のあやまった使い方をやめるとき

thinking

学会において「統計学的有意差」や「P値」が幅を利かせるようになってから、この10年で実験データと観察されたこと、そしてそこから派生する理論がぐちゃぐちゃになっていると感じており、そのような流れにはどめをかけたいという思いでわたしたちはSubio Platformを開発し、無料で提供してまいりました。 そして、統計学的有意差とP値に関する声明が統計学者の団体から発表されました。わたしたちは、科...

Subio Platformで、TCGAのsomatic mutationデータも解析できますか?

  • Genomic Variation
FAQ

TCGAはがん患者から得られた様々な種類のオミクスデータを提供しています。Subio Platformは、基本的には量的データを解析するためのソフトウェアで、変異のような質的データを解析するためのものではありません。TCGAのSomatic mutationデータは、MAFフォーマットのファイルとして提要されていて、これはエクセルを使って解析できます。 MAFフォーマットは下のような列を持っ...

実験をやる前に、アセスメントしてますか?

  • Microarray
  • High-Throughput Sequencing
CGH data on genome browser

実験をやる前に測定システムの能力をアセスメントしていますか?営業マンがもってくる”質の高い”データを想定して実験計画を策定するより、公共データベースから他の研究者が実際に出した実験データくらい”質が低い”ものをベースに考えるほうが現実的です。あなたが必要とするレベルのデータを得るにはどの手法を選択すべきかを事前に見究めることができれば、多くの時間とお金を確実に節約できます。 私たちのData...

T検定がなぜ理論的には使えないのか、そして、それでもなぜ実用には使えるのか

  • Gene Expression
  • Microarray
  • High-Throughput Sequencing
  • Exon Expression
  • miRNA Expression
Why t-test doesn't work theoretically

ほとんどの方が発現差のある遺伝子群(DEGs)、つまりあるグループで高発現していて、もう片方のグループで低発現しているパターンを示す遺伝子群を探そうとします。しかし、このような遺伝子が原因遺伝子であるのは、下記のモデルのうち single factor model でしかなく、これは高度に複雑な生物現象の中では極めて稀だと思います。それ以外の下記のようなシンプルなモデルにおいて、遺伝子発現が...

TCGA PRAD の RNA-Seq と miRNA-Seq データの統合解析

  • Gene Expression
  • miRNA Expression
  • High-Throughput Sequencing
TCGA PRAD Integrated Analysis of RNA seq and miRNA seq (part 2)

The Cancer Genome Atlas (TCGA) は、がんに関するマルチオミクスデータとクリニカル情報の大量に蓄積しているサイトです。 このケーススタディでは、normal と tumor のグループ間で発現差のある遺伝子(DEGs)を抽出し(part 1)、発現を制御している可能性のあるmiRNAの抽出を行います(part 2)。ただし、下記のムービーで見るものより、TCGAの...

RNA-Seq データの品質は RNA の量に依存する

  • Gene Expression
  • High-Throughput Sequencing
Thumbnail Viewing Quartz Seq Data (Gse42268)

GSE42268は、さまざまな量のインプットRNAが含まれるデータセットです。そこで、インプットの量がRNA-Seqのデータの品質にどのような影響があるかを見てみました。 いちばん上は、1ug の total RNA を測定した結果です。値はFPKMなのでノイズとシグナルの境目がぼやけて見難くはなっていますが、だいたい 0.1 ~ 1 の間に境があるようです。たとえば 0.5 以上を信頼で...

遺伝子とエクソンの発現アレイデータの比較

  • Gene Expression
  • Microarray
  • Exon Expression

GSE32006 は、アジレントの遺伝子発現マクロアレイと、エクソンアレイの二つのサブセットから構成されています。hg19のゲノムをロードして、Genome Viewで見ると、遺伝子発現のプローブと、エクソン発現のプローブの位置と、それらの測定したシグナル値を見ることができます。 GSE32006の解析データ (SOAファイル)。Subio Platformにインポートすると詳しくご覧いただ...

遺伝子発現マイクロアレイ: 1色法か、2色法か?

  • Gene Expression
  • Microarray
1c vs 2c

アジレントのマイクロアレイは、1色法または2色法の実験デザインが可能ですが、あなたの研究にはどちらを選ぶのがよいでしょうか? GSE27183 は1色法と2色法を同時に行っているので、参考になるでしょう。 1色法のメリット コストが安い 実験デザインが柔軟で、複雑な研究も可能 2色法のメリット 1色法で2サンプルを比較するより、発現差を検出する点において感度と精度が高い。ただしこれは、2つの...

マウス乳腺発達に関するふたつの独立した研究データの比較

  • Gene Expression
  • Microarray
Compare Two Independent Series of Mouse Mammary Gland Development

下記の二つの Series は、マウスの乳腺の発達をおったタイムコースの実験データです。この二つの研究はそれぞれどくりつしておこなわれたものですが、結果はみごとな一致を見せています。 Scan genes over series ツールを使うと、このような発見が簡単にできるようになります。 Data Source: https://www.ncbi.nlm.nih.gov/geo/quer...

同じ遺伝子で、Measurementが複数ある場合があります。なぜですか?

  • Gene Expression
  • Microarray
FAQ

オンチップ レプリケート マイクロアレイではよくあることですが、同じプローブがスライド上に複数回スポットされていることがあります。これをオンチップレプリケートと呼び、Subio Platformのデフォルトでは、測定値の中央値をSignalとして採用します。 同一遺伝子に設計された複数のプローブ また、これもよくあることですが、同一遺伝子に複数のプローブが設計されていることがあります。これは...