HISAT2インデックスがウェブから提供されていないとき、インデックスを自分で作る方法

もしHISAT2のインデックスファイルがウェブサイトから提供されていなければ、その生物種のインデックスはご自身で作る必要があります。この解説は、Linux や Unix のコマンド操作に慣れていない方を想定しています。

Windowsユーザーだけが必要な準備

WindowsでLinuxシステム用に作られたバイオインフォマティクスツールを使用するために、WSLを導入したと思います。この場合、インデックスファイルを作成する前にやることがあります。Macユーザーの方は必要ありませんので、この章を飛ばしてください。

最初に、コマンドプロンプトを立ち上げ、"wsl" コマンドを入力してください。そして、次のコマンドを入力してパッケージをアップデートします。

apt update

もし、"permission denied" エラーが出たら、コマンドの前に "sudo" を入れてください。例えば下記のようになります。

sudo apt update

sudoモードで実行する際は、Ubuntuのセットアップ時に設定したパスワードを入力してください。これ以降のコマンド入力時に同様のエラーが出たときにも、コマンドの前に "sudo" を入れることで回避してください。

アップデートが終わったら、python2 をインストールします。

apt -y install python2

python2 と python3 の場所を、次のコマンドで調べます。

which python2
which python3

もし、python2の場所が "/usr/bin/python2" で、python3の場所が "/usr/bin/python3" なら、次のコマンドでサブバージョンを調べます。

ll /usr/bin/python2*
ll /usr/bin/python3*

これらの結果が、"/usr/bin/python2.7" や "/usr/bin/python3.8" であれば、次ンコマンドを入力してください。

update-alternatives --install /usr/bin/python python /usr/bin/python3.8 1
update-alternatives --install /usr/bin/python python /usr/bin/python2.7 2

そして、次のコマンドを入力して、ただ "python" と呼ばれたときに、どちらのバージョンを優先して使うかを選びます。

update-alternatives --config python

python3.8 のほうの番号を入力してください。

最後に、次のコマンドを入力して、すべてうまくいったかを確認します。

python -V

これで、"Python 3.8.x" (x は任意の数字)という反応が返ってくれば、この章は完了です。

ゲノム配列のファイルを入手する

染色体ごとに分かれた、FASTA形式のゲノム配列データを入手する必要があります。例えばニワトリのRNA-Seqをやりたいのであれば、Ensemblのニワトリのウェブサイト  を開いて " Download DNA sequence (FASTA) " をクリックして、すべての染色体の .fa.gz ファイルをダウンロードしてください。

ダウンロードしたファイルの名前をできるだけ短く変更することをお勧めします。たとえば、"chr1.fa.gz" や "chrZ.fa.gz." のようにします。この作業は必須ではありませんが、この後のコマンドを手入力するのが楽になります。そして、すべてのgz ファイルを解凍してください。

Index ファイルの作成

Windows ユーザーは、コマンドプロンプトで "wsl" コマンドを入力し、Linuxのコマンド入力待ち状態にしてください。Mac ユーザーは Terminal を起動してください。

ここでは、先ほどのゲノム配列のデータである .fa ファイル群を、自身のユーザーアカウントのドキュメントフォルダーの下の " genomeseq " フォルダーに格納していると仮定します。"cd" コマンドを使って、カレントディレクトリーをgenomeseq フォルダーに移動します。  

Windows ユーザーは次のコマンドを入力します:

cd /mnt/c/Users/XXXXX/Documents/genomeseq

Mac ユーザーは次のコマンドを入力します:

cd /Users/XXXXX/Documents/genomeseq

XXXXX のところには、ご自身のユーザーアカウント名を入れてください。 そして、たとえば  hisat2-2.1.0  フォルダーも同じくドキュメントフォルダーの下にあると仮定すると、次のコマンドでインデックスの作成を開始します。

hisat2-2.2.0 以降のお使いの場合、ゲノムサイズが40億塩基対以上であればhisat2-buildコマンドの代わりにhisat2-build-lコマンドを使ってください。それ以外の場合はhisat2-build または hsiat2-build-s コマンドで大丈夫です。

Windows ユーザーは次のコマンドを入力します:

/mnt/c/Users/XXXXX/Documents/hisat2-2.1.0/hisat2-build -f chr1.fa,chr2.fa,chr3.fa,,,chrZ.fa Gallus_gallus_GRCg6a

Mac ユーザーは次のコマンドを入力します:

[PATH]/hisat2-2.1.0/hisat2-build -f chr1.fa,chr2.fa,chr3.fa,,,chrZ.fa Gallus_gallus_GRCg6a

Macユーザーは、[PATH] のところをご自身のコンピューターの環境に合わせて入力して下さい。",,," のところは、すべての染色体の .fa ファイルを列挙して埋めてください。最後の "Gallus_gallus_GRCg6a" のところは、実際の生物種およびゲノムバージョンが分かるスペースを含まない文字列にしてください。

コマンドの実行が完了するまでお待ちください。終わると、"genomeseq" フォルダーの中に .ht2 のファイル群ができています。