Hazy Ideas

日々の勉強の気づきを書き出しています

QIIME2でNCBIデータベースを扱う

Anaconda環境下でインストールしたCUI遺伝子解析ソフトQIIME2で、NCBIから落としたntデータベースを扱いたいので、メモ。

 

どうやらBroccとRESCRIPtという2種類の方法があるようなので、qiime2-2020.8の上でとりあえずインストールする。

 

Brocc

pip install q2-brocc

Q2-Brocc: Community Tutorial - Tutorials - QIIME 2 Forum

 

RESCRIPt

conda install -c conda-forge -c bioconda -c qiime2 -c defaults xmltodict

pip install git+https://github.com/bokulich-lab/RESCRIPt.git

GitHub - bokulich-lab/RESCRIPt: REference Sequence annotation and CuRatIon Pipeline

こちらは大きな元データベースから、指定の遺伝子データベースをつくることもできるらしい。referenceが用意されてない配列でも自分で作れるのか。

 

今回の目的に合うのはbroccのような気がするのでbroccで進める。

手持ちのデータもあったけどうまく行かないので、ひとまずチュートリアルどおりに勧めてみる。

データベースのダウンロード

wget "ftp://ftp.ncbi.nlm.nih.gov/blast/db/nt.??.tar.gz"

BLASTDBという環境変数を設定する

export BLASTDB=/path/to/directory/containing/nt-database-files

同じ文をbashrcにコピペした。

vim ~/.bashrc

iで編集、:wqで終了。terminalを再起動して、sourceファイルの変更を反映させる。

 

taxonomy filesをダウンロードする

create_local_taxonomy_db.py

 

 

続く 

 

追記: 2022年6月

それなりの方に検索から来て見てもらっているようで、申し訳ないので追記します。私はQIIME2にNCBIデータベースを落とし込むのをあきらめました。。。結果として、QIIME2用に整えた形式も出している、他のリファレンスデータベースを使いました。