Hazy Ideas

日々の勉強の気づきを書き出しています

DDBJへのシークエンスデータ アップロード方法メモ

This page is for the method and memos how to sequence data uploading to DDBJ DRA appropriately (without error).

This sever is quite heavy and the process of uploading is very complicated.

 

データアップに何日もかかって、嫌気がさしてきたので、もう二度とこんな自体に陥らないためのメモ。1プロセスに30分かかるってどうゆうこと。

 

参照先

次世代シークエンサ(NGS)のデータをDDBJ Sequence Read Archive (DRA)に登録する | TogoTV

シーケンスデータのDDBJへの登録について | 株式会社生物技研

 

!!!注意点!!!

・シークエンスデータに対して、たくさんのメタデータを紐付ける構造をしている。注意点は、数合わせをしておかないとerrorがあとから頻発すること。過不足なく各bioSample, Experiment, Runが入るように注意する。

・何かしらのエラーで止まったら、一度ログアウトしてやり直すのが良い(そうしたら解決することがあった)。

・タブ区切りファイルをセル計算ソフトで編集した際に、「"」がつく(linux)。これを消さないと、アップしたときにエラーが起こるので要注意!

・なにかと「Save」して「.tsvファイル」を出力する工程があるが、多サンプルだと、そのプロセスに30分近く待たされるので、時間には超余裕を持って取り組むこと。

・Sample, Experiment, Runの数が合わず、前工程に戻って修正しようとしても経験上うまく行かなかった。悲しいけども、submission IDを新規でつくって1からやり直したほうが早い。

・本作業にはUbuntuを使用しているが、ここで起こった手間とトラブルは、Macwindowsでは違うのかもしれない。

 

 

工程

1.Submission IDを作成する

1つのIDでよいが、あと工程でミスったら、ID作成からやり直したほうが無難。

 

2.シークエンスデータアップ

ターミナルで該当フォルダまで移動し、以下を入力。

scp *fastq アカウント名@ftp-private.ddbj.nig.ac.jp:~/サブミッションID
sshアカウント名@ftp-private.ddbj.nig.ac.jp

(更新)

ホスト鍵不一致の警告が表示され ftp-private にアクセスできません

 

3.DRAからSubmissionの順に進める

Data Release日を入力し、SubmitterにPIの名前とアドレスを入れる。

 

4.BioProjectを入力

投稿予定の論文のタイトルとアブストをコピペして修正する。PSUBからはじまるIDが付与される。これは1研究1回の登録でいいかも。

 

5.BioSampleを入力

落としたtxtフォーマットを、タブ区切りにしてサンプル名を入力し、ダブル区おテーションがファイル内から消えていることを確認してから、アップロードする。なぜtxtなのかは謎。

アップロードしたデータ数に対して、過不足のないBioSample数にすること。ここで痛い目にあって何度もやりなおした。

 

6.Experimentを入力

入力先のテーブルには、初期状態だとbioSampleと同数の行が自動的にできている。後工程でミスして、戻ってきたときに、この数にズレが生じることがあるが、こうなると経験上どうやってもあとでエラーが出るので、諦める(1.に戻る)。

Save -> Download TSV fille にすごく時間がかかる(30分近くかかることも)。

落としたtsvファイルに実験情報を入力し、保存。このとき行数・列数が変わらないように注意。保存後は、テキストエディターで開き「"」が入ってないか確認する。(libreOfficeで編集すると必ず「"」が入るので、Text Editorのfind&replace検索で消しておく必要があった。きっと他にいい方法があるはず...)

ちなみに選択項目(NGSのアンプリコン解析)は、METAGENOME, PCR, AMPLICON, Illumina MiSeq, paired (FR), 400, 502

 

7.Runを入力

Save -> Download TSV fille でシートをおとし、必要事項を入力。

このときアップロードしたシークエンスに対して、MD5というハッシュ関数(ファイルの破損がないか確認できるらしい)を入力する。確認方法は、ターミナル上で以下コマンドを入力する。

md5sum *fastq

 

8.Submit/Update DRA metadataを押す

SaveとSubmitの結果が出るまでに、めっちゃ時間かかる。ここでエラーが出たら、最初からやり直したほうがよいと思われる。

前回は、「DATA_BLOCKED:File is required」が出て解決策がなく詰んだ。bioSampleとExperienceの整合性の問題が原因だったのかと。Sampleにシークエンスデータにない欠番を含めていたのが根本の原因だった。どう修正してもうまく入力されず、最初からやり直した。

 

9.Validate data filesを押す

”Data validation of (submission ID) have failed." え、なんで?

 

 追記

Runのところでデータのtypeをfastqではなく、generic_fastqにすることでvalidation時のエラーはなくなった。

審査結果について日本語でやり取りできるのは楽なポイント。

ちなみにエラー解決策がわからず、NCBIへのアップロードも試みたが、こちらはタイミング悪くサーバーメンテナンス中で、最後まで進めなかった。それ以外のプロセスはさくさく進められたので残念。