一 引言
1.1編寫目的
進(jìn)行該測試以及撰寫此報(bào)告有以下幾個目的:
1) 通過使用Trinity軟件,進(jìn)行不同組裝策略的轉(zhuǎn)錄組組裝測試,得到組裝效果最好的組裝策略;
2) Trinity組裝所需時間,內(nèi)存及存儲峰值評估;
1.2背景
由于第二代測序測序讀長短、質(zhì)量值偏低、數(shù)據(jù)量大。目前轉(zhuǎn)錄組組裝面臨的問題主要有:1)轉(zhuǎn)錄本覆蓋度不均勻,一些轉(zhuǎn)錄本覆蓋度很低,一些則會跟高;2)由于序列本身的偏向性,轉(zhuǎn)錄本內(nèi)reads覆蓋度存在不一致的可能;3)與一個測序正確但低表達(dá)的轉(zhuǎn)錄本相比,一個有測序錯誤但高表達(dá)的轉(zhuǎn)錄本,其表達(dá)豐度可能更高;4)由于可變剪切,構(gòu)建數(shù)據(jù)結(jié)構(gòu)需考慮到一個基因有多個轉(zhuǎn)錄本的可能;5)來自不同基因的重復(fù)序列可能給組裝帶來歧義。
本次工作的目的在于通過不同組裝策略的測試,以得到一種最優(yōu)的組裝方案。組裝策略主要有以下幾種:
1) 6個樣品單獨(dú)組裝,然后將組裝結(jié)果進(jìn)行聚類;
2) 6個樣品數(shù)據(jù)放在一起組裝;
3) 6個樣品提取高質(zhì)量數(shù)據(jù),進(jìn)行組裝,低質(zhì)量數(shù)據(jù),進(jìn)行組裝;然后聯(lián)合組裝;
4) 使用Genome-guided參數(shù)與不使用該參數(shù)
1.3用戶群
主要讀者:公司研發(fā)部,公司管理人員。
其他讀者:項(xiàng)目及銷售相關(guān)人員。
1.4 數(shù)據(jù)對象
物種 |
數(shù)據(jù)類型 |
樣品個數(shù) |
測序類型 |
水稻 |
mRNA |
6個 |
PE90 |
1.5 測試階段
軟件測試
1.6測試工具
1) Perl;
2) Trinity
1.7 參考資料
1) Brian J Haas, Alexie Papanicolaou, Moran Yassour V, et al. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis, 11 July 2013; doi:10.1038.
2) Geo Pertea, Xiaoqiu Huang , et al. TIGR Gene Indices clustering tools (TGICL): a software system for fast clustering of large EST datasets, Vol. 19 no. 5 2003,
二 .測試概要
關(guān)于此項(xiàng)測試工作從2014年4月10日開始預(yù)計(jì)到2014年5月30日結(jié)束。
2.1 主要測試內(nèi)容如下:
1) Trinity安裝以及測試;
2) 測試數(shù)據(jù)獲取及處理;
3) 編寫任務(wù)腳本及任務(wù)提交;
4) TCICL安裝以及測試;
5) 組裝結(jié)果質(zhì)量評估及統(tǒng)計(jì);
6) 不同組裝方法結(jié)果比較;
7) 編寫結(jié)果報(bào)告
2.2 測試詳細(xì)思路描述:
1) 6個樣品單獨(dú)組裝;
2) 6個樣品組裝結(jié)果,使用TGICL進(jìn)行聚類,組裝成UniGene;
3) 6個樣品各取約2.5G數(shù)據(jù),合起來共約16G數(shù)據(jù)組裝,(因6個樣品所有數(shù)據(jù)24G,數(shù)據(jù)量太大,trinity跑不通);
4) 取一個樣品使用Genome-guided 參數(shù),用有參考序列的組裝方式進(jìn)行組裝;
5) 比較使用一個樣品(4G數(shù)據(jù)),與使用6個樣品(16G數(shù)據(jù))的組裝結(jié)果差異
6) 比較使用6個樣品單獨(dú)組裝,然后聚類成的UniGene,與6個樣品數(shù)據(jù)合起來(16G數(shù)據(jù))組裝結(jié)果差異
7) 比較使用Genome-guided 參數(shù),和不使用Genome-guided 參數(shù)結(jié)果差異
2.3工作計(jì)劃進(jìn)展
測試內(nèi)容 |
計(jì)劃開始時間 |
實(shí)際開始時間 |
計(jì)劃完成時間 |
實(shí)際完成時間 |
工作完成情況 |
軟件安裝以及測試 |
2014年4月10日 |
2014年4月10日 |
2014年4月10日 |
已完成 |
|
測試數(shù)據(jù)獲取及前期處理 |
2014年4月10日 |
2014年4月18日 |
2014年4月14日 |
2014年4月18日 |
已完成 |
編寫任務(wù)腳本及任務(wù)提交 |
2014年4月20日 |
2014年4月19日 |
2014年4月28日 |
2014年5月4日 |
已完成 |
TCICL安裝以及測試 |
2014年4月21日 |
2014年4月28日 |
2014年4月29日 |
2014年5月15日 |
完成 |
組裝結(jié)果質(zhì)量評估及統(tǒng)計(jì) |
2014年4月29日 |
2014年5月16日 |
2014年5月15日 |
2014年5月20日 |
完成 |
不同組裝方法結(jié)果比較 |
2014年5月17日 |
2014年5月20日 |
2014年5月21日 |
2014年5月21日 |
完成 |
編寫結(jié)果報(bào)告 |
2014年5月21日 |
2014年5月21日 |
2014年5月22日 |
2014年5月22日 |
完成 |
2.2測試執(zhí)行
此次測試嚴(yán)格按照項(xiàng)目計(jì)劃和測試計(jì)劃執(zhí)行,按時完成了測試計(jì)劃規(guī)定的測試對象的測試。針對測試計(jì)劃制定規(guī)定的測試策略,依據(jù)測試計(jì)劃和測試用例,將網(wǎng)絡(luò)數(shù)據(jù)以及我們觀測的關(guān)鍵參數(shù)進(jìn)行了完整的測試。
2.3測試用例
2.3.1功能性
1) 1.測試Trinity軟件,可以正常運(yùn)行。
2) 2.測試TGICL軟件,可以正常運(yùn)行
3) 3.評估不同組裝策略組裝質(zhì)量狀況。
三 測試環(huán)境
3.1軟硬件環(huán)境
硬件環(huán)境 |
服務(wù)器 |
硬件配置 |
CPU:Intel Xeon 2.66GHz *20 Memory:90GB HD:29TB |
軟件配置 |
OS:Fedora release 14,Ubuntu 12.10 Trinity |
網(wǎng)絡(luò)環(huán)境 |
20M LAN |
四 測試結(jié)果
使用不同方法組裝統(tǒng)計(jì)結(jié)果見如下表格:
物種 |
水稻 |
|||||||||
組裝策略 |
直接組裝 |
直接組裝 |
直接組裝 |
直接組裝 |
直接組裝 |
直接組裝 |
6個樣品部分?jǐn)?shù)據(jù)合并組裝 |
3個樣品單獨(dú)組裝后,再聚類 |
4個樣品單獨(dú)組裝后,再聚類 |
5個樣品單獨(dú)組裝后,再聚類 |
數(shù)據(jù)量 |
4G |
4G |
4G |
4G |
4G |
4G |
16G |
12G |
16G |
20G |
樣品名稱 |
CQ9522_2mm_1A |
CQ9522_2mm_2A |
CQ9522_4mm_1A |
CQ9522_4mm_2A |
CQ9522_6mm_1A |
eg1D34_1A |
Sample6All |
Sample3Culster |
Sample4Culster |
Sample5Culster |
Total sequences |
45444 |
45345 |
47746 |
47915 |
48173 |
48561 |
283184 |
53007 |
58131 |
62566 |
Total bases |
42320514 |
42218957 |
44463230 |
44589916 |
44968574 |
45256330 |
263817521 |
52432158 |
59334530 |
65271000 |
Min sequence length |
201 |
201 |
201 |
201 |
201 |
201 |
201 |
201 |
201 |
201 |
Max sequence length |
13797 |
13797 |
12820 |
14676 |
14693 |
13288 |
14693 |
13797 |
15307 |
15307 |
Average sequence length |
931.27 |
931.06 |
931.25 |
930.6 |
933.48 |
931.95 |
931.61 |
989.16 |
1020.7 |
1043.23 |
Median sequence length |
583 |
582 |
601 |
582 |
580 |
601 |
587 |
627 |
642 |
657 |
N25 length |
2398 |
2398 |
2331 |
2414 |
2415 |
2320 |
2379 |
2545 |
2654 |
2723 |
N50 length |
1504 |
1503 |
1483 |
1498 |
1520 |
1474 |
1496 |
1612 |
1681 |
1732 |
N75 length |
773 |
773 |
788 |
770 |
782 |
780 |
778 |
867 |
910 |
946 |
N90 length |
375 |
375 |
378 |
375 |
375 |
381 |
376 |
398 |
409 |
420 |
N95 length |
282 |
282 |
284 |
285 |
282 |
289 |
284 |
286 |
289 |
290 |
querygene number |
39461 |
39376 |
40564 |
40759 |
40673 |
41318 |
109371 |
44589 |
48253 |
51281 |
subjectgene number |
41754 |
41609 |
41338 |
41977 |
41652 |
41396 |
46500 |
43770 |
44768 |
45443 |
gene region alignment percentage |
61.11% |
61.17% |
61.97% |
62.81% |
62.49% |
62.49% |
67.13% |
62.73% |
64.21% |
64.33% |
組裝reads使用率 |
91.76% |
90.79% |
91.36% |
91.45% |
90.11% |
91.42% |
94.43% |
92.69% |
93.28% |
93.72% |
存儲峰值 |
35G |
35G |
35G |
35G |
35G |
35G |
200G |
80G |
80G |
80G |
內(nèi)存峰值 |
38G |
38G |
38G |
38G |
38G |
38G |
90G |
78G |
78G |
78G |
運(yùn)行時間(小時) |
3 |
3 |
3 |
3 |
3 |
3 |
18 |
3+1 |
3+1.2 |
3+1.5 |
4.1 軟件安裝
1) 安裝新版2014年4月新版Trinity( trinityrnaseq_r20140413.tar.bz);
2) 安裝perl 模塊PerlIO-gzip-0.18.tar.gz;
3) 安裝TGICL(TGICL-2.1.tar.gz) ;
4) 安裝CD-HIT;
5) 安裝GMAP and GSNAP(gmap-gsnap-2014-04-20.tar.gz );
五.測試結(jié)論與討論
從上述統(tǒng)計(jì)結(jié)果可以看出
1) 對于Contigs N50:樣品單獨(dú)組裝與合并clean data數(shù)據(jù)后組裝的N50差不多,樣品單獨(dú)組裝后合并略有提升。
2) Contigs數(shù)量:樣品單獨(dú)組裝后合并contigs數(shù)量比單個樣品組裝contigs數(shù)量稍多,合并并clean data數(shù)據(jù)后組裝contigs數(shù)量明顯增多(但是,數(shù)量太多)
3) Reads 使用率:合并clean data數(shù)據(jù)后組裝、樣品單獨(dú)組裝后合并 reads使用率略高于單個樣品組裝
4) 基因區(qū)域覆蓋度:合并clean data數(shù)據(jù)后組裝、樣品單獨(dú)組裝后合并 reads使用率略高于單個樣品組裝
5) 另外:
6) Genome-guided 模式?jīng)]有測通,故不在此次比較范圍內(nèi);
7) 6個樣品單獨(dú)組裝后聚類,TGICL沒有跑通,故使用了3個樣品聚類、4個樣品聚類、5個樣品聚類的結(jié)果進(jìn)行比較。
8) CD-HIT是另外一種聚類軟件,2個樣品聚類可以成功運(yùn)行,但是3個樣品聚類時,一直顯示任務(wù)運(yùn)行但是無結(jié)果,也不報(bào)錯。
六.測試總結(jié)
根據(jù)本次測試結(jié)果,綜合考慮到內(nèi)存、運(yùn)行時間、組裝結(jié)果、存儲等因素,樣品單獨(dú)組裝后聚類的效果比較好。