一 引言
1.1編寫目的
進(jìn)行該測(cè)試以及撰寫此報(bào)告有以下幾個(gè)目的
1.通過(guò)對(duì)測(cè)試結(jié)果的分析,得到對(duì)軟件質(zhì)量的評(píng)價(jià);
2.分析在Illumina測(cè)序平臺(tái)下,tophat能夠獲得最大junction數(shù)目以及mapping率的參數(shù);
3.分析在ionproton測(cè)序平臺(tái)下,tophat能夠獲得最大junction數(shù)目以及mapping率的參數(shù);
4.嘗試找到參數(shù)與測(cè)序長(zhǎng)度的經(jīng)驗(yàn)性關(guān)系。
1.2背景
Tophat是一個(gè)RNA-seq數(shù)據(jù)分析工具,其核心程序是bowtie或bowtie2.可以快速的確認(rèn)exon-exon剪切拼接。其上游軟件是Bowtie,下游軟件是Cufflinks。
理論上,Tophat是針對(duì)Illumina Genome Analyzer開(kāi)發(fā)的,針對(duì)75bp以上長(zhǎng)度的短序列進(jìn)行了優(yōu)化。該軟件是現(xiàn)在二代測(cè)序回帖軟件中使用最廣泛的軟件。
Illumina屬于二代測(cè)序中最經(jīng)典的平臺(tái)之一。其測(cè)序長(zhǎng)度為幾十bp。
Ionproton屬于二代測(cè)序中較新的平臺(tái),可以認(rèn)為是二點(diǎn)五代測(cè)序平臺(tái),其測(cè)序長(zhǎng)度平均在100個(gè)bp以上。目前我們公司使用的就是這個(gè)平臺(tái)的進(jìn)行二代測(cè)序分析。
在目前公司的數(shù)據(jù)分析中,出現(xiàn)主要的問(wèn)題是使用tophat進(jìn)行ionproton平臺(tái)分析時(shí),默認(rèn)參數(shù)的mapping率較低,同時(shí)該參數(shù)產(chǎn)生的junction數(shù)也很低,不足以進(jìn)行差異可變剪接分析。因此,提出此次工作內(nèi)容,探索更好的參數(shù)配置,提高mapping率以及junction數(shù)目。
1.3用戶群
主要讀者:公司研發(fā)部,公司管理人員。
其他讀者:項(xiàng)目及銷售相關(guān)人員。
1.4 數(shù)據(jù)對(duì)象:
Illumina數(shù)據(jù) |
Ionproton數(shù)據(jù) |
Illumina-low:liguanhu human |
Ionproton-low: congsongfeng human |
Illumina-high:zhuanliping mouse |
Ionproton-high:dingning human |
1.5 測(cè)試階段
軟件測(cè)試
1.6測(cè)試工具
Samtools version:0.1.18;
IGV version:2.3.18;
Awk;
1.7 參考資料
《Tophat user guide》
二 測(cè)試概要
關(guān)于Tophat參數(shù)測(cè)試從2013年9月10日開(kāi)始到2013年9月17日結(jié)束,共持續(xù)7天,一共94個(gè)測(cè)試用例,平均每個(gè)參數(shù)測(cè)試15次。
2.1工作計(jì)劃進(jìn)展
針對(duì)Illumina平臺(tái):
測(cè)試參數(shù) |
計(jì)劃開(kāi)始時(shí)間 |
實(shí)際開(kāi)始時(shí)間 |
計(jì)劃完成時(shí)間 |
實(shí)際完成時(shí)間 |
工作完成情況 |
Anchor-length |
2013年9月10日 |
2013年9月10日 |
2013年9月10日 |
2013年9月10日 |
順利 |
Max-insertion |
2013年9月10日 |
2013年9月10日 |
2013年9月10日 |
2013年9月10日 |
順利 |
Max-deletion |
2013年9月10日 |
2013年9月10日 |
2013年9月10日 |
2013年9月10日 |
順利 |
Splice-mismatch |
2013年9月10日 |
2013年9月10日 |
2013年9月10日 |
2013年9月10日 |
順利 |
Read-mismatch |
2013年9月11日 |
2013年9月11日 |
2013年9月12日 |
2013年9月12日 |
順利 |
Read-gap-length |
2013年9月11日 |
2013年9月11日 |
2013年9月12日 |
2013年9月12日 |
順利 |
Read-edit-dist |
2013年9月11日 |
2013年9月11日 |
2013年9月12日 |
2013年9月12日 |
順利 |
Segment-length |
2013年9月12日 |
2013年9月12日 |
2013年9月12日 |
2013年9月12日 |
順利 |
針對(duì)ionproton平臺(tái):
測(cè)試參數(shù) |
計(jì)劃開(kāi)始時(shí)間 |
實(shí)際開(kāi)始時(shí)間 |
計(jì)劃完成時(shí)間 |
實(shí)際完成時(shí)間 |
工作完成情況 |
Anchor-length |
2013年9月16日 |
2013年9月16日 |
2013年9月16日 |
2013年9月16日 |
順利 |
Max-insertion |
2013年9月16日 |
2013年9月16日 |
2013年9月16日 |
2013年9月16日 |
順利 |
Max-deletion |
2013年9月16日 |
2013年9月16日 |
2013年9月16日 |
2013年9月16日 |
順利 |
Splice-mismatch |
2013年9月16日 |
2013年9月16日 |
2013年9月16日 |
2013年9月16日 |
順利 |
Read-mismatch |
2013年9月16日 |
2013年9月16日 |
2013年9月16日 |
2013年9月16日 |
順利 |
Read-gap-length |
2013年9月16日 |
2013年9月16日 |
2013年9月16日 |
2013年9月16日 |
順利 |
Read-edit-dist |
2013年9月16日 |
2013年9月16日 |
2013年9月16日 |
2013年9月16日 |
順利 |
Segment-length |
2013年9月16日 |
2013年9月16日 |
2013年9月16日 |
2013年9月16日 |
順利 |
2.2測(cè)試執(zhí)行
此次測(cè)試嚴(yán)格按照項(xiàng)目計(jì)劃和測(cè)試計(jì)劃執(zhí)行,按時(shí)完成了測(cè)試計(jì)劃規(guī)定的測(cè)試對(duì)象的測(cè)試。針對(duì)測(cè)試計(jì)劃制定規(guī)定的測(cè)試策略,依據(jù)測(cè)試計(jì)劃和測(cè)試用例,將網(wǎng)絡(luò)數(shù)據(jù)以及我們觀測(cè)的關(guān)鍵參數(shù)進(jìn)行了完整的測(cè)試。
2.3測(cè)試用例
2.3.1功能性
測(cè)試主要實(shí)現(xiàn),包括較高的mapping率以及較多的junction數(shù)目。
三 測(cè)試環(huán)境
3.1軟硬件環(huán)境
硬件環(huán)境 |
服務(wù)器 |
硬件配置 |
CPU:Intel Xeon 2.66GHz Memory:90GB HD:29TB |
軟件配置 |
OS:Fedora release 14 Tophat 2.0.8 |
網(wǎng)絡(luò)環(huán)境 |
100M LAN |
四 測(cè)試結(jié)果
4.1針對(duì)Illumina測(cè)序平臺(tái)數(shù)據(jù)
為簡(jiǎn)化回帖工作量,從測(cè)試的數(shù)據(jù)中提取了20萬(wàn)條reads數(shù)據(jù)進(jìn)行單端測(cè)試。
通過(guò)測(cè)試,統(tǒng)計(jì)出anchor-length長(zhǎng)度對(duì)于junction數(shù)目關(guān)系如下圖所示:
通過(guò)測(cè)試數(shù)據(jù)可以知道對(duì)于Illumina測(cè)序平臺(tái)數(shù)據(jù)而言,當(dāng)anchor-length大于10以后,junction數(shù)目顯著降低,而在5到10這個(gè)范圍內(nèi)沒(méi)有顯著變化。
通過(guò)測(cè)試數(shù)據(jù)可以知道對(duì)于Illumina測(cè)序平臺(tái)數(shù)據(jù)而言,當(dāng)anchor-length大于10以后,mapping率降低,但是可以通過(guò)豎軸可以觀測(cè)出這個(gè)mapping率的變化并不明顯。
通過(guò)測(cè)試數(shù)據(jù)可以知道對(duì)于Illumina測(cè)序平臺(tái)數(shù)據(jù)而言,junction數(shù)目與mapping率基本成正比關(guān)系。
通過(guò)測(cè)試數(shù)據(jù)可以知道對(duì)于Illumina測(cè)序平臺(tái)數(shù)據(jù)而言,read-mismatch數(shù)字升高與junction數(shù)目基本成反比關(guān)系,隨著read-mismatch數(shù)目變長(zhǎng),junction數(shù)目急速降低。
通過(guò)測(cè)試數(shù)據(jù)可以知道對(duì)于Illumina測(cè)序平臺(tái)數(shù)據(jù)而言,read-mismatch數(shù)字升高與mapping率基本成正比關(guān)系,隨著read-mismatch數(shù)目變長(zhǎng),mapping率上升明顯。
通過(guò)測(cè)試數(shù)據(jù)可以知道對(duì)于Illumina測(cè)序平臺(tái)數(shù)據(jù)而言,read-gap數(shù)字升高與mapping率基本成正比關(guān)系,隨著read-mismatch數(shù)目變長(zhǎng),mapping率上升。整體上升大約1.2%。
通過(guò)測(cè)試數(shù)據(jù)可以知道對(duì)于Illumina測(cè)序平臺(tái)數(shù)據(jù)而言,segment長(zhǎng)度升高與junction的數(shù)目關(guān)系,在二十以內(nèi)時(shí),segment長(zhǎng)度變長(zhǎng),junction數(shù)目上升明顯。隨著read-mismatch數(shù)目變長(zhǎng),mapping率上升。整體上升大約1.2%。
3.2針對(duì)ionproton測(cè)序平臺(tái)數(shù)據(jù)
為簡(jiǎn)化回帖工作量,從測(cè)試的數(shù)據(jù)中提取了20萬(wàn)條reads數(shù)據(jù)進(jìn)行單端測(cè)試。
由于有了對(duì)于Illumina平臺(tái)的工作支持,所以針對(duì)ionproton的測(cè)試工作速度提高很多。
由于我們統(tǒng)一了read-mismatch參數(shù),read-gap參數(shù),以及read-edit參數(shù)。所以這三個(gè)參數(shù)的測(cè)試圖都可以從上圖中看出信息。
通過(guò)測(cè)試數(shù)據(jù)可以知道對(duì)于ionproton測(cè)序平臺(tái)數(shù)據(jù)而言,針對(duì)同一anchor-length長(zhǎng)度而言,長(zhǎng)度8和長(zhǎng)度15,16的情況下junction數(shù)目可以一致,所以認(rèn)為anchor-length對(duì)junction數(shù)目影響不明顯。
通過(guò)測(cè)試數(shù)據(jù)可以知道對(duì)于ionproton測(cè)序平臺(tái)數(shù)據(jù)而言,針對(duì)同一max-deletion長(zhǎng)度而言,長(zhǎng)度3和長(zhǎng)度5的情況下junction數(shù)目可以一致,所以認(rèn)為max-deletion對(duì)junction數(shù)目影響不明顯。
由于我們統(tǒng)一了max-insertion參數(shù),max-deletion參數(shù)。所以這兩個(gè)個(gè)參數(shù)的測(cè)試圖都可以從上圖中看出信息。
通過(guò)測(cè)試數(shù)據(jù)可以知道對(duì)于ionproton測(cè)序平臺(tái)數(shù)據(jù)而言,在segment-length小于36時(shí),可以發(fā)現(xiàn)隨著segment-length長(zhǎng)度變長(zhǎng),junction數(shù)目升高。而在36以后這個(gè)數(shù)字下降,但是總體比30以內(nèi)長(zhǎng)度的大。
通過(guò)測(cè)試數(shù)據(jù)可以知道對(duì)于ionproton測(cè)序平臺(tái)數(shù)據(jù)而言,在segment-length小于36時(shí),可以發(fā)現(xiàn)隨著segment-length長(zhǎng)度變長(zhǎng),mapping總體目升高。而在36以后這個(gè)數(shù)字有下降的情況,但是總體比30以內(nèi)長(zhǎng)度的大。
五.測(cè)試結(jié)論
通過(guò)查閱已經(jīng)有的資料,我們知道Illumina測(cè)序平臺(tái)和ionproton平臺(tái)最直觀的差別在于后者的平均測(cè)序長(zhǎng)度比前者長(zhǎng);在我們測(cè)試的例子中,Illumina的測(cè)序長(zhǎng)度在50-97個(gè)bp之間,而ionproton的測(cè)序長(zhǎng)度在50到235個(gè)bp之間。從此可以看出兩者的最合適參數(shù)應(yīng)該是有差別的。通過(guò)我們的參數(shù)實(shí)驗(yàn),可以知道,對(duì)于Illumina測(cè)序平臺(tái)有如下實(shí)驗(yàn)結(jié)果:
1.貼合長(zhǎng)度越短,匹配的reads數(shù)越高,相應(yīng)的mapping率也在一定范圍內(nèi)會(huì)升高。可知,只需要在anchor-length在5-10以內(nèi)進(jìn)行討論。隨著a參數(shù)的增加(從5到10),junction下降的數(shù)據(jù)很低,幾乎維持不變。因此可以認(rèn)為在5-9的范圍內(nèi)可以任意取值。
2.前三個(gè)參數(shù)對(duì)于序列的discard沒(méi)有影響。
3.隨著第一項(xiàng)參數(shù)的增加,junction數(shù)目下降很明顯,然而mapping率卻增加的很快。推測(cè)這個(gè)原因可能是因?yàn)楦嗟?/span>junction序列由于容錯(cuò)而變成能夠匹配了。所以為了mapping率而言,我認(rèn)為用默認(rèn)參數(shù)就可以。
4.第二項(xiàng)參數(shù)的變化對(duì)于junction數(shù)并沒(méi)有影響,對(duì)于mapping率有一些影響,但是很小??梢栽?/span>0~第三項(xiàng)參數(shù)之間隨意選取。
5.第三項(xiàng)參數(shù)的變化對(duì)mapping率影響很小。但是對(duì)junction的影響很大,發(fā)現(xiàn)這個(gè)參數(shù)越小,junction數(shù)越高。第三個(gè)參數(shù)對(duì)于junction的影響很大,這個(gè)值越小越好,由于前兩個(gè)參數(shù)應(yīng)該小于或等于這個(gè)參數(shù),當(dāng)?shù)谌齻€(gè)參數(shù)為0時(shí),mapping率下降非常厲害,所以不將前三個(gè)參數(shù)設(shè)置為0,
6.當(dāng)segment-length為22的時(shí)候效果最好。
對(duì)于ionproton測(cè)序平臺(tái)而言,我們可以獲得如下結(jié)論:
1.anchor-length,max-deletion,max-insertion,splice-mismatch參數(shù)的變化對(duì)于junction數(shù)目,mapping率影響不大。
2.在tophat的所有的參數(shù)中,read-mismatch,read-gap以及read-edit對(duì)于mapping率的影響很大,我們發(fā)現(xiàn)在這三個(gè)參數(shù)都設(shè)置為6的時(shí)候mapping率能夠提升很多,變成默認(rèn)參數(shù)情況下的兩倍的mapping率。
3.我們發(fā)現(xiàn)segment-length參數(shù)對(duì)于junction數(shù)目變化有很大影響,其中,當(dāng)segment-length為36時(shí),相比默認(rèn)參數(shù)6074junction數(shù)目而言,此時(shí)的junction數(shù)目為9368.總體而言,提升效果是顯著的。
六.最后測(cè)試的參數(shù)
對(duì)于20萬(wàn)reads的實(shí)驗(yàn)樣本而言,參數(shù)及結(jié)果如下:
測(cè)試平臺(tái) |
read-mismatch |
read-gap-length |
read-edit-dist |
a |
m |
maxinsertion |
max-deletion |
segment |
junction_num |
unmapped |
Illumina |
1 |
1 |
1 |
8 |
1 |
3 |
3 |
22 |
4957 |
42902 |
ionproton |
6 |
6 |
6 |
8 |
0 |
5 |
5 |
36 |
9368 |
96725 |