MutMap的分析方法如下圖:
選擇EMS處理的突變體進行回交獲得F1子代,再自交獲得形狀分離的F2子代,選擇F2中具有突變形狀的植株進行混池測序,理論上與突變性狀相關的突變率為1,而與突變性狀不相關的突變率接近0.5,再繪制snp-index
與染色體位置的圖,鎖定峰值所在的區(qū)域進行驗證,如下圖:
藍色的點代表突變位點,紅色的線是根據(jù)windows分析的結果繪制,每個window包含五個snp位點,縱坐標取突變率的平均值,橫坐標取第一和第五的突變位置的中點
圖中snp位點的篩選標準如下:
1.突變頻率與覆蓋度
純合位點認為SNP-index大于等于0.9且覆蓋度大于等于3
雜合位點認為SNP-index大于等于0.3且小于0.9,覆蓋度大于4
2.去除不同樣本間共有突變
去除掉至少有兩個突變方向共有的SNP位點
3.根據(jù)EMS誘導突變原理篩選
由于EMS誘導的突變主要集中在G→A和C→T,所以圖中只保留了這兩種突變
在文章的附件中給出了一系列不同覆蓋度與不同混樣數(shù)量情況下,性狀不相關突變位點在SNP-index上的頻率分布圖
其中n代表混養(yǎng)池中樣本的數(shù)量,G代表平均覆蓋度,由圖中來判斷出純合突變的SNP-index閾值
此外,mutmap方法還考慮了在突變株中存在極少量不突變的樣本情況,也給出了在這種考慮下的與性狀相關SNP在SNP-index上的頻率分布圖,如下:
其中j代表假設的未突變樣本數(shù),n代表混養(yǎng)池中樣本的數(shù)量,G代表平均覆蓋度
NovelBio實驗室數(shù)據(jù)測試:
本次測試主要使用的測試樣本為A,其中陳總給出的突變基因為XXX,所在染色體的位置為:XXXX
測試中使用Varscan算法對xxx與對照組9522樣本進行callSNP,提取其中的somatic突變進行后續(xù)的分析,其中包含一個在目標基因上發(fā)生錯義突變的位點,且突變率為1.
由圖中可以看出具有高突變率的位點較多,在11號染色體關注基因區(qū)域沒有明顯的峰值,在第一,第四染色體有明顯的突變富集,但是突變位點過于密集,經(jīng)過IGV觀察后看到如下情況:
1.目的基因處的突變位點為真,但是突變位點周圍沒有很多高頻突變位點,導致圖中沒有明顯的峰
2.在大量突變位點富集的區(qū)域,在對照組中也存在非常多的突變,導致結果不可信,而且在該位點存在過多的位點也使結果不是很可信
3.根據(jù)覆蓋度的過濾會存在局限性,有部分位點可能同時存在多種突變類型,或者snp和indel共存的情況,這種位點也不是非??尚?/span>
4.部分位點存在幾個位置接近的純合突變位點,圖中存在不是非常明顯峰的區(qū)域,但是不在基因的外顯子區(qū),未發(fā)生氨基酸的改變
初步結論,從圖中來看,沒有達到文章中出現(xiàn)明顯峰的程度,考慮的原因是突變位點過多,產(chǎn)生的干擾比較嚴重,XXX這個樣本的平均覆蓋度為24,已經(jīng)達到文章中提到的(>10×)的要求,但是畫圖使用的突變位點的數(shù)量相差一個數(shù)量級,對結果的影響很大。在Mutmap的文章中同時對一批F2子代的多種突變類型進行研究比如高矮,葉片顏色,并刪除了很多共有突變(即可能不特異影響突變性狀的位點),而且只考慮了G→A和C→T這兩種突變類型,這就可以過濾掉非常多的位點。而在我們的測序數(shù)據(jù)中,只考慮了覆蓋度的問題,在我對覆蓋度梯度測試時,始終不能達到滿意的結果,卡值過低,繪圖所使用的突變位點會更多,干擾非常大,如果卡值過高又會丟掉非常多的信息。此外,由于陳總關注的目的基因所具有的突變類型為C→G,而且也不知道具體誘導突變的過程,沒有對位點的突變種類進行篩選,這個也是導致突變位點很多的原因之一。
Q69樣本補充分析,選擇Q69的somatic突變位點進行過濾畫圖,過濾標準為tumor組覆蓋度大于等于8,突變率大于30%,normal組突變率為0,只選擇G→A和C→T這兩種突變類型進行分析,
總共獲得突變位點2173個,結果圖片如下:
之后在對覆蓋度的卡值進行梯度測試,由于在當時進行varscan分析時平臺的tumor最低閾值為8,當卡值為8時獲得2173個突變,當卡值為10時獲得 當卡值為1085個,15時獲得375個突變位點。