單細胞轉(zhuǎn)錄組測序產(chǎn)生的數(shù)據(jù)是成百上千個基因在上萬個細胞中的表達情況,屬于高維數(shù)據(jù),我們需要對數(shù)據(jù)進行嚴格的質(zhì)控與過濾,將合格的數(shù)據(jù)降維到低維子空間,使數(shù)據(jù)可視化。
上一期已經(jīng)帶大家了解了scRNA-Seq數(shù)據(jù)的預(yù)處理,那么本期,小編就來介紹一下數(shù)據(jù)分析的標準化與聚類分析。
一、上海烈冰科技數(shù)據(jù)分析流程介紹
二、工具介紹
Seurat_Normalized(標準化)——采用Seurat package對數(shù)據(jù)進行過濾并校正批次效應(yīng)(Batch Effect),采用PCA算法及tSNE算法對基因表達矩陣進行降維處理和信息可視化展示。
Seurat_Cluster(聚類分析)——根據(jù)基因表達的情況,通過無監(jiān)督聚類算法(Graph-based clustering或k-means clustering) 將降維后的細胞聚類分群。再通過Wilcoxon秩和檢驗分析計算出不同細胞類群的標識基因(Marker Gene),并對所屬細胞類群進行推測和鑒定。
三、結(jié)果展示
(一) 數(shù)據(jù)標準化
1.線粒體RNA占比:
由于Dead Cell胞內(nèi)RNA會流出,線粒體RNA占比會隨之增高,因此我們一般通過設(shè)定線粒體RNA占比閾值來過濾Dead Cell。
左圖描述了每個細胞線粒體RNA占比—UMI數(shù)量相關(guān)性,紅色和黑色圓點代表兩個樣本的細胞。X軸代表每個細胞對應(yīng)的UMI數(shù)量,Y軸代表每個細胞線粒體RNA占比;右圖為細胞線粒體RNA占比分布的Violin圖。
圖中線粒體RNA占比閾值建議設(shè)為0.2,線粒體RNA占比超過0.2的細胞認為是Dead Cell,可將其過濾掉。當(dāng)然,不同類型的細胞線粒體RNA占比也不同,例如心肌細胞、肝細胞等高代謝、凋亡類細胞,其線粒體RNA占比相對較高。因此,需要結(jié)合具體的細胞類型來最終決定線粒體RNA占比的閾值。
2.細胞的基因數(shù)量:
我們一般通過設(shè)定細胞的最小基因數(shù)量去除假細胞和低質(zhì)量細胞(Low Quality Cell);通過設(shè)定細胞的最大基因數(shù)量可以一定程度上去除雙細胞(Doublet Cell)。
左圖為每個細胞的基因—UMI數(shù)量相關(guān)性分析圖,右圖為每個細胞基因數(shù)量分布的Violin圖。圖中基因數(shù)量閾值建議設(shè)定為200-6000,可有效去除假細胞、低質(zhì)量細胞和雙細胞。
3.PCA分析:
該圖主要描述了不同樣本中所有細胞在PC1和PC2(即主成分分析中影響最大的兩個主成分)所組成的面中的定位情況。
4.t-SNE圖:
主要展示了每個樣本中所有細胞的tSNE定位情況、樣本融合情況,以及通過基因數(shù)量、UMI數(shù)量、線粒體RNA占比進行染色的情況,如下所示:
(二)聚類分析
1.細胞分群的t-SNE圖:
該圖代表t-SNE定位并基于Graphcluster或者KMean算法無監(jiān)督聚類后的分群情況。
左圖中cluster8被其他群分割成兩部分,這樣的t-SNE分群結(jié)果并不是特別理想。建議調(diào)整分析時的resolution參數(shù),將其調(diào)大,使分群更加細致。將resolution參數(shù)由0.8調(diào)至1.0,得到右圖較好的t-SNE分群結(jié)果。
2. Top20 Marker基因的Heatmap:
可觀察特定marker基因在不同cluster的表達差異,以此初步判斷細胞類型及類群合并。采用細線區(qū)分不同的Cluster,顏色深淺代表基因表達高低,其中黃色為高表達,暗紅色為低表達。根據(jù)各cluster的基因表達的整體類似度,下圖可以初步判斷將cluster0、3合為一群,cluster6、7合為一群,cluster5、8、12合為一群。
3.Feature plot:
該圖主要描繪了選定Cluster中 Marker 基因在所有單細胞中的分布情況,更加直觀的了解marker基因的整體表達情況,用于判定cluster所屬的細胞類型。根據(jù)經(jīng)典特異性marker基因的Feature plot,可以初步判斷出T細胞(CD3D)、巨噬細胞(組織樣本C1QA)、B細胞(CD79A)、成纖維細胞(DCN)、內(nèi)皮細胞(VWF、CLDN5)及上皮細胞(KRT18、EPCAM)。
4.細胞類型鑒定結(jié)果tSNE圖:
下圖就是原始的tSNE分類結(jié)果,共有18個類群,此時要結(jié)合第3步中Marker基因特異性表達的結(jié)果對Cluster進行合并。
5.細胞亞型分群圖:
該圖將0、1、2、3、4、9 Cluster合并為T細胞(CD3D);將5、8、12 Cluster合并為巨噬細胞(組織樣本C1QA);將11、13 Cluster合并為B細胞(CD79A);16 Cluster為成纖維細胞(DCN);14 Cluster為內(nèi)皮細胞(VWF、CLDN5);將6、7、10、15、17 Cluster合并為上皮細胞(KRT18、EPCAM)。
后續(xù)可以將自己關(guān)注的細胞亞型再次細分,并進行其功能性分析,為解讀生物學(xué)意義細節(jié)提供基礎(chǔ),后續(xù)講解會詳細介紹。
綜上所述,通過標準化將數(shù)據(jù)過濾后通過PCA降維,并形成t-SNE可視化結(jié)果;降維后的矩陣進行細胞聚類分析,并計算出各類群的marker基因及表達量,以鑒定所屬的細胞類型。
細胞類型鑒定后就可以進行后續(xù)深層次的擬時序分析(Pseudotime)、及SCENIC分析。后續(xù)小編將一一講解哦~