當前位置：博客 > 單細胞

單細胞轉(zhuǎn)錄組測序數(shù)據(jù)分析（二）

時間：2019-09-30 | 閱讀量：12022

單細胞轉(zhuǎn)錄組測序產(chǎn)生的數(shù)據(jù)是成百上千個基因在上萬個細胞中的表達情況，屬于高維數(shù)據(jù)，我們需要對數(shù)據(jù)進行嚴格的質(zhì)控與過濾，將合格的數(shù)據(jù)降維到低維子空間，使數(shù)據(jù)可視化。

上一期已經(jīng)帶大家了解了scRNA-Seq數(shù)據(jù)的預處理，那么本期，小編就來介紹一下數(shù)據(jù)分析的標準化與聚類分析。

一、上海烈冰科技數(shù)據(jù)分析流程介紹

二、工具介紹

Seurat_Normalized（標準化）——采用Seurat package對數(shù)據(jù)進行過濾并校正批次效應（Batch Effect），采用PCA算法及tSNE算法對基因表達矩陣進行降維處理和信息可視化展示。

Seurat_Cluster（聚類分析）——根據(jù)基因表達的情況，通過無監(jiān)督聚類算法（Graph-based clustering或k-means clustering) 將降維后的細胞聚類分群。再通過Wilcoxon秩和檢驗分析計算出不同細胞類群的標識基因（Marker Gene），并對所屬細胞類群進行推測和鑒定。

三、結果展示

（一）數(shù)據(jù)標準化

1.線粒體RNA占比：

由于Dead Cell胞內(nèi)RNA會流出，線粒體RNA占比會隨之增高，因此我們一般通過設定線粒體RNA占比閾值來過濾Dead Cell。

左圖描述了每個細胞線粒體RNA占比—UMI數(shù)量相關性，紅色和黑色圓點代表兩個樣本的細胞。X軸代表每個細胞對應的UMI數(shù)量，Y軸代表每個細胞線粒體RNA占比；右圖為細胞線粒體RNA占比分布的Violin圖。

圖中線粒體RNA占比閾值建議設為0.2，線粒體RNA占比超過0.2的細胞認為是Dead Cell，可將其過濾掉。當然，不同類型的細胞線粒體RNA占比也不同，例如心肌細胞、肝細胞等高代謝、凋亡類細胞，其線粒體RNA占比相對較高。因此，需要結合具體的細胞類型來最終決定線粒體RNA占比的閾值。

2.細胞的基因數(shù)量：

我們一般通過設定細胞的最小基因數(shù)量去除假細胞和低質(zhì)量細胞（Low Quality Cell）；通過設定細胞的最大基因數(shù)量可以一定程度上去除雙細胞（Doublet Cell）。

左圖為每個細胞的基因—UMI數(shù)量相關性分析圖，右圖為每個細胞基因數(shù)量分布的Violin圖。圖中基因數(shù)量閾值建議設定為200-6000，可有效去除假細胞、低質(zhì)量細胞和雙細胞。

3.PCA分析：

該圖主要描述了不同樣本中所有細胞在PC1和PC2（即主成分分析中影響最大的兩個主成分）所組成的面中的定位情況。

4.t-SNE圖：

主要展示了每個樣本中所有細胞的tSNE定位情況、樣本融合情況，以及通過基因數(shù)量、UMI數(shù)量、線粒體RNA占比進行染色的情況，如下所示：

（二）聚類分析

1.細胞分群的t-SNE圖：

該圖代表t-SNE定位并基于Graphcluster或者KMean算法無監(jiān)督聚類后的分群情況。

左圖中cluster8被其他群分割成兩部分，這樣的t-SNE分群結果并不是特別理想。建議調(diào)整分析時的resolution參數(shù)，將其調(diào)大，使分群更加細致。將resolution參數(shù)由0.8調(diào)至1.0，得到右圖較好的t-SNE分群結果。

2. Top20 Marker基因的Heatmap：

可觀察特定marker基因在不同cluster的表達差異，以此初步判斷細胞類型及類群合并。采用細線區(qū)分不同的Cluster，顏色深淺代表基因表達高低，其中黃色為高表達，暗紅色為低表達。根據(jù)各cluster的基因表達的整體類似度，下圖可以初步判斷將cluster0、3合為一群，cluster6、7合為一群，cluster5、8、12合為一群。

3.Feature plot：

該圖主要描繪了選定Cluster中 Marker 基因在所有單細胞中的分布情況，更加直觀的了解marker基因的整體表達情況，用于判定cluster所屬的細胞類型。根據(jù)經(jīng)典特異性marker基因的Feature plot，可以初步判斷出T細胞（CD3D）、巨噬細胞（組織樣本C1QA）、B細胞（CD79A）、成纖維細胞（DCN）、內(nèi)皮細胞（VWF、CLDN5）及上皮細胞（KRT18、EPCAM）。

4.細胞類型鑒定結果tSNE圖：

下圖就是原始的tSNE分類結果，共有18個類群，此時要結合第3步中Marker基因特異性表達的結果對Cluster進行合并。

5.細胞亞型分群圖：

該圖將0、1、2、3、4、9 Cluster合并為T細胞（CD3D）；將5、8、12 Cluster合并為巨噬細胞（組織樣本C1QA）；將11、13 Cluster合并為B細胞（CD79A）；16 Cluster為成纖維細胞（DCN）；14 Cluster為內(nèi)皮細胞（VWF、CLDN5）；將6、7、10、15、17 Cluster合并為上皮細胞（KRT18、EPCAM）。

后續(xù)可以將自己關注的細胞亞型再次細分，并進行其功能性分析，為解讀生物學意義細節(jié)提供基礎，后續(xù)講解會詳細介紹。

綜上所述，通過標準化將數(shù)據(jù)過濾后通過PCA降維，并形成t-SNE可視化結果；降維后的矩陣進行細胞聚類分析，并計算出各類群的marker基因及表達量，以鑒定所屬的細胞類型。

細胞類型鑒定后就可以進行后續(xù)深層次的擬時序分析（Pseudotime）、及SCENIC分析。后續(xù)小編將一一講解哦~

上一篇：單細胞轉(zhuǎn)錄組測序數(shù)據(jù)分析之擬時序分析下一篇：單細胞轉(zhuǎn)錄組測序數(shù)據(jù)分析（一）

微信 QQ 微博