【原】單細胞RNA-seq數據分析最佳實踐（上）

健明 2021-07-15

展開全文

男，

一個長大了才會遇到的帥哥，

穩健，瀟灑，大方，靠譜。

一段生信緣，一棵技能樹，

一枚大型測序工廠的螺絲釘，

一個隨機森林中提燈覓食的津門旅客。

文章信息

Luecken MD, Theis FJ. Current best practices in single-cell RNA-seq analysis: a tutorial. Mol. Syst. Biol. 2019, 15: e8746.

摘要

single cell RNA-seq 提高了基因表達研究的分辨率，這項技術也帶來越來越多的單細胞分析方法。這使得研究者難以駕馭這一多工具格局并從中搭建最新的工作流程來分析自己的數據。在這里，我們詳細介紹了典型的單細胞 RNA-seq 數據分析步驟，包括預處理（質量控制、標準化、數據校正、特征選擇和降維）以及細胞及基因水平的下游分析。我們根據獨立比較研究為這些步驟制定了當前（2019年）最佳實踐建議。我們已將這些最佳實踐建議整合到工作流中，并將其應用于公共數據集，以進一步說明這些步驟在實踐中如何工作。我們的案例研究可參見https://www.github.com/theislab/single-cell-tutorial。這篇綜述將作為單細胞新手進入該領域的數據分析流程指南，并幫助現有的研究人員更新他們的分析流程。

關鍵詞:分析流程開發；計算生物學；數據分析教程；單細胞 RNA-seq

概述

近年來，單細胞 RNA 測序 (scRNA-seq) 推進了我們對生物系統的認識。我們已經能夠研究斑馬魚、青蛙和渦蟲的細胞異質性 (Briggs et al,2018；Plass et al,2018；Wagner et al,2018)，并發現之前被掩蓋的細胞群 (Montoro et al,2018；Plasschaert et al,2018)。該技術的巨大潛力促使計算生物學家開發一系列分析工具 (Rostom et al,2017)。盡管該領域正在努力確保單個工具的可用性，但單細胞數據分析中，新手的一個進入障礙（ a barrier of entry）是由于該領域相對不成熟而缺乏標準。在本文中，我們簡述目前scRNA-seq 分析的最佳做法，為今后的分析標準化奠定基礎。

標準化面臨的挑戰包括分析方法不斷增加（截至 2019 年 3 月 7 日已達 385多種工具）和數據集規模爆炸性增長 (Angerer et al,2017；Zappia et al,2018)。我們正在不斷尋找新的方法來使用我們所測得的數據。例如，最近的工具可預測分化中的細胞命運 (La Manno et al,2018)。分析工具的不斷改進有利于產生新的科學洞察力，但這也使標準化更加復雜。

標準化的第二個挑戰在于技術方面。scRNA-seq 數據的分析工具用各種編程語言，最突出的是 R 和 Python (Zappia et al,2018)。盡管跨環境的工具正在增長（預印：Scholz et al,2018），但編程語言的選擇通常也是分析工具之間的一種選擇。Seurat (Butler et al,2018)、Scater (McCarthy et al,2017) 或 Scanpy (Wolf et al,2018) 等熱門平臺提供了開發流程的集成環境，且包含大型分析工具。然而，這些平臺僅限于使用各自編程語言開發的工具。通過擴展，語言限制也適用于目前可用的 scRNA-seq 分析教程，其中許多教程圍繞上述平臺（R 和 bioconductor 工具：https://github.com/drisso/bioc2016singlecell和https://hemberg-lab./scRNA.seq.Lun 等人，2016b；Seurat；scanpy.

考慮到上述挑戰，我們并沒有標準化分析流程，而是概述了當前的最佳實踐和獨立于編程語言的通用工具。我們指導讀者完成 scRNA-seq 分析流程的各個步驟（圖 1），介紹當前的最佳實踐，并討論分析陷阱提出開放性問題。由于工具的新穎性和缺乏比較，事實上無法確定最佳實踐，因此我們列出了流行的可用工具。所概述的步驟從reads或計數矩陣開始，得出潛在分析終點，Lun et al (2016b) 涵蓋了早期預處理步驟。整合現有最佳實踐的詳細案例研究可從我們的 github 獲得，網址為：https://github.com/theislab/single-cell-tutorial/。在這里，我們在一個實際的示例工作流中應用了當前的最佳實踐來分析公共數據集。分析工作流程用rpy2在 Jupyter-Ipython notebook中集成了 R 和 Python 工具。有了可用的文檔，它很容易作為工作流模板進行二次修改。

圖 1. 典型的單細胞 RNA-seq 分析工作流程示意圖。原始測序數據經過處理和比對，得到計數矩陣，代表工作流程的開始。計數矩陣經過預處理和下游分析。使用 Haber et al (2017) 腸上皮細胞數據的最佳實踐工作流程生成子圖。

框1:實驗性scRNA-seq工作流的關鍵元素

從生物樣本到可分析的單細胞數據需要經過多個步驟。典型的工作流程包括：單細胞解離、單細胞分離、文庫構建和測序。對這些階段的簡要概述如下：單細胞實驗的起始材料通常以生物組織樣本的形式獲得。

單細胞懸浮液的制備作為第一步，是在一個被稱為單細胞解離的過程中產生的，其中組織被消化。為分析每個細胞中的 mRNA，必須分離細胞。單細胞分離根據實驗方案的不同而不同。雖然基于平板的技術將細胞隔離到平板上的孔中，但基于液滴的方法依賴于在自己的微流體液滴中捕獲每個細胞。在這兩種情況下，都可能發生錯誤，導致多個細胞被捕獲在一起（doublets or multiplets）、非活細胞被捕獲或完全沒有細胞被捕獲（空液滴/孔）形成空滴的情況尤其常見，因為基于液滴的方法依靠低濃度的輸入細胞流動來控制雙聯體率。每孔或液滴中都含有分解細胞膜和進行文庫構建所必需的化學物質。胞內 mRNA 被捕獲、反轉錄為 cDNA 分子并擴增的過程稱為文庫構建。當細胞隔離進行這一過程時，每個細胞的 mRNA 可以被一個孔或滴特定的細胞條形碼標記。此外，許多實驗方案也用唯一分子標識符 (UMI) 標記捕獲的分子。測序前擴增細胞 cDNA，以增加其被測量的概率。UMIs 允許我們區分相同 mRNA 分子的擴增拷貝和從相同基因轉錄的不同 mRNA 分子的reads。

構建好文庫后，使用細胞條形碼進行標記，并根據協議進行UMIs標記。這些庫匯集在一起(multiplexed)用于測序。序列產生reads數據，這些數據經過質量控制，再準備階段根據指定的條形碼(demultiplexing)和reads比對區分細胞。對于基于umi的協議，reads數據可以被進一步解復用以產生捕獲的mRNA分子計數(count data)。

Pre-processing and visualization

對測序儀生成的原始數據進行處理，以獲得分子計數（count 矩陣）或讀數（reads矩陣）的矩陣，這取決于是否在單細胞文庫構建方案中納入了獨特的分子標識符 ( unique molecular
identifiers ，UMI)（有關分析前的實驗步驟概述，請參見框 1）。Cell Ranger (Zheng et al,2017)、indrops (Klein et al,2015)、SEQC (Azizi et al,2018) 或 zUMIs (Parekh et al,2018) 等原始數據處理流程負責reads質量控制 (QC)，為其細胞barcode和 mRNA 來源分子（也稱為解復用,demultiplexing）分配reads、基因組比對和定量。得到的reads或計數矩陣包含barcode x 轉錄本數量的高緯數據。此處使用術語barcode代替細胞，因為所有reads均為分配給相同的barcode可能與來自同一細胞的reads不一致。一個barcode可能錯誤地標記多個細胞（雙聯體）或可能不標記任何細胞（空滴/孔）。雖然reads和計數數據的測量噪聲水平不同，但典型分析流程中的處理步驟相同。為了簡單起見，我們將在本教程中將這些數據稱為count矩陣。如果reads和count矩陣的結果不同，則專門指出reads矩陣。

Quality control

在分析單細胞基因表達數據之前，我們必須確保所有的細胞barcode數據都對應于活細胞。細胞 QC 通常基于三個 QC 變量進行：

每個barcode的計數數量（count depth ）
每個barcode的基因數量
每個barcode的線粒體基因計數分數 (Ilicic et al,2016；Griffiths et al,2018)

檢查這些 QC 變量的分布，以確定是否存在通過閾值處理過濾掉的離群峰（圖 2）。這些異常barcode可能對應于死細胞、膜破損的細胞或雙聯體。例如，低計數深度的barcode、很少檢測到的基因以及線粒體計數的高分數都表明細胞的細胞質 mRNA 已經通過破損的膜漏出，只有位于線粒體中的 mRNA 仍然是保守的（圖 2）。與之相反，非預期高計數和大量檢測基因的細胞可能代表雙聯體。因此，高計數深度閾值常用于過濾掉潛在的雙峰。最近的三種雙聯檢測工具提供了更優雅和可能更好的解決方案 (DoubletDecon:preprint:DePasquale et al,2018；Scrublet:Wolock et al,2019；doublet Finder:McGinnis et al,2018)。

圖 2. Haber et al (2017) 的小鼠腸上皮數據集過濾決策的質量控制指標圖。(A) 每個cell的計數深度直方圖。較小的直方圖在計數深度低于 4,000 時放大。根據在約 1,200 個計數處檢測到的峰值，此處應用的閾值為 1,500。(B) 每個細胞檢測到的基因數的直方圖。在大約 400 個基因處可見一個小的噪聲峰。這些細胞使用描述的閾值（紅線）700 個基因過濾掉。計數深度分布從高到低計數深度。該可視化與 Cell Ranger 輸出中顯示的 logClog 圖相關，該輸出用于過濾空液滴。它顯示了一個肘部的計數深度開始迅速減少約 1500 計數。(D) 通過線粒體讀數部分染色的基因數量與計數深度的關系。線粒體讀取片段僅在檢測基因很少的特別低計數細胞中高。這些細胞被我們的計數和基因數閾值過濾掉。聯合可視化計數和基因閾值顯示聯合過濾效果，表明較低的基因閾值可能已經足夠

單獨考慮這三個細胞 QC 變量中的任何一個都可能導致對細胞信號的誤解。例如，具有較高線粒體計數的細胞可能參與呼吸過程。同樣，其他 QC 變量也有生物學解釋。低count和（或）基因的細胞可對應靜止細胞群，高count的細胞體積可能更大。事實上，細胞之間的分子計數可能存在強烈差異（參見項目 github 的案例研究）。因此，當單變量閾值決策時，應聯合考慮細胞 QC 變量（圖 2D），這些閾值應盡可能設置為允許的，以避免無意中過濾掉活細胞群。考慮到多變量細胞 QC 的依賴性，篩選模型可能提供更敏感的 QC 選項。

含有異質混合細胞類型的數據集可能顯示多個細胞QC 變量峰值。例如，圖 2D 顯示了具有不同 QC 分布的兩個細胞群。如果之前沒有進行過濾步驟（注意 Cell Ranger 也進行細胞 QC），那么只有每個barcode峰的最低計數深度和基因應該被認為是非活細胞。進一步的閾值指導原則是使用所選閾值過濾掉的細胞比例。對于高計數過濾，該比例不應超過預期的雙聯率。

除了檢查細胞的完整性，細胞 QC 步驟也必須在轉錄本水平上進行。原始計數基質通常超過 20,000 個基因。通過過濾掉在少數細胞中不表達的基因，可以大幅減少這一數量。設置此閾值的一個準則是使用最小cell群，并留下一些dropout 效應（dropout effects. ）的余地。例如，篩選出少于 20 個細胞中表達的基因可能會使檢測少于 20 個細胞的細胞團變得困難。對于高脫落（dropout ）率的數據集，這個閾值也可能使較大簇的檢測復雜化。閾值的選擇應根據數據集中的細胞數量和預期的下游分析進行調整。

可直接對計數數據進行進一步 QC。Ambient gene expression（環境基因表達）指不是來自barcode細胞，而是來自其他溶解細胞的count，這些細胞的 mRNA 在文庫構建之前污染了細胞懸液。這些增加的環境計數會扭曲下游分析，如標記基因鑒定或其他差異表達檢測，尤其是當樣本之間的水平變化時。在基于液滴的 scRNA-seq 數據集中校正這些影響是可能的，由于大量的空液滴，可用于模擬環境RNA表達譜。最近開發的SoupX(預印本:Young &
使用這種方法直接糾正計數數據。在下游分析中忽視強環境基因的實用方法也被用來解決這個問題(Ange- lidis et al, 2019)。

進行質量控制以確保數據質量足以用于下游分析。由于無法先驗確定足夠的數據質量，因此根據下游分析性能（例如，聚類注釋）進行判斷。在分析數據時，可能需要多次重新審查質量控制參數。通常，從允許的質控閾值開始，在執行更嚴格的質控之前研究這些閾值的影響是有益的。這種方法對于包含異質性細胞群的數據集特別重要，其中細胞類型或狀態可能被錯誤解釋為低質量離群細胞。在低質量數據集中，嚴格的 QC 閾值可能是必要的。可通過試驗 QC 指標確定數據集的質量（見附錄補充文本 S2，卑微小王手頭并沒有補充文檔，從略）。在這種迭代 QC 優化中，應該注意數據窺視（data peeking.）。不應調整 QC 閾值以改善統計檢驗的結果。相反，可根據數據集可視化和聚類中的 QC 變量分布來評價 QC效用。

問題和建議:
·通過基因數量、計數深度和線粒體reads分數的異常峰來執行細胞QC。考慮這些共同的影響而不是單獨的考慮它們。
·盡可能地容忍QC閾值化，如果下游聚類無法解釋，則重新QC。
·如果QC變量在樣品之間的分布不同，則應針對每個樣品分別QC，以解釋樣品質量差異，如Plasschaert等(2018)。