男, 一個長大了才會遇到的帥哥, 穩健,瀟灑,大方,靠譜。 一段生信緣,一棵技能樹, 一枚大型測序工廠的螺絲釘, 一個隨機森林中提燈覓食的津門旅客。 文章信息 摘要single cell RNA-seq 提高了基因表達研究的分辨率,這項技術也帶來越來越多的單細胞分析方法。這使得研究者難以駕馭這一多工具格局并從中搭建最新的工作流程來分析自己的數據。在這里,我們詳細介紹了典型的單細胞 RNA-seq 數據分析步驟,包括預處理(質量控制、標準化、數據校正、特征選擇和降維)以及細胞及基因水平的下游分析。我們根據獨立比較研究為這些步驟制定了當前(2019年)最佳實踐建議。我們已將這些最佳實踐建議整合到工作流中,并將其應用于公共數據集,以進一步說明這些步驟在實踐中如何工作。我們的案例研究可參見https://www.github.com/theislab/single-cell-tutorial。這篇綜述將作為單細胞新手進入該領域的數據分析流程指南,并幫助現有的研究人員更新他們的分析流程。
概述近年來,單細胞 RNA 測序 (scRNA-seq) 推進了我們對生物系統的認識。我們已經能夠研究斑馬魚、青蛙和渦蟲的細胞異質性 (Briggs et al,2018;Plass et al,2018;Wagner et al,2018),并發現之前被掩蓋的細胞群 (Montoro et al,2018;Plasschaert et al,2018)。該技術的巨大潛力促使計算生物學家開發一系列分析工具 (Rostom et al,2017)。盡管該領域正在努力確保單個工具的可用性,但單細胞數據分析中,新手的一個進入障礙( a barrier of entry)是由于該領域相對不成熟而缺乏標準。在本文中,我們簡述目前scRNA-seq 分析的最佳做法,為今后的分析標準化奠定基礎。 標準化面臨的挑戰包括分析方法不斷增加(截至 2019 年 3 月 7 日已達 385多種工具)和數據集規模爆炸性增長 (Angerer et al,2017;Zappia et al,2018)。我們正在不斷尋找新的方法來使用我們所測得的數據。例如,最近的工具可預測分化中的細胞命運 (La Manno et al,2018)。分析工具的不斷改進有利于產生新的科學洞察力,但這也使標準化更加復雜。 標準化的第二個挑戰在于技術方面。scRNA-seq 數據的分析工具用各種編程語言,最突出的是 R 和 Python (Zappia et al,2018)。盡管跨環境的工具正在增長(預印:Scholz et al,2018),但編程語言的選擇通常也是分析工具之間的一種選擇。Seurat (Butler et al,2018)、Scater (McCarthy et al,2017) 或 Scanpy (Wolf et al,2018) 等熱門平臺提供了開發流程的集成環境,且包含大型分析工具。然而,這些平臺僅限于使用各自編程語言開發的工具。通過擴展,語言限制也適用于目前可用的 scRNA-seq 分析教程,其中許多教程圍繞上述平臺(R 和 bioconductor 工具:https://github.com/drisso/bioc2016singlecell和https://hemberg-lab./scRNA.seq.Lun 等人,2016b;Seurat;scanpy. 考慮到上述挑戰,我們并沒有標準化分析流程,而是概述了當前的最佳實踐和獨立于編程語言的通用工具。我們指導讀者完成 scRNA-seq 分析流程的各個步驟(圖 1),介紹當前的最佳實踐,并討論分析陷阱提出開放性問題。由于工具的新穎性和缺乏比較,事實上無法確定最佳實踐,因此我們列出了流行的可用工具。所概述的步驟從reads或計數矩陣開始,得出潛在分析終點,Lun et al (2016b) 涵蓋了早期預處理步驟。整合現有最佳實踐的詳細案例研究可從我們的 github 獲得,網址為:https://github.com/theislab/single-cell-tutorial/。在這里,我們在一個實際的示例工作流中應用了當前的最佳實踐來分析公共數據集。分析工作流程用rpy2在 Jupyter-Ipython notebook中集成了 R 和 Python 工具。有了可用的文檔,它很容易作為工作流模板進行二次修改。 框1:實驗性scRNA-seq工作流的關鍵元素從生物樣本到可分析的單細胞數據需要經過多個步驟。典型的工作流程包括:單細胞解離、單細胞分離、文庫構建和測序。對這些階段的簡要概述如下:單細胞實驗的起始材料通常以生物組織樣本的形式獲得。 單細胞懸浮液的制備作為第一步,是在一個被稱為單細胞解離的過程中產生的,其中組織被消化。為分析每個細胞中的 mRNA,必須分離細胞。單細胞分離根據實驗方案的不同而不同。雖然基于平板的技術將細胞隔離到平板上的孔中,但基于液滴的方法依賴于在自己的微流體液滴中捕獲每個細胞。在這兩種情況下,都可能發生錯誤,導致多個細胞被捕獲在一起(doublets or multiplets)、非活細胞被捕獲或完全沒有細胞被捕獲(空液滴/孔)形成空滴的情況尤其常見,因為基于液滴的方法依靠低濃度的輸入細胞流動來控制雙聯體率。每孔或液滴中都含有分解細胞膜和進行文庫構建所必需的化學物質。胞內 mRNA 被捕獲、反轉錄為 cDNA 分子并擴增的過程稱為文庫構建。當細胞隔離進行這一過程時,每個細胞的 mRNA 可以被一個孔或滴特定的細胞條形碼標記。此外,許多實驗方案也用唯一分子標識符 (UMI) 標記捕獲的分子。測序前擴增細胞 cDNA,以增加其被測量的概率。UMIs 允許我們區分相同 mRNA 分子的擴增拷貝和從相同基因轉錄的不同 mRNA 分子的reads。 構建好文庫后,使用細胞條形碼進行標記,并根據協議進行UMIs標記。這些庫匯集在一起(multiplexed)用于測序。序列產生reads數據,這些數據經過質量控制,再準備階段根據指定的條形碼(demultiplexing)和reads比對區分細胞。對于基于umi的協議,reads數據可以被進一步解復用以產生捕獲的mRNA分子計數(count data)。 Pre-processing and visualization對測序儀生成的原始數據進行處理,以獲得分子計數(count 矩陣)或讀數(reads矩陣)的矩陣,這取決于是否在單細胞文庫構建方案中納入了獨特的分子標識符 ( unique molecular Quality control在分析單細胞基因表達數據之前,我們必須確保所有的細胞barcode數據都對應于活細胞。細胞 QC 通常基于三個 QC 變量進行:
檢查這些 QC 變量的分布,以確定是否存在通過閾值處理過濾掉的離群峰(圖 2)。這些異常barcode可能對應于死細胞、膜破損的細胞或雙聯體。例如,低計數深度的barcode、很少檢測到的基因以及線粒體計數的高分數都表明細胞的細胞質 mRNA 已經通過破損的膜漏出,只有位于線粒體中的 mRNA 仍然是保守的(圖 2)。與之相反,非預期高計數和大量檢測基因的細胞可能代表雙聯體。因此,高計數深度閾值常用于過濾掉潛在的雙峰。最近的三種雙聯檢測工具提供了更優雅和可能更好的解決方案 (DoubletDecon:preprint:DePasquale et al,2018;Scrublet:Wolock et al,2019;doublet Finder:McGinnis et al,2018)。 單獨考慮這三個細胞 QC 變量中的任何一個都可能導致對細胞信號的誤解。例如,具有較高線粒體計數的細胞可能參與呼吸過程。同樣,其他 QC 變量也有生物學解釋。低count和(或)基因的細胞可對應靜止細胞群,高count的細胞體積可能更大。事實上,細胞之間的分子計數可能存在強烈差異(參見項目 github 的案例研究)。因此,當單變量閾值決策時,應聯合考慮細胞 QC 變量(圖 2D),這些閾值應盡可能設置為允許的,以避免無意中過濾掉活細胞群。考慮到多變量細胞 QC 的依賴性,篩選模型可能提供更敏感的 QC 選項。 含有異質混合細胞類型的數據集可能顯示多個 細胞QC 變量峰值。例如,圖 2D 顯示了具有不同 QC 分布的兩個細胞群。如果之前沒有進行過濾步驟(注意 Cell Ranger 也進行細胞 QC),那么只有每個barcode峰的最低計數深度和基因應該被認為是非活細胞。進一步的閾值指導原則是使用所選閾值過濾掉的細胞比例。對于高計數過濾,該比例不應超過預期的雙聯率。 除了檢查細胞的完整性,細胞 QC 步驟也必須在轉錄本水平上進行。原始計數基質通常超過 20,000 個基因。通過過濾掉在少數細胞中不表達的基因,可以大幅減少這一數量。設置此閾值的一個準則是使用最小cell群,并留下一些dropout 效應(dropout effects. )的余地。例如,篩選出少于 20 個細胞中表達的基因可能會使檢測少于 20 個細胞的細胞團變得困難。對于高脫落(dropout )率的數據集,這個閾值也可能使較大簇的檢測復雜化。閾值的選擇應根據數據集中的細胞數量和預期的下游分析進行調整。 可直接對計數數據進行進一步 QC。Ambient gene expression(環境基因表達)指不是來自barcode細胞,而是來自其他溶解細胞的count,這些細胞的 mRNA 在文庫構建之前污染了細胞懸液。這些增加的環境計數會扭曲下游分析,如標記基因鑒定或其他差異表達檢測,尤其是當樣本之間的水平變化時。在基于液滴的 scRNA-seq 數據集中校正這些影響是可能的,由于大量的空液滴,可用于模擬環境RNA表達譜。最近開發的SoupX(預印本:Young & 進行質量控制以確保數據質量足以用于下游分析。由于無法先驗確定足夠的數據質量,因此根據下游分析性能(例如,聚類注釋)進行判斷。在分析數據時,可能需要多次重新審查質量控制參數。通常,從允許的質控閾值開始,在執行更嚴格的質控之前研究這些閾值的影響是有益的。這種方法對于包含異質性細胞群的數據集特別重要,其中細胞類型或狀態可能被錯誤解釋為低質量離群細胞。在低質量數據集中,嚴格的 QC 閾值可能是必要的。可通過試驗 QC 指標確定數據集的質量(見附錄補充文本 S2,卑微小王手頭并沒有補充文檔,從略)。在這種迭代 QC 優化中,應該注意數據窺視(data peeking.)。不應調整 QC 閾值以改善統計檢驗的結果。相反,可根據數據集可視化和聚類中的 QC 變量分布來評價 QC效用。
|
|