單細胞 RNA 測序已成為剖析細胞異質性以發現稀有細胞類型和研究細胞水平基因調控的有力工具。在過去的十年中,單細胞轉錄組研究呈指數級增長,涵蓋了廣泛的組織類型和疾病。技術的進步不僅降低了測序成本,而且增加了每個實驗測序的細胞數量,據報道覆蓋了超過一百萬個細胞。單細胞數據的日益普及為數據集成提供了機會,以創建全面的細胞圖并增強下游分析的能力。
單細胞測序的飛速發展也給單細胞數據的管理和整合帶來了挑戰。目前,公共數據庫中有超過400個單細胞 RNA-seq 數據集。當前的單細胞數據庫具有三個主要缺點。首先,這些數據庫中的大多數僅提供其各自研究中的處理數據;未進行數據集成或未提供批量校正值。具有針對特定組織或疾病的集成圖集作為共識參考圖和增強下游分析非常有用。其次,相關數據不協調,具有非標準格式和命名約定。特別是,細胞類型標簽不遵循任何標準化的細胞類型本體。第三,它們提供有限的分析功能和可視化能力。例如,它們都不允許用戶將自己的數據映射到數據上。
近日,新加坡研究團隊構建了一個新的單細胞測序數據庫——DISCO,該數據庫相關文章刊登在Nucleic Acids Research期刊(IF=16.971),題名為DISCO: a database of Deeply Integrated human Single-Cell Omics data。DISCO網址為https://www.immunesinglecell.org/。
DISCO是一個深度集成的單細胞組學數據數據庫。DISCO 在351個項目中整合了來自4593個樣本的超過1800萬個細胞,涵蓋107個組織/細胞系/類器官、158種疾病和20個平臺。DISCO上托管的所有數據都是使用標準化管道從原始 fastq文件處理的。利用大量的公共細胞類型注釋,開發了CELLiD并將其應用于以自動和標準化的方式注釋細胞類型。為了整合單細胞數據并創建共識參考圖,還開發了FastIntegration,它可以整合超過400萬個細胞。目前,DISCO為23種組織、3種疾病(COVID-19、乳腺癌和結直腸癌)和B/漿細胞提供了1個全圖譜27個子圖譜。DISCO配備了三個在線工具,用于在線數據集成的FastIntegration、用于在線細胞類型識別的CELLiD和用于在線細胞投影的CellMapper。這些工具使用戶能夠執行自定義數據集成,并將他們自己的數據上傳到細胞類型注釋和映射到可用的圖集上。集成的地圖集和用于構建地圖集的所有樣本數據也可供下載。總之, DISCO 是探索不同健康和患病人體組織中的細胞類型和基因表達的寶貴數據資源,有助于加速發現新的細胞類型及其相關功能。