背景:轉錄分類已被用于將結直腸癌(CRC)分成具有不同生物學和臨床特征的分子亞型。然而,目前尚不清楚這些亞型是否代表著離散的、互斥的實體,還是具有潛在重疊的分子/表型狀態。因此,我們將重點放在CRC固有亞型(CRIS)分類器上,并評估將多個CRIS亞型分配給同一樣本是否提供額外的臨床和生物學相關信息。
方法:我們使用CRIS分類器的多標簽版本(multiCRIS)對新生成的606個CRC患者來源的異種移植物(PDXS)的RNA測序數據進行了分析,同時結合了人類CRC批量和單細胞RNA測序數據集。比較了單標簽和多標簽CRIS的生物學和臨床相關性。最后,開發了基于機器學習的多標簽CRIS預測器(ML2CRIS)用于單個樣本的分類。
結果:令人驚訝的是,約一半的CRC病例可以明顯地分配給多個CRIS亞型。單細胞RNA測序分析揭示,多個CRIS成員身份可能是由于同時存在不同CRIS類別的細胞,或者較少情況下由于具有混合表型的細胞。發現多標簽分配可以改善對CRC預后和治療反應的預測。最后,ML2CRIS分類器在單個樣本分類的情境下被驗證具有相同的生物學和臨床相關性。
結論:這些結果表明,即使同時分配給同一CRC樣本,CRIS亞型仍保留其生物學和臨床特征。這種方法有潛力在其他癌癥類型和分類系統中推廣應用。
該研究于2023年5月發表發表在《Genome medicine》,IF:15.266。
技術路線:
實驗方法:異種移植物收集、TCGA和PDX RNA-SEQ數據預處理、CRC單細胞數據及其預處理、bulk/scRNA-seq數據和預處理、scRNA-seq數據的偽批量、CRIS分類、單標簽分級機、多標號單樣分級機。
1、結直腸癌內在亞型的多標簽CRIS分層研究
為了改善結直腸癌的分層,并根據CRIS分類捕捉生物特征,我們推斷其最近模板預測(NTP)算法不僅可以用于指定最顯著的單一類別,還可以評估每個樣本對所有CRIS類別的分配,以及每個分配的虛假發現率。因此,我們實施了基于NTP的CRIS分類器的新的多標簽版本,名為“multiCRIS”,能夠根據與每個CRIS中心點的距離和其顯著性將每個樣本分配給一個或多個CRIS類別。
首先,將MultiCRIS應用于來自癌癥基因組圖譜(TCGA)的620個樣本的RNA測序數據集,以明確地將91%的樣本至少分配給一個類別(圖1a)。有趣的是,52%的樣本還可以被確信地分配給其他CRIS亞型(圖1b)。
值得注意的是,對于所有的CRIS亞型,次要分配的數量與主要分配大致相等(圖1c)。多重分配主要發生在兩個特定的亞家族之間:CRISA/CRIS-B和CRIS-C/CRIS-D/CRIS-E。最后,為了評估這些多重分配是否捕捉到具有多個CRIS生物特征的腫瘤,我們探索了與每個CRIS類別相關的主要特征。
有趣的是,分配給次要類別的樣本在圖1d中顯示了類別的關鍵分子特征,包括CRIS-A中的MSI狀態,CRIS-C中的KRAS突變的消失,以及CRIS-D/CRIS-E中的WNT信號通路活性和CRIS-B樣本中的上皮間質轉化(EMT)。值得注意的是,我們觀察到具有多個分配的樣本傾向于與CRIS中心點之間的距離較大,這可能反映了同時具有不同表型的細胞組成或具有不同表型的細胞混合的情況。
2、多個CRIS分配中的單細胞異質性。
觀察到一部分結直腸癌的多個類別分配可以通過兩種方式解釋:腫瘤由具有模糊表型的癌細胞組成,或者存在混合的不同亞型細胞群體。為了探索支持多個CRIS分配的異質性,我們在一個由PDXS(患者源性異種移植)衍生的5個結直腸癌器官樣本集合中進行了一系列的配對單細胞RNA測序(scRNA-seq)和批量譜分析。這些數據允許直接比較單細胞和批量轉錄組譜分析結果。作為第三個選擇,通過聚合一個樣本中所有單細胞譜分析結果來獲得偽批量譜分析結果。值得注意的是,盡管來自單個細胞的譜分析結果平均捕獲了至少5個支持讀數的1116個轉錄本,但偽批量譜分析結果平均涵蓋了超過17,095個轉錄本。如預期的那樣,匹配的批量/偽批量樣本的譜分析結果顯示了強烈的相關性,而無法通過非匹配比較獲得。這些結果表明,(i)單細胞譜分析結果顯示出高度的異質性,以及(ii)聚合的單細胞譜分析結果能夠重現批量譜分析結果中所獲得的轉錄組譜。因此,這種3D體外器官樣本培養系統捕獲了具有復雜轉錄組異質性的細胞譜。
值得注意的是,我們發現存在同時存在的細胞混合物,每個混合物具有一個單一的CRIS分配,以及具有混合多個CRIS亞型的細胞。來自給定器官樣本的個別細胞主要被分配到該器官樣本的批量譜分析結果所定義的CRIS亞型/亞型組(圖2)。
這些結果強調了在單細胞分辨率下,大多數細胞被分配到單個CRIS亞型,并且它們的混合導致了批量轉錄組的多亞型分配;然而,也有可能存在一小部分具有混合表型的細胞,在給定的批量樣本中對多個CRIS亞型的分配產生貢獻。事實上,在所有接受多個CRIS批量分配的器官樣本中,我們檢測到了具有不同CRIS標識的細胞和具有混合表型的細胞的共存(圖2)。
為了將我們的觀察擴展到人類腫瘤,我們利用來自一組患者的公共單細胞RNA測序數據(GSE132465),重點關注上皮細胞,比較偽批量和單細胞的多標簽CRIS分配情況:這種分析證實了存在多個CRIS分配的患者。在這些樣本中,我們證實大多數單個細胞被分配到特定的CRIS亞型(64%的分類細胞,其中75%被分配到單個CRIS亞型,25%被分配到多個CRIS組;圖3a)。然而,類似于器官樣本,每個樣本由不同的細胞群體組成,這些細胞群體被分到不同的CRIS亞型中,導致了一個復雜的表型,該表型通過偽批量分析的多個CRIS分配被捕捉到(圖3b)。因此,被分配到單個CRIS亞型的樣本往往具有更高比例的被分配到該亞型的細胞。在特定樣本中,具有多標簽分配的單個細胞的高百分比可能反映出組織中正在經歷功能轉變或穩定的中間分化階段。例如,在患者SMC17中發生了這種情況(圖3b),其中57%的分類細胞顯示出多標簽表型。類似地,SMCO3和SMC21患者分別顯示出34%和28%的具有混合表型的細胞(圖3b),與它們在批量分析中追蹤到的多標簽狀態一致。
總的來說,這些結果表明,CRIS轉錄組的異質性根源于單個細胞水平,而單個細胞的表型總結起來定義了腫瘤批量的CRIS分類。因此,多CRIS腫瘤的證據主要可以通過具有特定功能特征的不同細胞群體的鑲嵌組成或具有混合表型的少量混合細胞來解釋。
參考文獻:
Cascianelli, S., Barbera, C., Ulla, A.A. et al. Multi-label transcriptional classification of colorectal cancer reflects tumor cell population heterogeneity. Genome Med 15, 37 (2023).https://doi.org/10.1186/s13073-023-01176-5