摘要
約30%的早期肺腺癌患者在手術切除成功后出現疾病進展。盡管努力繪制基因圖譜,但在發現疾病結果的預測生物標志物方面取得的成功有限。在這里,我們對143個腫瘤和匹配的鄰近腫瘤、組織學正常的肺組織進行了系統的多組學評估,并對患者進行了長期隨訪。通過對腫瘤和鄰近正常組織的組織學、突變和轉錄圖譜分析,我們發現腫瘤鄰近組織中的炎性基因信號是疾病進展的最強臨床預測因子。單細胞轉錄分析表明,進展相關的炎癥信號在免疫和非免疫細胞中都有表達,單核細胞中的細胞類型特異性特征進一步改善了預后預測。來自癌癥基因組圖譜的腫瘤鄰近轉錄數據的額外分析證實了炎性信號與癌癥中更差的結果之間的關聯。總而言之,我們的研究表明,腫瘤鄰近組織的分子圖譜可以識別疾病進展的高風險患者。
該研究于2023年11月發表在《Nature communications》,IF:16.6。
技術路線
結果
1、一項匹配的腫瘤-正常肺研究:設計和隊列特征
在這項研究中,我們使用了一組治療初治期Ⅰ的肺腺癌患者,這些患者的腫瘤與腫瘤相鄰的正常肺組織標本(在相同的肺葉、肺段或楔形切除內)來自我們的前瞻性收集樣本的生物庫。納入研究的患者在手術前從未接受過任何癌癥治療。共有143名患者符合我們的納入和排除標準(圖1A)。據我們所知,這是對匹配的腫瘤-正常早期癌癥進行的最大規模的研究,因為TCGA僅限于53名具有匹配的腫瘤-正常樣本的I期患者(圖1B)。
重要的是,我們的隊列有廣泛的隨訪,而TCGA的隨訪時間相當有限(中位數隨訪2,284天對701天)(圖1C)。長得多的隨訪使我們能夠觀察到大量的疾病進展事件,并能夠發現無進展生存的分子特征。到目前為止,我們的隊列中已經記錄了50名(35%)疾病進展的患者。具體地說,我們已經確定了23名患者發生了第二原發于肺的腫瘤,13名患者被診斷為淋巴或腫瘤床局部復發,14名患者存在腦、骨、胸膜、肝臟或腎上腺的系統性轉移;相比之下,只有6名患者被記錄在TCGA I期隊列中有進展的疾病(圖1D)。補充圖1C-g顯示了進展組和非進展組的年齡、吸煙、性別、組織學和國際肺癌研究協會(IASLC)分級的分布。全身或局部復發患者的總體存活率比第二原發腫瘤患者差(圖1E)。
2、匹配的腫瘤-正常肺標本的突變和轉錄圖譜
我們首先使用NYU GenomePACT panel 對患者樣本進行了DNA測序,該panel涵蓋了580個蛋白編碼基因的外顯子和TERT啟動子。對于每個患者,我們使用了來自腫瘤、腫瘤鄰近正常(TAN)肺和正常血液的樣本。然后,我們對所有286個樣本(143個腫瘤和143個腫瘤鄰近的正常肺)進行了RNA-seq。15個腫瘤和10個正常肺樣本由于文庫質量較低,被排除在下游分析之外。最終,123個匹配的腫瘤-正常樣本(最初143個匹配樣本中的86%)被認為是高質量的RNA-seq樣本,并用于下游分析。
3、突變不能很好地預測早期肺腺癌的臨床結果
對患者腫瘤DNA測序數據的分析顯示,在早期肺腺癌(LUAD)中,常見突變基因的典型分布是:34%的EGFR、25%的KRAS、22%的TP53和7%的STK11(圖2A)。然后,我們觀察了進展與不進展的患者中可能以不同速度發生突變的基因。我們定義了兩組,進展組包括所有疾病進展事件,而不考慮進展類型;無進展組包括所有至少隨訪5年沒有進展的患者。正如預期的那樣,按EGFR突變狀態對患者進行分層并不會產生PFS的統計學差異,而即使按KRAS或STK11突變狀態進行分層也不顯著(p值>0.01,圖2B,c)。無復發生存率(RFS)也是如此,例外的是與復發顯著相關的TP53(p值=0.0053,log-rank檢驗)。然而,腫瘤突變負荷(TMB)被發現是一個適度的預測5年復發的指標(AUC=0.706)(圖2D)。腫瘤鄰近正常樣本(使用血液作為種系參考)中的突變檢測顯示,31 個 TAN 樣本中變異等位基因頻率 (VAF) 截止值為 1% 的突變,其中只有 3 名患者的原發腫瘤中存在突變。此外,只有3名患者有一個VAF高于5%的突變(1名患者有TP53 stop-gain突變,1名患者有非同義PRDM16突變,1名患者有非同義DNMT3A突變),這表明TAN中存在的突變相當有限。綜上所述,這些數據表明突變對于 I 期 LUAD 的 PFS 來說是較差的預測因子。
4、腫瘤鄰近正常組織中的基因表達具有重要的預后信息
為了確定早期 LUAD 更好的預后標志物,我們隨后測試了從批量 RNA-seq 獲得的基因表達是否可以提供預后信息并預測 5 年復發。為此,我們構建了一個彈性網絡機器學習模型來預測系統性和局部區域的復發,使用嵌套交叉驗證來允許自動、無偏的超參數優化,確保從訓練到測試集的數據不會泄漏。我們發現腫瘤中的轉錄組特征不能預測復發(AUC = 0.62,95% 置信區間 = [0.52–0.72])(圖 2e),并且不能將患者分為高風險組和低風險組(PFS log-rank檢驗 p 值 = 0.456)。然而,我們的分析確定,基于 TAN 樣本轉錄組信息的模型顯示出優越的性能(AUC = 0.83,95% 置信區間 = [0.75–0.92],見圖 2f),并且能夠將患者分層為高危人群。和低風險組(PFS 對數秩檢驗 p 值 = 0.007),顯著優于基于腫瘤的模型(Delong 檢驗,p 值 = 0.0033)。強調在我們的研究中納入 TAN 樣本的重要性,并表明 TAN 肺組織可能導致復發。此外,我們還在 TCGA 的肺癌隊列中測試了監督模型。盡管 TCGA 的 TAN 數據有限,但 NYU 模型在 TCGA 肺腺癌 (LUAD) TAN 轉錄組上具有不錯的性能(AUC = 0.75,95% 置信區間 = [0.57, 0.89])。事實上,該模型在應用于 TCGA 肺鱗狀細胞癌 (LUSC) 隊列的 TAN 轉錄組時表現同樣出色(AUC = 0.74,95% 置信區間 = [0.47, 0.93])。結合這兩個隊列產生了相似的性能(AUC = 0.75,95% 置信區間 = [0.59, 0.88])。值得注意的是,IASLC 分級在預測進展(AUC = 0.64,95% 置信區間 = [0.56–0.71])或復發(AUC = 0.74,95% 置信區間 = [0.56–0.71])方面表現出顯著較低的性能。 [0.65–0.82])。因此,我們的數據表明,基于 TAN 轉錄組的模型在預測 LUAD 的 PFS、全身性和局部區域復發方面比基于腫瘤的模型具有更強的功效。
5、共表達基因模塊分析揭示腫瘤鄰近正常肺組織中炎癥通路的激活
為了進一步了解 TAN 中與腫瘤組織相比具有預后價值的潛在轉錄程序,我們著手表征 TAN 中特異性激活的轉錄程序。與其依賴復雜的有監督的機器學習模型(圖2e,f),這些模型具有潛在的大量參數和在臨床環境中有問題的推廣能力,我們決定使用無監督的無偏見方法進一步分析246個匹配的腫瘤正常RNA-seq樣本。簡而言之,我們選擇了前10,000個可變的基因,在樣本中縮放它們的表達,并使用Unifold流形近似和投影(UMAP;UMAP上的每個點代表一個基因,詳細信息請參閱方法)進行降維。無監督聚類揭示了 20 個基因簇,即共表達基因模塊,或者簡單地說,模塊(圖 3a)。然后,我們根據每個基因從 TAN 到腫瘤樣本的對數倍數變化對每個基因進行著色,揭示了腫瘤樣本中表達較高的基因簇(紅色)和正常樣本中表達較高的基因簇(藍色),如圖 3b 所示。為了識別與腫瘤相鄰正常細胞相比在腫瘤中總體上具有較高表達的模塊,反之亦然,我們定義每個模塊的分數為模塊中基因的平均縮放基因表達(每個患者,每個組織類型)。事實上,我們發現幾個模塊在正常樣本中具有顯著更高的平均表達(模塊 2、5、6、7、8、9、11、17、19 和 20),而其他模塊在腫瘤樣本中表達更高(模塊 3、4、10、12、13、14、15、16 和 18)(圖 3c)。然后,我們根據每個模塊與特征、具有明確定義的生物狀態或過程的基因集的關聯來表征每個模塊。被發現與最多特征相關的模塊是模塊 20(圖 3d)。值得注意的是,盡管與腫瘤相比,模塊 20 在正常肺組織中的得分更高,但人們發現它顯著富集了大量通常與癌癥相關的標志,從而證實了腫瘤鄰近的正常組織并不完全正常,與之前的研究一致。特別是,炎癥信號通路(TNF-α, IL-17, and NFκΒ)、IL-2和IL-6信號、干擾素-γ反應和低氧在模塊20基因中高度富集。
6、肺腺癌在腫瘤及癌旁正常組織中進展的轉錄轉錄特征
由于觀察到炎癥和其他與癌癥相關的通路在TAN中被激活,我們假設這些被發現與最多的癌癥相關標志相關的通路和相關基因模塊的激活(最明顯模塊20)可能會影響疾病的進展。為了驗證這一假設,我們識別了在最終進展的患者組和沒有進展的患者組中,在腫瘤或TAN組織中差異表達的基因。更具體地說,來自我們匹配的腫瘤正常隊列的患者被分為兩組:進展組包括所有有任何類型疾病進展的患者(n=45),而無進展組包括所有在至少5年隨訪時間內沒有進展的患者(n=68)。然后,我們探索了差異表達基因在共表達基因模塊中的分布。我們通過分別針對腫瘤(圖4B)和TAN樣本(圖4C)在進展組和無進展組之間表達的對數倍變化來對基因模塊UMAP(圖4A)中的每個基因進行染色。
對UMAP的可視檢查和比較顯示,最終進展的患者中上調的基因幾乎完全定位在特定的模塊中,特別是在TAN樣本中。最突出的這類模塊是模塊20,它在進展期患者的肺臟組織中具有高比例的上調基因。模塊聚合表達分析(圖4D)證實了這一點,計算了兩種組織類型中模塊上調和下調基因的百分比(圖4E)。顯然,模塊20高度偏向TAN組織中進展者組中上調的基因,而不是腫瘤中的上調基因。因此,我們的數據表明模塊20與TAN和進程有關。
7、一種用于精細化患者分類的多模式關聯圖
為了進一步確定TAN中已識別的基因模塊的特征,我們對模塊得分與人口統計學、臨床、組織學、遺傳學和生存數據進行了全面的關聯分析(圖5A)。only與不良存活率顯著相關的模塊是模塊20(圖5B),在多變量分析(圖5C)中,它被發現是臨床結果的獨立預測因子,對數優勢比為0.725(p值=0.002)。有趣的是,作為WHO更新的肺腺癌指南的一部分,IASLC分級在相同的多變量分析中沒有發現顯著意義。該模型預測復發的敏感性為0.821,特異性為0.491。圖5A中的關聯圖提供了豐富的信息,可用于未來的更大規模的研究,不僅根據人口統計學、臨床、組織學和遺傳數據的組合將患者分成高度精細的組,而且通過與來自腫瘤和腫瘤鄰近正常組織的轉錄數據相結合,生成關于潛在生物學過程和途徑的假設。例如,模塊7和10與較年輕的患者相關,與低級別腫瘤廣泛相關,缺乏高危組織學模式(實性和融合性顆粒)和較好的預后。模塊19和20與老年患者和高級別腫瘤相關,盡管只有模塊20被發現與臨床結果顯著相關。模塊8、12和13與胸膜侵犯有關。有趣的是,沒有一個模塊與突變有關,這支持了我們最初的假設,即腫瘤鄰近的正常組織可能是有價值的進展生物標記物的來源,與腫瘤本身的基因構成無關。特別是,模塊20的激活發生在患者中,其進展與其腫瘤的驅動程序突變無關。
8、其他癌癥類型上測試炎癥模塊20特征
為了進一步測試模塊20炎癥特征是否可以更廣泛地應用于其他癌癥類型的TAN組織,我們對從TCGA中的正常組織獲得的數據進行了分析。鑒于 TCGA 中使用 RNA-seq 數據的 TAN 樣本數量有限,我們只能找到四個原發腫瘤位點,其中至少有 40 個腫瘤相鄰正常樣本,并且所有階段至少有兩個進展事件:乳腺、肺、腎和頭部/頸癌。我們計算了每個模塊和每種癌癥類型的模塊評分與無進展生存率之間的 c-index值(當高模塊評分與較差的生存率相關時,c-index值較高)。這項分析的結果如圖5D所示,表明在所有四種癌癥類型中,模塊20是only持續且顯著與不良預后相關的模塊評分。總而言之,這些發現表明模塊 20 在進展中發揮著重要作用。如圖3d所示,該模塊富含炎癥信號傳導途徑(TNF-α、IL-17和NFκB)和癌癥標志(IL-2和IL-6信號傳導、干擾素-γ反應和缺氧),盡管它是一個在鄰近正常組織中比實際腫瘤更高表達的模塊。這一觀察表明,最終進展的患者,肺部受損,帶有疾病進展的特征,而在鄰近的腫瘤中不一定能觀察到這些特征。
9、以單細胞分辨率分析腫瘤和腫瘤鄰近正常組織
為了確定有助于模塊 20 表達的細胞類型,我們利用單核 RNA 測序 (snRNA-seq) 來分析我們的早期肺腺癌匹配的腫瘤正常隊列的 TAN 組織。我們對 23 個腫瘤和 23 個匹配的 TAN 樣本進行了分析。經過測序后質量控制后,我們剩下 18 個腫瘤樣本和 15 個正常 snRNA-seq 樣本(112,626 個細胞核)。根據之前對肺腺癌的研究對細胞進行了注釋,其中包括正常肺作為對照。重點關注 TAN 樣本(51,416 個細胞核),我們鑒定了所有主要細胞類型:上皮細胞、基質細胞、內皮細胞、骨髓細胞、T-NK 細胞、B 淋巴細胞和 MAST 細胞(圖 6a) 。不同的細胞譜系被進一步劃分為更細粒度的亞群(圖6b)。上皮細胞分為四種亞型:肺泡 1 型和 2 型細胞 (AT1/AT2)、球桿細胞和纖毛細胞。基質細胞分為四種亞型:間皮細胞、COL13A1 和 COL14A1 基質成纖維細胞 (FBs) 和周細胞。內皮細胞(ECs)分為三種亞型:淋巴管、莖狀和尖狀EC。骨髓細胞分為三種亞型:肺泡巨噬細胞、單核細胞和 CD1c DCs。腫瘤樣本(61,210 個細胞核)由相同的細胞類型組成,缺乏間皮細胞,并且包含腫瘤細胞,這些腫瘤細胞是根據 inferCNV24 分析計算出的高 CNV 評分進行識別的。
10、模塊 20 在進展患者的腫瘤-鄰近正常細胞中的多種細胞類型中被激活
為了測試鄰近腫瘤的正常肺中哪些細胞類型的模塊20中的基因表達升高,我們計算了每個細胞的模塊20得分(圖6c)。我們觀察到,表達模塊20基因最高水平的細胞類型是間皮細胞,其次是成纖維細胞、單核細胞、莖狀EC、MAST細胞和肺泡巨噬細胞(圖6d)。最近,間皮細胞已被證明可以形成抗原呈遞的癌癥相關成纖維細胞 (apCAF),進而誘導初始 CD4+ T 細胞轉變為胰腺癌中的調節性 T 細胞。AT2 細胞(而不是 AT1 細胞)中模塊 20 基因特征的激活也很有趣,因為 AT2 細胞已被證明是肺腺癌的起源細胞。
我們測試了哪些細胞類型在進展的患者中上調了模塊 20 特征的表達。對于此分析,我們使用了每位患者每種細胞類型的推斷基因表達。結果顯示,在多種細胞類型中,最終發生第二原發或復發的患者的模塊20評分伴隨增加(圖6e)。值得注意的是,我們對匹配的腫瘤樣本進行了相同的分析,并且我們沒有觀察到任何細胞類型中進展的患者和未進展的患者的腫瘤樣本之間的模塊20評分有任何顯著差異。
我們研究了 TAN 表達模塊 20 內特定細胞類型的預后相關性。使用解卷積批量 RNA-seq,我們發現了進展組和無進展組之間模塊 20 評分的顯著差異。值得注意的是,單核細胞在模塊 20 評分中表現出顯著差異(p 值 < 0.01)(圖 6f),表明它們作為有價值的預后指標的潛力。這些發現強調了考慮TAN表達模塊20內的個體細胞類型的重要性,并支持這樣的觀點:它們可以提供超出整體模塊20得分的額外預后能力。
實驗方法
DNA測序、RNA測序、機器學習、基因共表達分析、snRNA-seq、Bulk RNA-seq。
參考文獻
Dolgalev, I., Zhou, H., Murrell, N. et al. Inflammation in the tumor-adjacent lung as a predictor of clinical outcome in lung adenocarcinoma. Nat Commun 14, 6764 (2023).