在癌癥中,融合是重要的診斷標(biāo)志物和治療靶點(diǎn)。長讀轉(zhuǎn)錄組測序可以發(fā)現(xiàn)全長亞型結(jié)構(gòu)的融合。然而,由于較高的測序錯(cuò)誤率,專為短讀設(shè)計(jì)的融合查找算法并不奏效。在這里,作者介紹了JAFFAL,從長讀轉(zhuǎn)錄組測序中識(shí)別融合。之后使用模擬、細(xì)胞系和來自Nanopore和PacBio的患者數(shù)據(jù)來驗(yàn)證JAFFAL。最終將JAFFAL應(yīng)用到單細(xì)胞數(shù)據(jù)中,發(fā)現(xiàn)跨越三個(gè)基因的融合,證明從復(fù)雜重排中檢測到的轉(zhuǎn)錄本。JAFFAL可在https://github.com/Oshlack/JAFFA/wiki獲得。該研究于2022年1月發(fā)表于《Genome Biology》,IF:10.806。
技術(shù)路線:
主要研究結(jié)果:
1. JAFFAL管道
如圖1,JAFFAL是一種新的多級(jí)管道,使用bpipe編寫,其動(dòng)機(jī)來自于作者從JAFFA的Direct模式中獲得的方法。該流程包括以下步驟:(1)首先使用噪聲耐受的長讀對(duì)齊器minimap2將長讀序列與參考轉(zhuǎn)錄組(hg38 gencode version 22)對(duì)齊,檢測融合。(2)選擇與融合基因一致的Reads,即與不同基因?qū)R的片段進(jìn)行分析。(3)隨后與參考基因組hg38對(duì)齊,同樣使用minimap2。刪除參考基因組比對(duì)后沒有跨越多個(gè)基因的Reads。(4)JAFFAL利用參考基因組比對(duì)的末端位置來確定融合斷點(diǎn)。(5)斷點(diǎn)被分為“High Confidence”,“Low Confidence”和“Potential Trans-Splicing”。
圖1. 融合檢測的JAFFAL管道步驟
2. JAFFAL融合排序在分離非腫瘤數(shù)據(jù)中的假陽性方面是有效的
為評(píng)估JAFFAL在不同分類水平和不同測序方案的真實(shí)數(shù)據(jù)上的假陽性率,將Nanopore WGS產(chǎn)生的參考細(xì)胞系NA12878進(jìn)行ONT融合,并稱之為Direct RNA和Amplified cDNA測序。由于這是非腫瘤細(xì)胞系,融合應(yīng)該很少,幾乎所有報(bào)道的融合都是假陽性。如表1,對(duì)于兩種方案,JAFFAL報(bào)告了很少的融合,與預(yù)期的High confidence排名。在cDNA數(shù)據(jù)中,LongGF報(bào)道了173個(gè)融合Multi-read support,JAFFAL只稱8次融合為High confidence。相反,在JAFFAL對(duì)cDNA數(shù)據(jù)的Low confidence水平下報(bào)道了過多的融合(報(bào)道了94個(gè)融合),而這種過量在Direct RNA數(shù)據(jù)中未見(報(bào)告了5例融合)。綜上所述,模擬和非腫瘤細(xì)胞系數(shù)據(jù)表明,被JAFFAL分類為High confidence的假陽性率較低。
表1. 從ONT直接RNA和擴(kuò)增cDNA中提取非腫瘤細(xì)胞系NA12878的融合基因和斷點(diǎn)數(shù)量
3. 利用JAFFAL可以在有噪聲的長讀取數(shù)據(jù)中準(zhǔn)確地檢測出模擬的融合
為模擬真實(shí)的背景,將模擬的ONT讀取量與NA12878的2500萬個(gè)cDNA讀取量相結(jié)合。JAFFAL在無背景的ONT仿真、無背景的PacBio仿真和有背景的ONT仿真三個(gè)數(shù)據(jù)集上具有相似的融合發(fā)現(xiàn)靈敏度。JAFFAL檢測到98%的模擬融合,當(dāng)讀取身份為90%或以上,覆蓋率為10或以上(圖2A)。在后臺(tái)讀取NA12878的情況下,JAFFAL的敏感性高于LongGF(圖2B)。因此,利用JAFFAL可以在有噪聲的長讀取數(shù)據(jù)中準(zhǔn)確地檢測出模擬的融合。
圖2. 具有背景的模擬ONT數(shù)據(jù)的融合發(fā)現(xiàn)靈敏度
4. JAFFAL檢測癌細(xì)胞系中已知的融合
為進(jìn)一步證實(shí)JAFFAL的準(zhǔn)確性,將其應(yīng)用于6個(gè)癌癥細(xì)胞系的公開長讀轉(zhuǎn)錄組測序,融合之前已經(jīng)使用RT-PCR和Sanger測序進(jìn)行驗(yàn)證,或者有來自全基因組測序的正交證據(jù)表明發(fā)生了易位。JAFFAL重新發(fā)現(xiàn)了大約一半之前驗(yàn)證過的融合基因(表2)。相比LongGF,JAFFAL報(bào)告了所有數(shù)據(jù)集中相同或更多先前驗(yàn)證過的融合,并將其排名更高(圖3A和B,表2)。僅MCF-7而言,JAFFAL之前在長讀上驗(yàn)證的融合和報(bào)告的其他融合的數(shù)量都在短讀重復(fù)的范圍內(nèi),這更普遍地證明了JAFFAL的準(zhǔn)確性和帶噪聲的長讀數(shù)據(jù)在融合檢測中的效用(圖3C)。總的來說,在MCF-7 ONT細(xì)胞系數(shù)據(jù)上,JAFFAL的High confidence和Low confidence調(diào)用與之前驗(yàn)證的融合、匹配的短讀數(shù)據(jù)中的融合以及LongGF調(diào)用的融合顯示了一致性(圖3D)。綜合來看,這些結(jié)果表明JAFFAL是高度準(zhǔn)確的,特別是在High confidence類別。
表2. JAFFAL和LongGF在7個(gè)長讀測序數(shù)據(jù)集中重新發(fā)現(xiàn)了之前驗(yàn)證過的融合的數(shù)量
圖3. JAFFAL和LongGF對(duì)癌細(xì)胞測序的比較
5. 用長讀測序檢測白血病中臨床相關(guān)融合
接下來,將JAFFAL應(yīng)用于兩份來自白血病患者的樣本,以評(píng)估其在現(xiàn)實(shí)環(huán)境中檢測融合的能力。1例患者患有急性髓系白血病(AML)伴RUNX1-RUNX1T1融合。另一個(gè)病人患有B細(xì)胞急性淋巴細(xì)胞白血病(B-ALL),罕見的BCR-ABL1和IGH-CRLF2融合現(xiàn)象。JAFFAL檢測到RUNX1-RUNX1T1和BCR-ABL1融合在他們各自的樣本中17個(gè)和51個(gè)High confidence調(diào)用中排名第一和第五。與模擬和細(xì)胞系數(shù)據(jù)的結(jié)果一致,JAFFAL找到了確切的斷點(diǎn)。
6. 單細(xì)胞水平的融合檢測
利用長讀測序的單細(xì)胞轉(zhuǎn)錄組學(xué)正在成為一種研究跨細(xì)胞類型轉(zhuǎn)錄多樣性的強(qiáng)大系統(tǒng)。為證明在單細(xì)胞水平上調(diào)用融合的可行性,將JAFFAL應(yīng)用于5個(gè)癌癥細(xì)胞系混合樣本的公開數(shù)據(jù),這些樣本使用ONT與10x Genomics和Illumina測序相結(jié)合進(jìn)行測序。在557個(gè)細(xì)胞中,總共有1800萬個(gè)ONT讀取可以分配細(xì)胞條形碼。正如預(yù)期的那樣,根據(jù)短讀數(shù)據(jù)中的基因表達(dá),細(xì)胞聚集成五個(gè)不同的組(圖4A)。在融合中,13例也出現(xiàn)在短讀RNA測序中作為癌癥細(xì)胞系百科全書CCLE的相同細(xì)胞系的一部分(圖4B)。不同的融合集與每一個(gè)集群相關(guān)聯(lián),使集群注釋到每一個(gè)細(xì)胞系(圖4A)。一個(gè)融合,RP11-96H19.1-RP11-446 N19.1在所有五個(gè)集群中都可以看到。它不存在于CCLE中,與參考基因組中相隔264 kbp的組成基因的read-through轉(zhuǎn)錄一致(圖4B)。在錯(cuò)誤的細(xì)胞系簇中檢測到一些融合(圖4A)。然而,盡管有錯(cuò)誤,這些結(jié)果表明JAFFAL能夠在單個(gè)細(xì)胞水平上檢測到融合。
7. JAFFAL檢測到三種基因融合
JAFFAL發(fā)現(xiàn)的High confidence的三基因融合之一是在H838細(xì)胞系的單細(xì)胞測序的BMPR2-TYW5-ALS2CR11。這是由于2號(hào)染色體上2.5-Mbp區(qū)域的復(fù)雜重排導(dǎo)致的,并由CCLE全基因組測序發(fā)現(xiàn)的易位支持(圖4C)。長讀連接6個(gè)單元中的BMPR2-TYW5和TYW5-ALS2CR11斷點(diǎn)。在46個(gè)細(xì)胞中,還發(fā)現(xiàn)了另一種截?cái)嗟霓D(zhuǎn)錄本,它將BMPR2-TYW5斷點(diǎn)與TYW5中一個(gè)新的外顯子擴(kuò)展事件聯(lián)系起來(圖4C)。總之,作者鑒定了BMPR2-TYW5-ALS2CR11融合基因的6個(gè)不同亞型(圖4C)。
圖4. 5株細(xì)胞系ONT測序中融合的檢測
8. 計(jì)算資源
JAFFAL和LongGF所需的計(jì)算資源在一臺(tái)擁有32 cores和190 GB可用內(nèi)存的機(jī)器上進(jìn)行了基準(zhǔn)測試。JAFFAL在之前描述的9個(gè)健康和癌癥細(xì)胞系批量數(shù)據(jù)集上分別用了不到6 h和21 GB內(nèi)存完成(表3)。這些結(jié)果表明,大的長讀序列的融合調(diào)用不太可能受到計(jì)算限制使用融合探測器。
表3. JAFFAL和LongGF在9個(gè)基準(zhǔn)數(shù)據(jù)集上消耗的運(yùn)行和內(nèi)存的平均值和范圍(括號(hào)內(nèi))
結(jié)論:
與短讀相比,長讀測序有許多新的優(yōu)勢。一項(xiàng)令人興奮的發(fā)展是將長讀測序技術(shù)與單細(xì)胞RNA測序技術(shù)結(jié)合使用,可以對(duì)單個(gè)細(xì)胞的全部轉(zhuǎn)錄組進(jìn)行測序。在這里,作者證明融合可以在這些數(shù)據(jù)中被調(diào)用,為單細(xì)胞分析增加了一種額外的方式,為研究腫瘤的異質(zhì)性提供了許多新的機(jī)會(huì)。