人類基因組和其他哺乳動物基因組被轉錄為編碼數千個短(sRNA)和長非編碼RNA(lncRNA),它們與各種生理和病理過程有關,例如腫瘤發生,發育,印記,細胞凋亡和細胞分化。盡管近年來已經發表了數以千計的ncRNA研究,但只有一小部分ncRNA得到了很好的功能研究。鑒于在各種物種中發現了數千種ncRNA,近年來已經開發了許多數據庫來幫助研究人員了解它們的多樣性和功能。包括miRBase,一個已發表的miRNA序列的參考數據庫和GENCODE,一個lncRNA的參考數據庫。此外,已經開發了一系列數據庫來探索ncRNA表達模式,調控網絡和生物學功能,例如RNAcentral,LNCipedia,LncRNAdb,ChIPBase,NONCODE,LncRNADisease,starBase和circBase。然而,這些數據庫側重于特定的ncRNA家族或ncRNA的特定特征。非常需要整合項目產生的深度測序數據,以探索各種ncRNA在生理和病理過程中的動態表達,臨床意義和功能。
中山大學團隊發布了深度測序數據的表達圖譜和ncRNA的交互式分析數據庫——deepBase v3.0 (http://rna.sysu.edu.cn/deepbase3/index.htmlSPASCER),該數據相關文章發表在Nucleic Acids Res期刊(IF:19.160)。
deepBase v3.0首次通過挖掘TCGA的小RNA深度測序數據構建了tRFs和snoRNA的表達譜。deepBase v3.0還通過整合來自大型數據庫(包括ENCODE、TCGA、ICGC和GTEx項目)的測序數據,為正常組織和癌癥組織中的lncRNA和其他ncRNA提供了最全面的表達譜。通過分析來自ERCC的測序數據,我們解碼了miRNA,lncRNA和circRNA的細胞外模式。此外,deepBase v3.0 提供了多種新的 Web 模塊和圖形可視化,以促進對各種類型ncRNA的復雜表達、功能和進化的分析和探索。deepBase v3.0整合來自67個正常組織和約620個癌癥組織的約80 50個數據,提供了最全面的小RNA和lncRNA表達圖譜。對各種ncRNA的細胞外模式進行了分析,以探索其在發現無創生物標志物中的應用。此外,我們通過分析>45 000份癌癥樣本數據和相應的臨床信息,構建了tRNA衍生RNA片段(tRFs)、miRNA、snoRNA和lncRNA的生存圖譜。
基于網絡的sRNA、lncRNA、circRNA和tRF的探索
deepBase提供多種類型RNA的全基因組鑒定,從lncRNA到不同類型的小RNA。在瀏覽部分,有四個網頁供用戶瀏覽帶有注釋和表達譜的不同種類的RNA。lncRNA、小 RNA 和 circRNA 的瀏覽頁面顯示來自不同實驗的已識別和重新注釋的 RNA,以及它們的詳細信息,包括基因組位點、長度、類型、總表達和表達的樣品數。用戶可以按“樣品”列對數據表進行排序,以確定RNA表達的通用性。一些RNA在所有樣品中廣泛表達,而有些僅在少數樣品中表達。通過按“表達”列對數據表進行排序,用戶可以獲得RNA的表達條件。在lncRNA和smallRNA頁面上,我們提供了一個指向新頁面的出站鏈接,該頁面顯示了不同樣品或組織中的詳細表達。用戶只需單擊基因名稱即可獲得詳細信息。
各種ncRNA的表達譜
ncRNA表達的定量是RNA研究的最重要特征之一,在某些階段,組織或細胞中的特異性表達可能意味著ncRNA在生物過程中的功能。表達部分分為兩部分:正常組織和癌癥。在正常組織部分,deepBase提供了所有mRNA,lncRNA,miRNA,circRNA和小ncRNA的表達譜。deepBase v3.0 以熱圖的形式顯示 RNA 的標準化表達值(通過 z 分數或平均值歸一化),讓用戶清楚地了解不同組織或樣品中的相對表達。用戶可以點擊基因名稱,跳轉到詳細表達頁面。在癌癥部分,對來自不同癌癥類型的樣本應用相同的歸一化,以顯示癌癥之間的表達差異。TCGA和ICGC數據分別顯示。癌癥小RNA頁面數據是RNA-seq數據,而miRNA頁面數據是sRNA-seq數據,兩類數據并行變化。在對TCGAsRNA-seq數據進行重新分析的基礎上,deepBase v3.0還顯示了snoRNA在各種癌癥類型中的表達譜。
外泌體的表達譜
細胞外RNA(exRNA)是一種存在于各種生物體液中的RNA分子。來自異質群體的ExRNA,包括小RNA,circRNA,lncRNA和mRNA。它們以游離形式存在或與蛋白質結合形成復合物,參與各種細胞間通訊,并在癌癥和其他疾病中發揮重要作用。分析了從ERCC數據庫下載的2500多個樣本數據,以構建不同外泌體的表達圖譜,并提供人外泌體RNA表達的概述。用戶可以直接了解不同生物流體中的 exRNA 表達以及 exRNA 的表達特異性。
預后分析
通過RNA-seq和sRNA-seq測序數據,我們還收集了TCGA和ICGC的deepBase v3.0臨床數據。結合表達數據和臨床數據,我們將單變量Cox回歸應用于所有差異表達基因(|log FC| ≥ 1,P值<0.05)。deepBase 在數據表中顯示所有生存對數排名 P 值。不顯示未在特定癌癥類型中表達或與生存無關的基因。為通過對數秩P值閾值0.05的生存相關RNA提供了KM生存曲線圖。
不同種類的ncRNA的交互式分析
deepBase提供了多種分析界面,供用戶深入了解不同特征中不同種類的RNA。基因搜索頁面顯示了單個RNA在不同類型癌癥中的詳細表達。本頁由四個部分組成。左側搜索欄包括輸入框和參考線。在右側部分中,數據表顯示表達式和相關信息,箱線圖顯示一種癌癥類型的特定表達。用戶可以單擊數據表中的癌癥名稱進行更改。條形圖顯示了癌癥范圍的表達。該頁面旨在讓用戶直接快速地訪問特定的RNA信息。表達頁面顯示單一癌癥類型中不同類型RNA的表達矩陣,用戶可以設置P值和FDR截止值,獲得自定義數據表以供進一步檢查。搜索和表達頁面為用戶提供了從癌癥相關RNA研究中獲取主要信息的快速簡便方法。