長(zhǎng)鏈非編碼 RNA (lncRNA) 可以順式或反式發(fā)揮多種功能,包括調(diào)節(jié)基因轉(zhuǎn)錄和 RNA 剪接、調(diào)節(jié) RNA 和蛋白質(zhì)的活性或豐度以及組織核結(jié)構(gòu)域。它們廣泛參與細(xì)胞命運(yùn)編程/重編程、分化、發(fā)育,尤其是與人類(lèi)疾病相關(guān)。盡管近年來(lái)高通量測(cè)序技術(shù)的快速發(fā)展已經(jīng)鑒定了數(shù)十萬(wàn)種人類(lèi) lncRNA,但其中只有一小部分得到了很好的表征。
今天我們來(lái)講一個(gè)關(guān)于lncRNA的數(shù)據(jù)——LncExpDB ( https://bigd.big.ac.cn/lncexpdb),該數(shù)據(jù)庫(kù)由中國(guó)國(guó)家生物信息中心和中國(guó)科學(xué)院北京基因組研究所團(tuán)隊(duì)搭建,數(shù)據(jù)庫(kù)相關(guān)文章于2020年10月12日以“LncExpDB: an expression database of human long non-coding RNAs”為題在線(xiàn)發(fā)表于Nucleic Acids Research雜志(IF=11.501)。
LncExpDB提供101293個(gè)人類(lèi)lncRNA基因(對(duì)應(yīng)于331244個(gè)轉(zhuǎn)錄本)全面且高質(zhì)量的集合。它包含了這些lncRNA在337個(gè)生物學(xué)條件下的豐富表達(dá)譜,這些條件屬于九個(gè)重要的生物學(xué)背景,涉及正常組織/細(xì)胞系、癌細(xì)胞系、亞細(xì)胞定位、外泌體、細(xì)胞分化、植入前胚胎、器官發(fā)育、晝夜節(jié)律和病毒感染. 此外,LncExpDB 識(shí)別了25191個(gè)特征lncRNA 基因,并表征了24508個(gè)lncRNA 基因和17345個(gè)mRNA基因之間的28443865個(gè)共表達(dá)相互作用。
基于跨多個(gè)生物環(huán)境的綜合表達(dá)譜,LncExpDB 具有增值管理和分析功能,可提供可靠轉(zhuǎn)錄的 lncRNA 基因。因此,我們發(fā)現(xiàn) 92 016 個(gè) lncRNA 基因(90.8%)得到可靠轉(zhuǎn)錄證據(jù)的支持(表達(dá)值閾值為 1 TPM),在九個(gè)生物學(xué)背景中分布不均。在可靠轉(zhuǎn)錄的基因中,大多數(shù) (82.6%) 在至少兩種生物環(huán)境中表達(dá),3318 個(gè) lncRNAs (3.6%) 在所有 9 種環(huán)境中表達(dá)。
LncExpDB 表征了在特定細(xì)胞系/組織中特異性表達(dá)、在癌癥或病毒感染背景下差異表達(dá)、在特定細(xì)胞器中富集、在細(xì)胞分化或胚胎/器官發(fā)育過(guò)程中動(dòng)態(tài)表達(dá)或隨晝夜節(jié)律周期性表達(dá)的特征 lncRNA 基因韻律。基于大量RNA-seq數(shù)據(jù),共鑒定出25191個(gè)特征lncRNA,其中器官發(fā)育7922個(gè),正常組織/細(xì)胞系7498個(gè),亞細(xì)胞定位5292個(gè),植入前胚胎4343個(gè),癌細(xì)胞系2907個(gè),1740個(gè)晝夜節(jié)律,外泌體中為 1538,細(xì)胞分化中為 1232,病毒感染中為 985。
為了促進(jìn)對(duì)特征 lncRNA 分子機(jī)制的深入研究,LncExpDB 通過(guò)共表達(dá)網(wǎng)絡(luò)預(yù)測(cè) lncRNA-mRNA 相互作用。LncExpDB 總共包含 28 443 865 個(gè)預(yù)測(cè)的 lncRNA-mRNA 相互作用;這些相互作用中的大多數(shù) (96.4%) 存在于一種生物環(huán)境中,并且在五種環(huán)境中發(fā)現(xiàn)了 12 種相互作用。
LncExpDB 的中心實(shí)體是 lncRNA 基因,每個(gè) lncRNA 基因都有一個(gè)對(duì)應(yīng)的頁(yè)面,由兩個(gè)主要部分組成,即基本信息(例如基因符號(hào)、基因組上下文、長(zhǎng)度、外顯子數(shù)、分類(lèi)和對(duì)應(yīng)的轉(zhuǎn)錄本信息)和表達(dá)譜。對(duì)于每個(gè) lncRNA,LncExpDB 在所有收集的條件下分析其基因表達(dá)譜,并以交互方式可視化其表達(dá)譜。它以結(jié)構(gòu)化的方式組織所有相關(guān)數(shù)據(jù),以促進(jìn)基于基因、數(shù)據(jù)集和基于上下文的數(shù)據(jù)瀏覽/搜索。它可以在一頁(yè)中可視化特定 lncRNA 的各種表達(dá)譜,促進(jìn)對(duì)特征基因及其相關(guān)共表達(dá)網(wǎng)絡(luò)的探索,并提供有用的功能來(lái)捕獲不同生物條件下的表達(dá)情況。