作為細(xì)胞異質(zhì)性研究的重要工具,單細(xì)胞轉(zhuǎn)錄組測(cè)序技術(shù)近年來(lái)蓬勃發(fā)展,并積累了大量研究數(shù)據(jù)。若能有效利用現(xiàn)有的單細(xì)胞數(shù)據(jù)進(jìn)行檢索與推斷,研究者便能更好地進(jìn)行新測(cè)序單細(xì)胞的注釋?zhuān)约熬C合多數(shù)據(jù)集的研究。然而,精確的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)檢索和注釋需要克服兩個(gè)挑戰(zhàn):一、數(shù)據(jù)集之間的批次效應(yīng)(batch effect)會(huì)顯著影響細(xì)胞檢索的可靠性;二、目前缺少跨物種和平臺(tái)、具有高質(zhì)量注釋的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)庫(kù)。
日前,北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心(BIOPIC)、北京未來(lái)基因高精尖創(chuàng)新中心(ICG)、北京大學(xué)生命科學(xué)學(xué)院生物信息中心(CBI)、蛋白質(zhì)與植物基因研究國(guó)家重點(diǎn)實(shí)驗(yàn)室的高歌課題組,在期刊Nature Communications上發(fā)表了題為“Searching large-scale scRNA-seq databases via unbiased cell embedding with Cell BLAST”的論文,發(fā)布了基于深度學(xué)習(xí)模型的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)檢索和注釋的新方法Cell BLAST,以及具備高質(zhì)量注釋的單細(xì)胞轉(zhuǎn)錄組參考數(shù)據(jù)庫(kù)ACA,為有效利用現(xiàn)有數(shù)據(jù)進(jìn)行細(xì)胞注釋和跨數(shù)據(jù)集研究提供了新的工具和資源。
Cell BLAST使用對(duì)抗自編碼器(Adversarial Autoencoder)進(jìn)行轉(zhuǎn)錄組數(shù)據(jù)降維,利用對(duì)抗學(xué)習(xí)策略來(lái)消除數(shù)據(jù)集間的批次效應(yīng),取得了優(yōu)于當(dāng)前其他同類(lèi)工具的效果。此外作者基于該模型提出了一個(gè)新的、更為準(zhǔn)確的細(xì)胞相似性度量用于細(xì)胞檢索,在設(shè)計(jì)上考慮了單細(xì)胞轉(zhuǎn)錄組觀測(cè)本身所具有的不確定性。
除了可以用于細(xì)胞類(lèi)型鑒定,Cell BLAST能靈敏地發(fā)現(xiàn)參考數(shù)據(jù)集中不存在的、未知的細(xì)胞類(lèi)型(圖 a-c);此外,作者用一系列造血分化的數(shù)據(jù)集驗(yàn)證了Cell BLAST還能用于注釋連續(xù)細(xì)胞狀態(tài)(圖 d-f)。
通過(guò)收集大量已發(fā)表的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù),作者建立了一個(gè)涵蓋2,989,582個(gè)單細(xì)胞、8個(gè)物種、27個(gè)不同的組織器官的數(shù)據(jù)庫(kù),稱(chēng)為Animal Cell Atlas (ACA)(圖 g-h)。作者對(duì)ACA中的細(xì)胞注釋進(jìn)行了詳細(xì)的整理,并使用Cell Ontology構(gòu)建了一套結(jié)構(gòu)化的細(xì)胞類(lèi)型標(biāo)注,用于統(tǒng)一不同數(shù)據(jù)集中的標(biāo)注以及支持細(xì)胞類(lèi)型的推斷。
Cell BLAST的應(yīng)用和ACA數(shù)據(jù)庫(kù)
該課題提供了在線(xiàn)檢索平臺(tái),用戶(hù)可以直接上傳待注釋的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù),用ACA中的參考數(shù)據(jù)集進(jìn)行細(xì)胞檢索和自動(dòng)注釋?zhuān)煌瑫r(shí)也提供了Python包Cell BLAST,用戶(hù)可以使用包在自定義的參考數(shù)據(jù)集上進(jìn)行模型訓(xùn)練、檢索和定
制化分析。(100yiyao.com)