基因組序列變異是基因組DNA上發(fā)生的可遺傳變異,是物種群體遺傳進(jìn)化、表型差異人類疾病研究、動植物分子育種等最為寶貴的遺傳數(shù)據(jù)資源。近年來,隨著測序技術(shù)的發(fā)展,越來越多物種的基因組被精細(xì)解析,來自不同物種不同群體的全基因組序列變異數(shù)據(jù)呈爆發(fā)式增長。 為實(shí)現(xiàn)不同生物遺傳資源變異組學(xué)科學(xué)數(shù)據(jù)的開放共享與安全管理,中國科學(xué)院北京基因組研究所(國家生物信息中心)國家基因組科學(xué)數(shù)據(jù)中心的研究團(tuán)隊(duì)開發(fā)建立了國際領(lǐng)先、國內(nèi)規(guī)模最大的多物種基因組序列變異庫GVM(Genome Variation Map,https://bigd.big.ac.cn/gvm/),并于2020年9月份完成了數(shù)據(jù)庫2.0版的數(shù)據(jù)更新與功能升級,研究成果以“Genome Variation Map: a worldwide collection of genome variations across multiple species”為題于11月10日在國際學(xué)術(shù)期刊《核酸研究》(Nucleic Acids Research)在線發(fā)表。 該數(shù)據(jù)庫系統(tǒng)收集了以二代測序和芯片技術(shù)為主要檢測手段的全基因組序列變異檢測的原始數(shù)據(jù),通過標(biāo)準(zhǔn)化的變異位點(diǎn)鑒定與注釋流程,整合了包括人、畜牧動物、主要農(nóng)作物和其他資源物種在內(nèi)的41個(gè)物種共計(jì)約9.6億條變異數(shù)據(jù)信息,64,819個(gè)個(gè)體的基因型數(shù)據(jù),并通過人工審編收錄了約26萬條高質(zhì)量的基因型與表型關(guān)聯(lián)知識信息,為深入解析物種遺傳變異的功能、研究物種的群體遺傳多樣性、解讀表型/性狀的遺傳機(jī)制等提供了重要數(shù)據(jù)資源。 GVM數(shù)據(jù)庫通過對變異相關(guān)的原數(shù)據(jù)、變異信息與知識數(shù)據(jù)分別進(jìn)行結(jié)構(gòu)化整理,開發(fā)了界面友好的數(shù)據(jù)檢索、瀏覽、匯交、下載、統(tǒng)計(jì)等模塊,用戶可以方便、快捷地瀏覽入庫物種、項(xiàng)目、樣本、變異、關(guān)聯(lián)知識和用戶遞交數(shù)據(jù)的詳細(xì)信息。通過頁面檢索,還可便捷的獲取一個(gè)物種群體內(nèi)的所有變異數(shù)據(jù)及功能知識信息、變異注釋基因及功能、群體頻率等信息,并可通過ftp服務(wù)下載VCF和FASTA格式的全基因組序列變異數(shù)據(jù)。 GVM數(shù)據(jù)庫積極響應(yīng)基因組科學(xué)數(shù)據(jù)管理與共享工作要求,建立了基因組序列變異數(shù)據(jù)的在線匯交模塊,提供在線批量數(shù)據(jù)遞交服務(wù),為數(shù)據(jù)遞交者提供賬號管理,并為每一個(gè)遞交數(shù)據(jù)分配唯一可識別的標(biāo)識符,根據(jù)遞交用戶設(shè)定的數(shù)據(jù)公開時(shí)間進(jìn)行可控管理。依托中心高性能存儲和異地容災(zāi)的備份機(jī)制,定期進(jìn)行數(shù)據(jù)更新與異地備份,以全面保證數(shù)據(jù)的完整性與安全性。 北京基因組所(國家生物信息中心)章張研究員和宋述慧副研究員為本文共同通訊作者,李翠萍、田東梅、唐碧霞、劉曉楠、滕徐菲為共同第一作者。該研究得到了中科院戰(zhàn)略性先導(dǎo)科技專項(xiàng)、中科院國際大科學(xué)計(jì)劃、國家科技攻關(guān)計(jì)劃、中科院青年創(chuàng)新促進(jìn)會等的資助。  
文章鏈接: https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkaa1005/5973468
|