中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心大數(shù)據(jù)技術(shù)與應(yīng)用發(fā)展部與中科院微生物研究所等,在微生物領(lǐng)域數(shù)據(jù)庫及其分析系統(tǒng)建設(shè)方面取得新進(jìn)展,提出了一種利用語義網(wǎng)技術(shù)構(gòu)建知識圖譜的方法,可將冠狀病毒相關(guān)的毒株、基因組、蛋白序列、蛋白結(jié)構(gòu)、抗體、文獻(xiàn)和專利等多源異構(gòu)數(shù)據(jù)映射至資源描述框架(RDF),并構(gòu)建了基于語義網(wǎng)框架的冠狀病毒知識圖譜數(shù)據(jù)庫gcCov。gcCov包含六千多萬條語義三元組,通過多源異構(gòu)數(shù)據(jù)的語義整合,支持大規(guī)模數(shù)據(jù)驅(qū)動的知識發(fā)現(xiàn),具備對基因、結(jié)構(gòu)、抗體等數(shù)據(jù)進(jìn)行相關(guān)性分析的能力,有助于推動未來對基本病毒機(jī)制以及藥物和疫苗設(shè)計(jì)的研究。相關(guān)研究成果發(fā)表在mLife上。
數(shù)據(jù)處理流水線示意圖
近幾十年來,冠狀病毒持續(xù)威脅全球公共衛(wèi)生安全。關(guān)于新型冠狀病毒的研究十分廣泛,相關(guān)出版物的數(shù)量也迅速增長。海量的科研數(shù)據(jù)促使將不同類型的研究整合到一個(gè)可搜索的語義互聯(lián)的數(shù)據(jù)集,這頗具挑戰(zhàn)性。目前,可用的冠狀病毒數(shù)據(jù)庫主要集中在基因組分析領(lǐng)域(如CovDB1和ViPR2)或出版物領(lǐng)域(如LitCovid3)。而這些數(shù)據(jù)庫沒有建立基因組數(shù)據(jù)和其他類型信息(如論文、專利和抗體)之間的相關(guān)性,阻礙了進(jìn)一步的知識發(fā)現(xiàn)。
語義網(wǎng)能夠?qū)⒎植际骄W(wǎng)絡(luò)資源集成到共享本體的知識庫中,研究對象之間的潛在關(guān)系,是生物醫(yī)學(xué)數(shù)據(jù)集成的有效解決方案。為了分析海量數(shù)據(jù)之間的相互關(guān)系,該研究設(shè)計(jì)了一套流水線方法,將不同來源的數(shù)據(jù)整合到語義網(wǎng)框架中。基于這一方法,該研究構(gòu)建了gcCov數(shù)據(jù)庫,使用關(guān)聯(lián)開放數(shù)據(jù)(Link Open Data)提供有關(guān)冠狀病毒的廣泛信息和關(guān)聯(lián)關(guān)系。gcCov是目前第一個(gè)也是唯一使用關(guān)聯(lián)開放數(shù)據(jù)并基于語義網(wǎng)框架發(fā)布的冠狀病毒數(shù)據(jù)庫,有助于科學(xué)家檢測鏈接數(shù)據(jù)之間的聯(lián)系,從而發(fā)現(xiàn)隱藏在海量數(shù)據(jù)中的新知識。gcCov為當(dāng)前的預(yù)防和治療策略提供了線索,是滿足冠狀病毒研究日益增長的信息需求的重要工具。
相關(guān)新聞推薦
1、微生物生長曲線分析儀助力嗜麥芽窄食單胞菌組氨酸激酶庫的功能圖譜繪制(一)
2、雞大腸埃希氏菌裂解性噬菌體一步生長曲線、生物學(xué)特征及全基因組測序(三)
3、一株具有降尿酸作用的植物乳植桿菌培養(yǎng)條件與生長曲線檢測
