近日,,北京大學(xué)定量生物學(xué)中心錢瓏團(tuán)隊(duì)研發(fā)、構(gòu)建了全球首個(gè)針對(duì)功能基因挖掘任務(wù)的大語(yǔ)言模型SYMPLEX,。該模型能夠自動(dòng)高效地從海量生物文獻(xiàn)中發(fā)現(xiàn)具有目標(biāo)功能的關(guān)鍵基因,,并進(jìn)行精準(zhǔn)篩選和功能驗(yàn)證,為后續(xù)的蛋白質(zhì)功能設(shè)計(jì),、生物制劑開發(fā)以及生物制造的應(yīng)用提供科學(xué)依據(jù),。團(tuán)隊(duì)與中科院深圳先進(jìn)技術(shù)研究院婁春波研究員合作,將SYMPLEX應(yīng)用于mRNA加帽酶基因的挖掘,,獲得的新加帽酶活性顯著優(yōu)于mRNA疫苗生產(chǎn)中采用的商業(yè)化酶,,展示了大語(yǔ)言模型賦能生物制造的巨大潛力。相關(guān)研究成果日前發(fā)表于國(guó)際學(xué)術(shù)期刊《科學(xué)·進(jìn)展》,。
“自然界生物體內(nèi)蘊(yùn)含著數(shù)量龐大的有用基因,,這些基因經(jīng)過(guò)億萬(wàn)年自然選擇,形成了豐富多樣的序列組成和基因組合,,演化出各種精妙的功能,,幫助生物在各種不同環(huán)境中更好地生存繁衍。隨著測(cè)序獲得的生物序列累計(jì)達(dá)數(shù)十億量級(jí),,這些天然基因也為生物制造與合成生物技術(shù)提供了基因元件的‘寶庫(kù)’,。”錢瓏告訴記者,,盡管天然基因具備極為豐富的功能和潛力,,但目前只有一小部分熱門基因被高質(zhì)量注釋并構(gòu)建了序列或結(jié)構(gòu)模型,。“原因在于,,基于序列,、結(jié)構(gòu)或深度學(xué)習(xí)的基因挖掘與蛋白質(zhì)設(shè)計(jì)方法由于技術(shù)瓶頸無(wú)法拓展至復(fù)雜基因,進(jìn)而制約了對(duì)高價(jià)值基因元件的挖掘與開發(fā)利用,?!?/p>
針對(duì)上述問(wèn)題,團(tuán)隊(duì)創(chuàng)造性地將大型語(yǔ)言模型與結(jié)構(gòu)化生物知識(shí)庫(kù)深度融合,,開發(fā)出SYMPLEX智能基因挖掘平臺(tái),。這一平臺(tái)是強(qiáng)大的功能基因搜索引擎,可通過(guò)自動(dòng)化閱讀與理解千萬(wàn)級(jí)體量的生物學(xué)文獻(xiàn),,在基因,、功能和知識(shí)水平上對(duì)文獻(xiàn)內(nèi)容進(jìn)行提取分析,并與專家數(shù)據(jù)庫(kù)進(jìn)行概念對(duì)齊,、交互和統(tǒng)計(jì)模式生成,,從而產(chǎn)生高質(zhì)量候選基因集合。對(duì)比結(jié)果表明,,SYMPLEX大模型相比傳統(tǒng)方法具有顯著優(yōu)勢(shì),。
研究團(tuán)隊(duì)還通過(guò)大模型挖掘了mRNA加帽酶,并進(jìn)行了實(shí)驗(yàn)驗(yàn)證,?!耙郧埃琺RNA疫苗背后的一項(xiàng)關(guān)鍵工藝——mRNA 5’端加帽,,一直是效率較低,、成本高昂的‘卡脖子’環(huán)節(jié)。SYMPLEX發(fā)現(xiàn)了近2萬(wàn)個(gè)新型加帽酶,,并對(duì)其中十余個(gè)序列進(jìn)行了驗(yàn)證,。我們從中找到了新酶,其活性超過(guò)當(dāng)前mRNA疫苗制備使用的加帽酶的2倍,。SYMPLEX挖掘的加帽酶數(shù)據(jù)庫(kù),,有望為mRNA疫苗和基于mRNA的基因療法研究提供關(guān)鍵技術(shù)?!卞X瓏介紹,。
“本項(xiàng)研究開創(chuàng)了功能基因挖掘的新范式,為mRNA疫苗規(guī)?;a(chǎn)提供了關(guān)鍵酶資源庫(kù),。”錢瓏表示,,研究團(tuán)隊(duì)正在利用這一大模型進(jìn)行更多可用于合成生物學(xué)的關(guān)鍵酶元件挖掘,,并將該平臺(tái)拓展至合成通路設(shè)計(jì)等領(lǐng)域,有望推動(dòng)生物制造進(jìn)入“人工智能驅(qū)動(dòng)的科學(xué)研究”的新階段,。
編輯:馮方湲
責(zé)任編輯:金艷
編審:韓鈺
0