熱文:基因組的“語言”:戈登貝爾獎決賽選手使用大型語言模型預測新冠病毒變異株
這一戈登貝爾特別獎旨在表彰基于高性能計算的COVID-19研究。一位決賽入圍選手教會了大型語言模型(LLMs)一種新的語言——基因序列,使這些模型能夠提供基因組學、流行病學和蛋白質(zhì)工程方面的洞察。
這項開創(chuàng)性的成果發(fā)表于10月,是由來自美國阿貢國家實驗室、NVIDIA、芝加哥大學等組織機構(gòu)的二十多名學術(shù)和商業(yè)研究員合作完成。
研究員的LLM所測序的新冠病毒株。每個點都按新冠病毒變異株進行了顏色編碼。該圖由美國阿貢國家實驗室的Bharat Kale、Max Zvyagin和Michael E. Papka提供
【資料圖】
該研究團隊訓練了一個LLM來追蹤基因突變,并預測需要關(guān)注的SARS-CoV-2(導致COVID-19的病毒)變異株。雖然迄今為止大多數(shù)應用于生物學的LLM都是在小分子或蛋白質(zhì)的數(shù)據(jù)集上訓練的,但這一項目是在原始核苷酸序列(DNA和RNA的最小單位)上訓練的首批模型之一。
負責帶領(lǐng)該項目的阿貢國家實驗室計算生物學家Arvind Ramanathan表示:“我們假設(shè)從蛋白質(zhì)水平到基因水平的數(shù)據(jù)有助于我們構(gòu)建出更易于理解新冠病毒變異株的模型。通過訓練模型去追蹤整個基因組及其進化過程中的所有變化,我們不僅能夠更好地預測COVID,還能預測已掌握足夠基因組數(shù)據(jù)的任何疾病。”
戈登貝爾獎被譽為HPC領(lǐng)域的諾貝爾獎。今年的戈登貝爾獎將在本周的SC22上由美國計算機協(xié)會頒發(fā)。該協(xié)會代表著全球約10萬名計算領(lǐng)域的專家,自2020年開始向使用HPC推進COVID-19研究的杰出研究員頒發(fā)特別獎。
在一種只有四個字母的語言上訓練大型語言模型
長期以來,LLM一直在接受人類語言的訓練,這些語言通常由幾十個字母組成,可以排列組合成數(shù)萬個單詞,并連接成長句和段落。而生物學語言只有四個代表核苷酸的字母,即DNA中的A、T、G和C,或RNA中的A、U、G和C。這些字母按不同順序排列成基因。
雖然較少的字母看似會降低AI學習的難度,但實際上生物學語言模型要復雜得多。這是因為人類的基因組由超過30億個核苷酸組成,而冠狀病毒的基因組由大約3萬個核苷酸組成,因此很難將基因組分解成不同、有意義的單位。
Ramanathan表示: “在理解基因組這一 ‘生命代碼’的過程中,我們所面對的一個主要挑戰(zhàn)是基因組中的龐大測序信息。核苷酸序列的意義可能會受另一序列的影響,以人類的文本做類比,這種影響的范圍不僅僅是文本中的下一句話或下一段話,而是相當于一本書中的整個章節(jié)。”
參與該項目協(xié)作的NVIDIA研究員設(shè)計了一種分層擴散方法,使LLM能夠?qū)⒓s1500個核苷酸的長字符串當作句子來處理。
論文共同作者、NVIDIA AI研究高級總監(jiān)、加州理工學院計算+數(shù)學科學系布倫講席教授Anima Anandkumar表示:“標準語言模型難以生成連貫的長序列,也難以學習不同變異株的基本分布。我們開發(fā)了一個在更高細節(jié)水平上運作的擴散模型,該模型使我們能夠生成現(xiàn)實中的變異株,并采集到更完善的統(tǒng)計數(shù)據(jù)。”
預測需要關(guān)注的新冠病毒變異株
該團隊首先使用細菌和病毒生物信息學資源中心的開源數(shù)據(jù),對來自原核生物(像細菌一樣的單細胞生物)超過1.1億個基因序列進行了LLM預訓練,然后使用150萬個高質(zhì)量的新冠病毒基因組序列,對該模型進行微調(diào)。
研究員還通過在更廣泛的數(shù)據(jù)集上進行預訓練,確保其模型能夠在未來的項目中推廣到其他預測任務(wù),使其成為首批具備此能力的全基因組規(guī)模的模型之一。
在對COVID數(shù)據(jù)進行了微調(diào)后,LLM就能夠區(qū)分病毒變異株的基因組序列。它還能夠生成自己的核苷酸序列,預測COVID基因組的潛在突變,這可以幫助科學家預測未來需要關(guān)注的變異株。
在長達一年時間內(nèi)積累的SARS-CoV-2基因組數(shù)據(jù)的訓練下,該模型可以推斷出各種病毒株之間的區(qū)別。左邊的每個點對應一個已測序的SARS-CoV-2病毒株,并按變異株顏色編碼。右圖放大了該病毒的一個特定毒株,它捕捉到了該毒株特有的病毒蛋白進化耦合關(guān)系。圖片由美國阿貢國家實驗室的Bharat Kale、Max Zvyagin和Michael E. Papka提供
Ramanathan表示: “大多數(shù)研究員一直在追蹤新冠病毒突刺蛋白的突變,尤其是與人類細胞結(jié)合的域。但病毒基因組中還有其他蛋白質(zhì)也會經(jīng)歷頻繁的突變,所以了解這些蛋白質(zhì)十分重要。”
論文中提到,該模型還可以與AlphaFold、OpenFold等常見的蛋白質(zhì)結(jié)構(gòu)預測模型整合,幫助研究員模擬病毒結(jié)構(gòu),研究基因突變?nèi)绾斡绊懖《靖腥酒渌拗鞯哪芰ΑpenFold是NVIDIA BioNeMo LLM服務(wù)中包含的預訓練語言模型之一。NVIDIA BioNeMo LLM服務(wù)面向的是致力于將LLM應用于數(shù)字生物學和化學應用的開發(fā)者。
利用GPU加速超級計算機大幅加快AI訓練速度
該團隊在由NVIDIA A100 Tensor Core GPU驅(qū)動的超級計算機上開發(fā)AI模型,包括阿貢國家實驗室的Polaris、美國能源部的Perlmutter以及NVIDIA的Selene系統(tǒng)。通過擴展到這些強大的系統(tǒng),他們在訓練中實現(xiàn)了超過1500 exaflops的性能,創(chuàng)建了迄今為止最大的生物語言模型。
Ramanathan表示: “我們?nèi)缃裉幚淼哪P陀卸噙_250億個參數(shù),預計這一數(shù)量未來還會大幅增加。模型的尺寸、基因序列的長度、以及所需的訓練數(shù)據(jù)量,都意味著我們的確需要搭載數(shù)千顆GPU的超級計算機來完成復雜的計算。”
研究員估計,訓練一個具有25億參數(shù)的模型版本,需要約4000個GPU耗時一個多月。該團隊已經(jīng)在研究用于生物學的LLM,在公布論文和代碼之前,他們在這個項目上已耗時約四個月。GitHub頁面上有供其他研究員在Polaris和Perlmutter上運行該模型的說明。
NVIDIA BioNeMo框架可在NVIDIA NGC中心上的GPU優(yōu)化軟件中搶先體驗。該框架將幫助研究員在多個GPU上擴展大型生物分子語言模型。作為NVIDIA Clara Discovery藥物研發(fā)工具集的一部分,該框架將支持化學、蛋白質(zhì)、DNA和RNA數(shù)據(jù)格式。
英偉達(NVIDIA) RTX3090\/3090Ti 24G公版單渦輪雙寬深度學習訓練顯卡GPU NVIDIA RTX3090 公版盒裝
進入購買
關(guān)鍵詞:
2022-11-16 18:50:50
2022-11-16 18:49:02
2022-11-16 18:48:19
2022-11-16 18:40:28
2022-11-16 18:32:56
2022-11-16 18:32:12
2022-11-16 17:41:06
2022-11-16 17:40:10
2022-11-16 17:37:44
2022-11-16 17:34:38
2022-11-16 17:31:12
2022-11-16 16:52:49
2022-11-16 16:50:50
2022-11-16 16:50:19
2022-11-16 16:41:13
2022-11-16 16:40:09
2022-11-16 16:31:55
2022-11-16 16:01:56
2022-11-16 16:01:05
2022-11-16 16:00:57
2022-11-16 15:59:17
2022-11-16 15:58:32
2022-11-16 15:54:56
2022-11-16 15:54:27
2022-11-16 15:54:11
2022-11-16 15:53:56
2022-11-16 15:52:56
2022-11-16 15:51:02
2022-11-16 15:50:59
2022-11-16 15:48:15
2022-11-16 15:48:08
2022-11-16 15:48:01
2022-11-16 15:47:41
2022-11-16 15:47:08
2022-11-16 15:46:04
2022-11-16 15:45:50
2022-11-16 15:45:27
2022-11-16 15:42:12
2022-11-16 15:42:09
2022-11-16 15:42:06
2022-11-16 15:41:28
2022-11-16 15:41:10
2022-11-16 15:40:41
2022-11-16 15:39:51
2022-11-16 15:39:46
2022-11-16 15:37:43
2022-11-16 15:36:25
2022-11-16 15:33:58
2022-11-16 15:33:50
2022-11-16 15:33:19
2022-11-16 15:33:13
2022-11-16 15:33:04
2022-11-16 15:32:50
2022-11-16 15:32:11
2022-11-16 15:31:15
2022-11-16 15:31:03
2022-11-16 15:30:55
2022-11-16 15:28:36
2022-11-16 15:28:22
2022-11-16 15:27:29
2022-11-16 11:57:55
2022-11-16 09:53:24
2022-11-16 09:52:10
2022-11-16 09:52:02
2022-11-16 09:51:11
2022-11-16 09:49:42
2022-11-16 09:48:42
2022-11-16 09:47:39
2022-11-16 09:46:45
2022-11-16 09:43:46
2022-11-16 09:43:20
2022-11-16 09:38:04
2022-11-16 09:35:10
2022-11-16 09:33:24
2022-11-16 08:59:48
2022-11-16 08:42:20
2022-11-16 08:40:31
2022-11-16 08:33:36
2022-11-16 08:31:56
2022-11-16 08:31:01
2022-11-16 08:30:46
2022-11-16 08:30:11
2022-11-16 08:29:29
2022-11-16 08:28:57
2022-11-16 08:28:44
2022-11-16 08:28:06
2022-11-16 08:27:55
2022-11-16 08:27:24
2022-11-16 08:26:30
2022-11-16 08:25:55
2022-11-16 08:25:19
2022-11-16 08:25:10
2022-11-16 08:25:10
2022-11-16 08:24:38
2022-11-16 08:24:11
2022-11-16 08:23:37
2022-11-16 08:23:10
2022-11-16 08:22:38
2022-11-16 08:22:36
2022-11-16 08:22:08
相關(guān)新聞