金沙娱乐场欢迎您-澳门金沙城中心赌场-大发888娱乐官方网站

清華主頁(yè) - 清華新聞 - 學(xué)術(shù)科研 - 正文

生物醫(yī)學(xué)交叉研究院黃牛課題組合作突破萬(wàn)億級(jí)別虛擬篩選核心技術(shù)瓶頸

清華新聞網(wǎng)12月18日電 近日,清華大學(xué)生物醫(yī)學(xué)交叉研究院黃牛課題組聯(lián)合山東大學(xué)、清華大學(xué)和國(guó)家超級(jí)計(jì)算無(wú)錫中心相關(guān)團(tuán)隊(duì)協(xié)同攻關(guān),成功構(gòu)建新一代性能可移植虛擬篩選框架SWDOCKP2,在國(guó)產(chǎn)最新一代“神威”超級(jí)計(jì)算機(jī)“神威·海洋之光”上,實(shí)現(xiàn)每日1.9萬(wàn)億個(gè)蛋白質(zhì)–配體分子對(duì)接的理論計(jì)算速度,將基于結(jié)構(gòu)的虛擬篩選能力推向接近整個(gè)人類(lèi)蛋白質(zhì)組的覆蓋規(guī)模。相關(guān)研究成果在高性能計(jì)算領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議——2025全球超級(jí)計(jì)算大會(huì)(SC25)上報(bào)告,獲得廣泛關(guān)注。

現(xiàn)代小分子藥物研發(fā)流程復(fù)雜,需歷經(jīng)靶點(diǎn)發(fā)現(xiàn)與驗(yàn)證、先導(dǎo)化合物發(fā)現(xiàn)與優(yōu)化、臨床前研究及多階段臨床試驗(yàn)等關(guān)鍵環(huán)節(jié)。整個(gè)研發(fā)周期長(zhǎng)達(dá)十余年,投入動(dòng)輒數(shù)十億美元。與此同時(shí),“按需合成”(make-on-demand)虛擬化合物庫(kù)規(guī)模呈爆發(fā)式增長(zhǎng),從十年前的百萬(wàn)規(guī)模飆升至十億甚至百億級(jí)別,既極大拓展了可探索的化學(xué)空間,也帶來(lái)了前所未有的計(jì)算壓力。

面對(duì)超大規(guī)模虛擬篩選的技術(shù)難題,聯(lián)合團(tuán)隊(duì)充分發(fā)揮超級(jí)計(jì)算機(jī)的極致并行能力,采用基于物理原理的“暴力篩選”策略,正面突破計(jì)算瓶頸。團(tuán)隊(duì)以虛擬篩選經(jīng)典軟件UCSF DOCK3.7為基礎(chǔ),針對(duì)“神威”超級(jí)計(jì)算機(jī)架構(gòu)進(jìn)行深度移植、重構(gòu)與優(yōu)化,開(kāi)發(fā)全新虛擬篩選軟件SWDOCK,能夠在合理的時(shí)間內(nèi)高效處理數(shù)十億乃至上百億小分子,加速先導(dǎo)化合物發(fā)現(xiàn)流程。

盡管SWDOCK已實(shí)現(xiàn)重大突破,但人類(lèi)蛋白質(zhì)組規(guī)模的虛擬篩選仍存在亟待解決的難題。一方面,UniProt與PDB等數(shù)據(jù)庫(kù)已收錄超過(guò)2萬(wàn)個(gè)人體蛋白質(zhì)的序列和結(jié)構(gòu)信息,AlphaFold等工具進(jìn)一步拓展了蛋白質(zhì)結(jié)構(gòu)資源;而另一方面,化合物庫(kù)規(guī)模指數(shù)級(jí)增長(zhǎng)。據(jù)Pharos平臺(tái)統(tǒng)計(jì)顯示,僅3.4%的人類(lèi)蛋白靶點(diǎn)擁有獲批小分子藥物,大量潛在治療靶點(diǎn)亟待挖掘。

為此,聯(lián)合團(tuán)隊(duì)持續(xù)攻關(guān),推出虛擬篩選軟件升級(jí)版本SWDOCKP2。2025年11月,在美國(guó)圣路易斯召開(kāi)的SC25會(huì)議上,團(tuán)隊(duì)作專(zhuān)題報(bào)告“每日萬(wàn)億配體:基于復(fù)合數(shù)據(jù)庫(kù)優(yōu)化和多靶點(diǎn)對(duì)接的高性能便攜式虛擬篩選”(Trillion Ligands per Day: Performance-Portable Virtual Screening via Compound Database Optimization and Multi-Target Docking),系統(tǒng)介紹性能可移植的跨平臺(tái)虛擬篩選框架SWDOCKP2。該框架可調(diào)度“神威·海洋之光”超算3900萬(wàn)個(gè)計(jì)算核心,同時(shí)對(duì)接8個(gè)蛋白質(zhì)靶標(biāo)結(jié)構(gòu),實(shí)現(xiàn)每日1.9萬(wàn)億個(gè)蛋白質(zhì)–配體對(duì)的理論篩選速度,較此前領(lǐng)先水平提升一個(gè)數(shù)量級(jí)。

通過(guò)整合小分子預(yù)采樣構(gòu)象系綜數(shù)據(jù)庫(kù)、高性能優(yōu)化的SWDOCK與SWDOCKP2軟件,以及“神威·海洋之光”的龐大算力,聯(lián)合團(tuán)隊(duì)不僅實(shí)現(xiàn)了篩選性能的跨越式提升,更具備了構(gòu)建規(guī)模高達(dá)1013個(gè)蛋白質(zhì)——配體復(fù)合物預(yù)測(cè)構(gòu)象數(shù)據(jù)集的能力——該數(shù)據(jù)集將成為同類(lèi)公開(kāi)資源中規(guī)模最大的數(shù)據(jù)庫(kù)?;诖藬?shù)據(jù)集訓(xùn)練的人工智能模型,有望突破藥物研發(fā)中數(shù)據(jù)稀缺的核心瓶頸,推動(dòng)AI驅(qū)動(dòng)的配體預(yù)測(cè)、結(jié)構(gòu)生成等前沿應(yīng)用發(fā)展。

SWDOCKP2核心創(chuàng)新集中在三個(gè)方面。多靶標(biāo)并行:能量網(wǎng)格融合結(jié)合三線(xiàn)性SIMD插值算法優(yōu)化,即針對(duì)蛋白質(zhì)組規(guī)模篩選中“多同源蛋白、多功能構(gòu)象”的并行對(duì)接需求,SWDOCKP2創(chuàng)新提出“多靶標(biāo)并行處理”策略。構(gòu)象系綜重構(gòu)使能“早淘汰”機(jī)制:在配體小分子側(cè),團(tuán)隊(duì)對(duì)化合物構(gòu)象系綜數(shù)據(jù)庫(kù)進(jìn)行精細(xì)化重構(gòu)。通過(guò)對(duì)構(gòu)象基礎(chǔ)單元(confs)的排序與歸并,將對(duì)接打分階段的迭代量降低近一半。跨平臺(tái)兼容:從神威走向通用CPU。為打破平臺(tái)壁壘,團(tuán)隊(duì)在SWDOCKP2中引入基于OpenMP的AthreadS兼容層,該設(shè)計(jì)使得針對(duì)神威架構(gòu)優(yōu)化的應(yīng)用可快速移植至通用CPU平臺(tái),大幅提升代碼性能可移植性,為開(kāi)源學(xué)術(shù)社區(qū)貢獻(xiàn)關(guān)鍵技術(shù)支撐。

山東大學(xué)軟件學(xué)院研究員段曉輝、清華大學(xué)計(jì)算機(jī)系/北京生命科學(xué)研究所聯(lián)合培養(yǎng)博士后沈成、北京生命科學(xué)研究所/清華大學(xué)生物醫(yī)學(xué)交叉研究院2022級(jí)博士生陳高偉為論文共同第一作者。段曉輝、清華大學(xué)教授楊廣文、山東大學(xué)教授劉衛(wèi)國(guó)以及北京生命科學(xué)研究所/清華大學(xué)生物醫(yī)學(xué)交叉研究院研究員黃牛為論文共同通訊作者。

論文鏈接:

https://dl.acm.org/doi/10.1145/3712285.3759833

供稿:生物醫(yī)學(xué)交叉研究院

編輯:李華山

審核:郭玲

2025年12月18日 14:13:09

相關(guān)新聞

讀取內(nèi)容中,請(qǐng)等待...

最新動(dòng)態(tài)

清華大學(xué)新聞中心版權(quán)所有,清華大學(xué)新聞網(wǎng)編輯部維護(hù),電子信箱: [email protected]
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.