清華新聞網(wǎng)12月12日電 12月6日,在美國(guó)圣地亞哥舉行的第39屆神經(jīng)信息處理系統(tǒng)會(huì)議(Conference on Neural Information Processing Systems,NeurIPS)上,清華大學(xué)自動(dòng)化系宋士吉教授、黃高副教授團(tuán)隊(duì)的論文“強(qiáng)化學(xué)習(xí)是否真的能激發(fā)大語(yǔ)言模型產(chǎn)生超越基礎(chǔ)模型的推理能力?”(Does reinforcement learning really incentivize reasoning capacity in LLMs beyond the base model?)獲得最佳論文亞軍獎(jiǎng)(Best Paper Runner-Up Award)。

獲獎(jiǎng)合影(中間三位為自動(dòng)化系獲獎(jiǎng)學(xué)生)

獲獎(jiǎng)證書(shū)
評(píng)審委員會(huì)對(duì)該論文的評(píng)價(jià)為:“本文針對(duì)大語(yǔ)言模型(LLM)研究中一個(gè)被廣泛接受的基礎(chǔ)性假設(shè)——帶有可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)激發(fā)了大模型新的推理能力——給出了一種精妙且至關(guān)重要的否定性發(fā)現(xiàn)。研究表明,在不同的模型類(lèi)型、任務(wù)和算法中,RLVR訓(xùn)練雖能提高正確輸出的采樣效率,卻無(wú)法拓展基礎(chǔ)模型已有的推理能力。強(qiáng)化學(xué)習(xí)縮小了探索范圍,受獎(jiǎng)勵(lì)的軌跡得到強(qiáng)化,但更廣泛的解決方案空間卻縮小了。這表明RLVR是在基礎(chǔ)分布范圍內(nèi)進(jìn)行優(yōu)化,而非超越基礎(chǔ)分布。這是一項(xiàng)重要發(fā)現(xiàn),有望激勵(lì)人們研發(fā)全新的強(qiáng)化學(xué)習(xí)范式,使其能夠應(yīng)對(duì)廣闊的動(dòng)作空間,并真正拓展大語(yǔ)言模型的推理能力?!?/span>
論文兩位共同第一作者分別為清華大學(xué)自動(dòng)化系2021級(jí)博士生樂(lè)洋和2022級(jí)本科生陳之琪。
NeurIPS是人工智能領(lǐng)域的旗艦學(xué)術(shù)會(huì)議之一,其最佳論文獎(jiǎng)旨在表彰在機(jī)器學(xué)習(xí)、人工智能及相關(guān)領(lǐng)域中具有卓越創(chuàng)新性、重大影響力并能推動(dòng)學(xué)術(shù)前沿發(fā)展的研究工作。
論文鏈接:
https://arxiv.org/abs/2504.13837
供稿:自動(dòng)化系
編輯:李華山
審核:郭玲