清華新聞網(wǎng)11月21日電 近日,清華大學(xué)計(jì)算機(jī)系教授孫茂松、副教授劉知遠(yuǎn)、助理研究員韓旭指導(dǎo)的研究團(tuán)隊(duì)與大模型開(kāi)源社區(qū)OpenBMB合作,提出大模型“密度法則”概念,指出大模型的最大“能力密度”隨時(shí)間呈指數(shù)級(jí)增長(zhǎng):2023年2月至2025年4月,大模型最大“能力密度”約每3.5個(gè)月翻一番。這意味著每隔3.5個(gè)月,即可用一半?yún)?shù)量的模型實(shí)現(xiàn)當(dāng)前最優(yōu)性能。這一發(fā)現(xiàn)為理解大模型發(fā)展規(guī)律提供了新的視角,揭示了大模型高效化發(fā)展的內(nèi)在趨勢(shì)。
自2020年以來(lái),大模型在尺度定律(Scaling Law)的指導(dǎo)下,不斷增加訓(xùn)練數(shù)據(jù)和模型參數(shù)的規(guī)模,在自然語(yǔ)言理解、生成和推理任務(wù)上取得了顯著的能力提升。這推動(dòng)了一系列參數(shù)量超過(guò)千億的超大規(guī)模模型的涌現(xiàn)。然而,隨著訓(xùn)練規(guī)模的膨脹,大模型訓(xùn)練和推理成本急劇上升。一方面,公開(kāi)可用數(shù)據(jù)的增長(zhǎng)難以匹配模型需求的指數(shù)級(jí)擴(kuò)張;另一方面,計(jì)算資源和能源消耗成為大模型訓(xùn)練與部署的瓶頸。為應(yīng)對(duì)這些挑戰(zhàn),研究者亟需探索大模型的可持續(xù)發(fā)展路徑。
針對(duì)這一關(guān)鍵發(fā)展訴求,研究團(tuán)隊(duì)從“摩爾定律”的密度提升規(guī)律中獲得啟發(fā),基于“采用相同制造工藝、經(jīng)過(guò)充分訓(xùn)練的不同尺寸模型,其‘能力密度’應(yīng)當(dāng)相同”的核心假設(shè),提出大模型“能力密度”(Capability Density)概念,用于評(píng)估大模型單位參數(shù)內(nèi)蘊(yùn)含的智能水平。
為了量化“能力密度”,研究團(tuán)隊(duì)設(shè)計(jì)了相對(duì)“能力密度”的評(píng)估框架。首先選取一系列基準(zhǔn)模型,通過(guò)擬合這些模型在不同參數(shù)規(guī)模下的性能表現(xiàn),建立參數(shù)量與性能之間的映射關(guān)系。在此基礎(chǔ)上,研究團(tuán)隊(duì)設(shè)定基準(zhǔn)模型的“能力密度”為1,作為衡量其他模型“能力密度”的基線(xiàn)。給定目標(biāo)模型的“能力密度”被定義為“同能力的基準(zhǔn)模型參數(shù)量與目標(biāo)模型參數(shù)量的比值”。

圖1.“能力密度”計(jì)算方法示意圖
團(tuán)隊(duì)對(duì)51個(gè)近年來(lái)發(fā)布的開(kāi)源大模型進(jìn)行了密度分析。結(jié)果顯示,這些模型的最大“能力密度”隨時(shí)間呈指數(shù)增長(zhǎng)趨勢(shì),大約每過(guò)3.5個(gè)月,參數(shù)量減半的模型就能達(dá)到當(dāng)前最先進(jìn)模型的性能水平。這一規(guī)律揭示了大模型技術(shù)的飛速進(jìn)展,以及在算力和算法的協(xié)同作用下,大模型能力的持續(xù)提升。

圖2.開(kāi)源大模型“能力密度”的變化趨勢(shì)圖
基于“密度法則”,研究團(tuán)隊(duì)得出了多項(xiàng)推論。首先,實(shí)現(xiàn)相同性能的大模型所需參數(shù)量和推理成本呈指數(shù)級(jí)下降,例如GPT-3.5級(jí)別的大模型每百萬(wàn)詞元推理價(jià)格2022年年底為20美元,到2024年8月已經(jīng)降至此前的266分之一。其次,自ChatGPT發(fā)布后,“能力密度”增長(zhǎng)顯著加速,越來(lái)越多的高效開(kāi)源大模型進(jìn)入大眾視野。再次,“密度法則”與“摩爾定律”結(jié)合,揭示了終端智能的巨大潛力——芯片計(jì)算能力與大模型“能力密度”均呈指數(shù)級(jí)增長(zhǎng),終端設(shè)備將能夠運(yùn)行更高性能的大模型,推動(dòng)邊緣計(jì)算的普及。
該研究強(qiáng)調(diào)密度優(yōu)化是大模型發(fā)展的關(guān)鍵路徑,源于架構(gòu)、算法和數(shù)據(jù)處理的進(jìn)步。團(tuán)隊(duì)已發(fā)布了MiniCPM、MiniCPM-V/o、VoxCPM等一系列端側(cè)高“能力密度”模型。系列模型獲得學(xué)術(shù)和產(chǎn)業(yè)界廣泛認(rèn)可,相關(guān)技術(shù)論文發(fā)表于《自然·通訊》(Nature Communications)、《自然·機(jī)器智能》(Nature Machine Intelligence)等刊物。開(kāi)源模型的10次發(fā)布,全部登頂HuggingFace、GitHub國(guó)際關(guān)注榜單,并入選HuggingFace 2024年度全球最受歡迎和下載開(kāi)源模型榜單。
研究成果以“大模型密度法則”(Densing Law of LLMs)為題,于11月20日作為封面文章,發(fā)表于《自然》(Nature)子刊《自然·機(jī)器智能》(Nature Machine Intelligence)。

圖3.研究成果作為封面文章發(fā)表于《自然·機(jī)器智能》
清華大學(xué)計(jì)算機(jī)系博士后肖朝軍為論文第一作者,韓旭、劉知遠(yuǎn)、孫茂松為論文通訊作者。研究得到國(guó)家自然科學(xué)基金、北京市科技計(jì)劃項(xiàng)目、博士后創(chuàng)新人才支持計(jì)劃及清華大學(xué)“水木學(xué)者”計(jì)劃的支持。
論文鏈接:
https://www.nature.com/articles/s42256-025-01137-0
供稿:計(jì)算機(jī)系
編輯:李華山
審核:郭玲