金沙娱乐场欢迎您-澳门金沙城中心赌场-大发888娱乐官方网站

清華主頁(yè) - 清華新聞 - 學(xué)術(shù)科研 - 正文

自動(dòng)化系宋士吉、黃高團(tuán)隊(duì)提出具備人自適應(yīng)主動(dòng)感知能力的動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)架構(gòu)

清華新聞網(wǎng)11月21日電 過(guò)去幾十年間,計(jì)算機(jī)視覺(jué)研究取得了突破性進(jìn)展。然而,深度神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的計(jì)算機(jī)視覺(jué)模型在功耗、存儲(chǔ)和響應(yīng)時(shí)延等方面存在顯著的效率瓶頸,難以廣泛部署于機(jī)器人、移動(dòng)設(shè)備或邊緣終端等資源受限的場(chǎng)景。此外,大型視覺(jué)模型巨大的訓(xùn)練與推理開(kāi)銷(xiāo)也使算力瓶頸問(wèn)題和環(huán)境可持續(xù)性問(wèn)題變得尤為突出。

圖1.當(dāng)前計(jì)算機(jī)視覺(jué)范式所面臨的能效瓶頸

人類(lèi)視覺(jué)系統(tǒng)能在龐雜的視覺(jué)輸入中快速篩取要點(diǎn),大幅降低冗余計(jì)算,使得人類(lèi)高度復(fù)雜的視覺(jué)系統(tǒng)能夠高效、快速運(yùn)行。無(wú)論外界場(chǎng)景多么復(fù)雜,人類(lèi)視覺(jué)系統(tǒng)的能耗主要取決于注視帶寬與注視次數(shù),而非全局像素量。早在2015年,深度學(xué)習(xí)三位主要奠基人楊立昆(Yann LeCun)、本吉奧(Bengio)和辛頓(Hinton)便指出,未來(lái)的AI視覺(jué)系統(tǒng)應(yīng)具備類(lèi)人的、任務(wù)驅(qū)動(dòng)的主動(dòng)觀(guān)察能力。然而近十年以來(lái),這一方向仍缺乏系統(tǒng)性研究。

圖2.人類(lèi)視覺(jué)系統(tǒng)的主動(dòng)自適應(yīng)感知策略

11月6日,清華大學(xué)自動(dòng)化系宋士吉教授、黃高副教授團(tuán)隊(duì)在《自然·機(jī)器智能》(Nature Machine Intelligence)上以“模擬人類(lèi)自適應(yīng)視覺(jué),實(shí)現(xiàn)高效靈活的機(jī)器視覺(jué)感知”(Emulating human-like adaptive vision for efficient and flexible machine visual perception)為題發(fā)表論文,提出AdaptiveNN架構(gòu),通過(guò)借鑒人類(lèi)“主動(dòng)自適應(yīng)視覺(jué)”機(jī)制,逐步定位關(guān)鍵區(qū)域、累積多次注視信息,并在信息足夠完成任務(wù)時(shí)主動(dòng)終止感知過(guò)程。

AdaptiveNN模型在一個(gè)視覺(jué)環(huán)境中,依次在若干感興趣區(qū)域上進(jìn)行“注視”,逐步積累信息形成內(nèi)部視覺(jué)表征,并動(dòng)態(tài)決定何時(shí)結(jié)束該過(guò)程。在每一步,Vision Agent基于當(dāng)前的內(nèi)部視覺(jué)表征評(píng)估任務(wù)完成度,若信息不足,則通過(guò)策略網(wǎng)絡(luò)選擇下一次注視位置。每個(gè)選定的注視區(qū)域由表征提取網(wǎng)絡(luò)提取深度特征,從而不斷更新內(nèi)部視覺(jué)表征用于后續(xù)決策。AdaptiveNN的整體框架模擬了人類(lèi)從全局到局部、從粗到細(xì)的視覺(jué)感知策略,使神經(jīng)網(wǎng)絡(luò)具備了類(lèi)人式的主動(dòng)感知能力,突破了傳統(tǒng)視覺(jué)模型的效率瓶頸。

AdaptiveNN在設(shè)計(jì)上具有較強(qiáng)的兼容性和靈活性,適用于多種不同的深度神經(jīng)網(wǎng)絡(luò)基礎(chǔ)架構(gòu)(如卷積網(wǎng)絡(luò)、Transformer等)和多種任務(wù)類(lèi)型(如視覺(jué)識(shí)別、具身視覺(jué)感知、視覺(jué)-語(yǔ)言多模態(tài)聯(lián)合建模等)。

圖3.AdaptiveNN的網(wǎng)絡(luò)架構(gòu)和推理過(guò)程

AdaptiveNN的訓(xùn)練過(guò)程同時(shí)涉及連續(xù)變量(如從注視區(qū)域中提取特征)和離散變量(如決定下一次注視位置)的優(yōu)化。具體而言,從期望優(yōu)化目標(biāo)出發(fā),對(duì)整體損失函數(shù)進(jìn)行分解,AdaptiveNN的端到端優(yōu)化過(guò)程可自然地分解為兩項(xiàng):第一項(xiàng)為表征學(xué)習(xí)目標(biāo)(representation learning),對(duì)應(yīng)于從注視區(qū)域中提取任務(wù)相關(guān)的特征;第二項(xiàng)為自激勵(lì)強(qiáng)化學(xué)習(xí)目標(biāo)(self-rewarding reinforcement learning),對(duì)應(yīng)于優(yōu)化注視位置的分布,驅(qū)使模型的主動(dòng)注視行為實(shí)現(xiàn)最大化的任務(wù)收益。這一理論結(jié)果揭示了AdaptiveNN的內(nèi)在學(xué)習(xí)規(guī)律:主動(dòng)感知的優(yōu)化本質(zhì)上是表征學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的統(tǒng)一。

圖4.自激勵(lì)強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的端到端主動(dòng)視覺(jué)感知行為學(xué)習(xí)

研究團(tuán)隊(duì)在九類(lèi)典型視覺(jué)任務(wù)上對(duì)AdaptiveNN進(jìn)行了實(shí)測(cè)驗(yàn)證,AdaptiveNN展現(xiàn)出了高效、靈活和透明的特點(diǎn)。

圖5.ImageNet大規(guī)模視覺(jué)識(shí)別任務(wù)上的定性和定量實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)進(jìn)一步將AdaptiveNN應(yīng)用于具身智能的基礎(chǔ)模型——視覺(jué)語(yǔ)言動(dòng)作模型(VLA)。結(jié)果表明,該框架在復(fù)雜操作場(chǎng)景中顯著提升了具身基礎(chǔ)模型的推理與感知效率,在保持任務(wù)成功率的同時(shí)將計(jì)算效率提升4.4至5.9倍。

圖6.ApdativeNN應(yīng)用于VLA具身任務(wù)的實(shí)驗(yàn)結(jié)果

綜上,AdaptiveNN提供了一種通用的高效視覺(jué)模型,對(duì)認(rèn)知科學(xué)的研究具有啟發(fā)意義,有望用于模擬和檢驗(yàn)人類(lèi)的注意力分配、感知學(xué)習(xí)以及復(fù)雜任務(wù)中的視覺(jué)決策機(jī)制,為認(rèn)知科學(xué)提供新的視角和工具。

清華大學(xué)自動(dòng)化系2019級(jí)博士生王語(yǔ)霖,2022級(jí)博士生樂(lè)洋、樂(lè)陽(yáng)為論文共同第一作者,自動(dòng)化系教授宋士吉、副教授黃高為論文共同通訊作者。研究得到國(guó)家重點(diǎn)研發(fā)計(jì)劃青年科學(xué)家項(xiàng)目、國(guó)家自然科學(xué)基金重大儀器研制項(xiàng)目、聯(lián)合重點(diǎn)項(xiàng)目等的資助。

論文鏈接:

https://doi.org/10.1038/s42256-025-01130-7

供稿:自動(dòng)化系

編輯:李華山

審核:郭玲

2025年11月21日 14:45:27

相關(guān)新聞

讀取內(nèi)容中,請(qǐng)等待...

最新動(dòng)態(tài)

清華大學(xué)新聞中心版權(quán)所有,清華大學(xué)新聞網(wǎng)編輯部維護(hù),電子信箱: [email protected]
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.