金沙娱乐场欢迎您-澳门金沙城中心赌场-大发888娱乐官方网站

<fieldset id="y4wq0"><menu id="y4wq0"></menu></fieldset>

<del id="y4wq0"><tfoot id="y4wq0"></tfoot></del>

<abbr id="y4wq0"></abbr><ul id="y4wq0"><dfn id="y4wq0"></dfn></ul>

清華主頁(yè)· English Version

清華主頁(yè) - 清華新聞 - 學(xué)術(shù)科研 - 正文

自動(dòng)化系宋士吉、黃高團(tuán)隊(duì)提出具備人自適應(yīng)主動(dòng)感知能力的動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)架構(gòu)

分享

清華新聞網(wǎng)11月21日電 過(guò)去幾十年間，計(jì)算機(jī)視覺(jué)研究取得了突破性進(jìn)展。然而，深度神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的計(jì)算機(jī)視覺(jué)模型在功耗、存儲(chǔ)和響應(yīng)時(shí)延等方面存在顯著的效率瓶頸，難以廣泛部署于機(jī)器人、移動(dòng)設(shè)備或邊緣終端等資源受限的場(chǎng)景。此外，大型視覺(jué)模型巨大的訓(xùn)練與推理開(kāi)銷(xiāo)也使算力瓶頸問(wèn)題和環(huán)境可持續(xù)性問(wèn)題變得尤為突出。

圖1.當(dāng)前計(jì)算機(jī)視覺(jué)范式所面臨的能效瓶頸

人類(lèi)視覺(jué)系統(tǒng)能在龐雜的視覺(jué)輸入中快速篩取要點(diǎn)，大幅降低冗余計(jì)算，使得人類(lèi)高度復(fù)雜的視覺(jué)系統(tǒng)能夠高效、快速運(yùn)行。無(wú)論外界場(chǎng)景多么復(fù)雜，人類(lèi)視覺(jué)系統(tǒng)的能耗主要取決于注視帶寬與注視次數(shù)，而非全局像素量。早在2015年，深度學(xué)習(xí)三位主要奠基人楊立昆（Yann LeCun）、本吉奧（Bengio）和辛頓（Hinton）便指出，未來(lái)的AI視覺(jué)系統(tǒng)應(yīng)具備類(lèi)人的、任務(wù)驅(qū)動(dòng)的主動(dòng)觀(guān)察能力。然而近十年以來(lái)，這一方向仍缺乏系統(tǒng)性研究。

圖2.人類(lèi)視覺(jué)系統(tǒng)的主動(dòng)自適應(yīng)感知策略

11月6日，清華大學(xué)自動(dòng)化系宋士吉教授、黃高副教授團(tuán)隊(duì)在《自然·機(jī)器智能》（Nature Machine Intelligence）上以“模擬人類(lèi)自適應(yīng)視覺(jué)，實(shí)現(xiàn)高效靈活的機(jī)器視覺(jué)感知”（Emulating human-like adaptive vision for efficient and flexible machine visual perception）為題發(fā)表論文，提出AdaptiveNN架構(gòu)，通過(guò)借鑒人類(lèi)“主動(dòng)自適應(yīng)視覺(jué)”機(jī)制，逐步定位關(guān)鍵區(qū)域、累積多次注視信息，并在信息足夠完成任務(wù)時(shí)主動(dòng)終止感知過(guò)程。

AdaptiveNN模型在一個(gè)視覺(jué)環(huán)境中，依次在若干感興趣區(qū)域上進(jìn)行“注視”，逐步積累信息形成內(nèi)部視覺(jué)表征，并動(dòng)態(tài)決定何時(shí)結(jié)束該過(guò)程。在每一步，Vision Agent基于當(dāng)前的內(nèi)部視覺(jué)表征評(píng)估任務(wù)完成度，若信息不足，則通過(guò)策略網(wǎng)絡(luò)選擇下一次注視位置。每個(gè)選定的注視區(qū)域由表征提取網(wǎng)絡(luò)提取深度特征，從而不斷更新內(nèi)部視覺(jué)表征用于后續(xù)決策。AdaptiveNN的整體框架模擬了人類(lèi)從全局到局部、從粗到細(xì)的視覺(jué)感知策略，使神經(jīng)網(wǎng)絡(luò)具備了類(lèi)人式的主動(dòng)感知能力，突破了傳統(tǒng)視覺(jué)模型的效率瓶頸。

AdaptiveNN在設(shè)計(jì)上具有較強(qiáng)的兼容性和靈活性，適用于多種不同的深度神經(jīng)網(wǎng)絡(luò)基礎(chǔ)架構(gòu)（如卷積網(wǎng)絡(luò)、Transformer等）和多種任務(wù)類(lèi)型（如視覺(jué)識(shí)別、具身視覺(jué)感知、視覺(jué)-語(yǔ)言多模態(tài)聯(lián)合建模等）。

圖3.AdaptiveNN的網(wǎng)絡(luò)架構(gòu)和推理過(guò)程

AdaptiveNN的訓(xùn)練過(guò)程同時(shí)涉及連續(xù)變量（如從注視區(qū)域中提取特征）和離散變量（如決定下一次注視位置）的優(yōu)化。具體而言，從期望優(yōu)化目標(biāo)出發(fā)，對(duì)整體損失函數(shù)進(jìn)行分解，AdaptiveNN的端到端優(yōu)化過(guò)程可自然地分解為兩項(xiàng)：第一項(xiàng)為表征學(xué)習(xí)目標(biāo)（representation learning），對(duì)應(yīng)于從注視區(qū)域中提取任務(wù)相關(guān)的特征；第二項(xiàng)為自激勵(lì)強(qiáng)化學(xué)習(xí)目標(biāo)（self-rewarding reinforcement learning），對(duì)應(yīng)于優(yōu)化注視位置的分布，驅(qū)使模型的主動(dòng)注視行為實(shí)現(xiàn)最大化的任務(wù)收益。這一理論結(jié)果揭示了AdaptiveNN的內(nèi)在學(xué)習(xí)規(guī)律：主動(dòng)感知的優(yōu)化本質(zhì)上是表征學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的統(tǒng)一。

圖4.自激勵(lì)強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的端到端主動(dòng)視覺(jué)感知行為學(xué)習(xí)

研究團(tuán)隊(duì)在九類(lèi)典型視覺(jué)任務(wù)上對(duì)AdaptiveNN進(jìn)行了實(shí)測(cè)驗(yàn)證，AdaptiveNN展現(xiàn)出了高效、靈活和透明的特點(diǎn)。

圖5.ImageNet大規(guī)模視覺(jué)識(shí)別任務(wù)上的定性和定量實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)進(jìn)一步將AdaptiveNN應(yīng)用于具身智能的基礎(chǔ)模型——視覺(jué)語(yǔ)言動(dòng)作模型（VLA）。結(jié)果表明，該框架在復(fù)雜操作場(chǎng)景中顯著提升了具身基礎(chǔ)模型的推理與感知效率，在保持任務(wù)成功率的同時(shí)將計(jì)算效率提升4.4至5.9倍。

圖6.ApdativeNN應(yīng)用于VLA具身任務(wù)的實(shí)驗(yàn)結(jié)果

綜上，AdaptiveNN提供了一種通用的高效視覺(jué)模型，對(duì)認(rèn)知科學(xué)的研究具有啟發(fā)意義，有望用于模擬和檢驗(yàn)人類(lèi)的注意力分配、感知學(xué)習(xí)以及復(fù)雜任務(wù)中的視覺(jué)決策機(jī)制，為認(rèn)知科學(xué)提供新的視角和工具。

清華大學(xué)自動(dòng)化系2019級(jí)博士生王語(yǔ)霖，2022級(jí)博士生樂(lè)洋、樂(lè)陽(yáng)為論文共同第一作者，自動(dòng)化系教授宋士吉、副教授黃高為論文共同通訊作者。研究得到國(guó)家重點(diǎn)研發(fā)計(jì)劃青年科學(xué)家項(xiàng)目、國(guó)家自然科學(xué)基金重大儀器研制項(xiàng)目、聯(lián)合重點(diǎn)項(xiàng)目等的資助。

論文鏈接：

https://doi.org/10.1038/s42256-025-01130-7

供稿：自動(dòng)化系

編輯：李華山

審核：郭玲

2025年11月21日 14:45:27

相關(guān)新聞

讀取內(nèi)容中,請(qǐng)等待...

最新動(dòng)態(tài)

關(guān)于我們 │ 友情鏈接 │ 清華地圖

清華大學(xué)新聞中心版權(quán)所有，清華大學(xué)新聞網(wǎng)編輯部維護(hù)，電子信箱: [email protected]
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.