金沙娱乐场欢迎您-澳门金沙城中心赌场-大发888娱乐官方网站

清華主頁(yè) - 清華新聞 - 學(xué)術(shù)科研 - 正文

深圳國(guó)際研究生院曾龍團(tuán)隊(duì)合作在文本-3D場(chǎng)景生成技術(shù)領(lǐng)域取得新進(jìn)展

清華新聞網(wǎng)12月11日電 隨著具身機(jī)器人的場(chǎng)景泛化需求和數(shù)字內(nèi)容創(chuàng)作需求,根據(jù)自然語(yǔ)言的場(chǎng)景描述,從預(yù)定義的資產(chǎn)集合中生成邏輯連貫且豐富的自定義3D場(chǎng)景布局(文本-3D場(chǎng)景生成)成為一項(xiàng)具有挑戰(zhàn)性的任務(wù)。傳統(tǒng)方法定義精確的規(guī)則既耗時(shí)又需要大量的藝術(shù)專(zhuān)業(yè)知識(shí),并且限制了復(fù)雜和多樣場(chǎng)景組合的表達(dá)?;谏疃葘W(xué)習(xí)的方法,當(dāng)前數(shù)據(jù)集仍然相對(duì)有限,生成結(jié)果缺乏多樣性,無(wú)法完全滿(mǎn)足藝術(shù)專(zhuān)家的實(shí)際需求。近期基于大語(yǔ)言模型的場(chǎng)景生成方法雖然通過(guò)語(yǔ)言模型提取布局先驗(yàn),但在空間感知和幾何精度上仍有不足,難以準(zhǔn)確表示復(fù)雜的空間關(guān)系、建模對(duì)象姿態(tài),并符合美學(xué)設(shè)計(jì)原則。

圖1.文本-3D場(chǎng)景生成系統(tǒng)獲得的高質(zhì)量3D場(chǎng)景

為此,清華大學(xué)深圳國(guó)際研究生院曾龍副教授課題組與合作者聯(lián)合攻關(guān),研究搭建一個(gè)3D場(chǎng)景布局系統(tǒng)(圖2),能在給定某個(gè)高質(zhì)量的3D資產(chǎn)庫(kù)的情況下,在文本或圖像輸入下即可生成自然、細(xì)致且邏輯連貫的3D場(chǎng)景布局。

圖2.文本-3D場(chǎng)景生成技術(shù)方法概述

研究團(tuán)隊(duì)使用圖像生成模型Flux將用戶(hù)的輸入提示擴(kuò)展為引導(dǎo)圖像,通過(guò)高質(zhì)量3D場(chǎng)景布局?jǐn)?shù)據(jù)進(jìn)行微調(diào),F(xiàn)lux能夠生成質(zhì)量更高且與資產(chǎn)集合風(fēng)格更一致的圖像,這顯著提高了擺放系統(tǒng)的可控性;接著構(gòu)建一個(gè)基于預(yù)訓(xùn)練視覺(jué)模型的圖像分析模塊,融合視覺(jué)語(yǔ)義分割、單圖像幾何解析以及基于圖的場(chǎng)景圖邏輯構(gòu)建功能;隨后根據(jù)語(yǔ)義特征匹配策略,從資產(chǎn)集合中檢索出與引導(dǎo)圖像最匹配的對(duì)象,結(jié)合視覺(jué)語(yǔ)義特征、幾何信息和場(chǎng)景布局邏輯,迭代計(jì)算每個(gè)前景對(duì)象的旋轉(zhuǎn)、平移和縮放變換。最終,團(tuán)隊(duì)通過(guò)場(chǎng)景圖邏輯和圖像語(yǔ)義解析對(duì)三維場(chǎng)景布局進(jìn)行一致性?xún)?yōu)化,確保最終3D場(chǎng)景在視覺(jué)和邏輯上與引導(dǎo)圖像相近。

3D資產(chǎn)由自主開(kāi)發(fā)的模型、高質(zhì)量的開(kāi)源內(nèi)容及授權(quán)市場(chǎng)資產(chǎn)組合而成,并由20名具有三年以上經(jīng)驗(yàn)的專(zhuān)業(yè)藝術(shù)家將這些項(xiàng)目布置成互動(dòng)媒體級(jí)別的3D場(chǎng)景。

圖3.3D資產(chǎn)及布局?jǐn)?shù)據(jù)集

圖像生成模型擅長(zhǎng)生成美觀(guān)且細(xì)致的二維布局,該研究方法可將這些能力應(yīng)用于三維場(chǎng)景布局任務(wù)。與之前依賴(lài)復(fù)合資產(chǎn)的方法不同,團(tuán)隊(duì)根據(jù)引導(dǎo)圖像以不同的姿態(tài)和位置放置資產(chǎn),避免了冗余,增加了多樣性。此外,團(tuán)隊(duì)引入了資產(chǎn)內(nèi)部布局功能,使資產(chǎn)可在其他資產(chǎn)內(nèi)進(jìn)行排列,以?xún)?yōu)化空間使用并提高場(chǎng)景真實(shí)性。這些功能使得生成的三維場(chǎng)景布局更加自然、詳細(xì)和具備視覺(jué)吸引力。實(shí)驗(yàn)結(jié)果顯示,與以往的方法相比,3D場(chǎng)景布局質(zhì)量顯著提升。

實(shí)驗(yàn)結(jié)果顯示,團(tuán)隊(duì)研究生成的3D場(chǎng)景布局在豐富度和美術(shù)質(zhì)量方面優(yōu)于其他先進(jìn)方法。這一成果使原本需要專(zhuān)業(yè)美術(shù)師耗費(fèi)2.5小時(shí)完成的工作流程實(shí)現(xiàn)了自動(dòng)化,有望將所需時(shí)間降低至4分鐘以?xún)?nèi)。

圖4.3D場(chǎng)景布局方法的生成結(jié)果對(duì)比

研究成果以“Imaginarium:視覺(jué)引導(dǎo)的高質(zhì)量3D場(chǎng)景布局生成”(Imaginarium: Vision-guided High-Quality 3D Scene Layout Generation)為題,被計(jì)算機(jī)圖形學(xué)領(lǐng)域頂會(huì)SIGGRAPH Asia 2025接收,并于12月4日發(fā)表于《美國(guó)計(jì)算機(jī)協(xié)會(huì)圖形匯刊》(ACM Transactions on Graphics)。

清華大學(xué)深圳國(guó)際研究生院2022級(jí)碩士生朱曉明為論文第一作者,騰訊IEG游戲AI中心高級(jí)研究員鄧治博士和深圳國(guó)際研究生院副教授曾龍為論文通訊作者。研究得到國(guó)家重點(diǎn)研發(fā)計(jì)劃“工業(yè)軟件”專(zhuān)項(xiàng)課題和國(guó)家自然科學(xué)基金面上項(xiàng)目的資助。

論文鏈接:

https://dl.acm.org/doi/10.1145/3763353

供稿:深圳國(guó)際研究生院

編輯:李華山

審核:郭玲

2025年12月11日 16:32:23

相關(guān)新聞

讀取內(nèi)容中,請(qǐng)等待...

最新動(dòng)態(tài)

清華大學(xué)新聞中心版權(quán)所有,清華大學(xué)新聞網(wǎng)編輯部維護(hù),電子信箱: [email protected]
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.