免費獲取專業(yè)評估與規(guī)劃
- 限額50個 -
歡迎光臨托普仕留學(xué)!
當(dāng)前位置:新加坡留學(xué)>留學(xué)資訊>NUS研究團(tuán)隊提出X-Ray:全新3D表示
上傳時間:2024-05-09 17:35:17瀏覽量:960
NUS研究團(tuán)隊胡濤博士等人近期發(fā)布了一種全新的3D表示—X-Ray,它能夠序列化地表示從相機攝像角度看過去的物體的逐層次的物體表面形狀和紋理,可以充分利用視頻生成模型的優(yōu)勢來生成3D物體,可以同時生成物體的內(nèi)外3D結(jié)構(gòu)。
如今的生成式AI在人工智能領(lǐng)域迅猛發(fā)展,在計算機視覺中,圖像和視頻生成技術(shù)已日漸成熟,如Midjourney、Stable Video Diffusion 等模型廣泛應(yīng)用。然而,三維視覺領(lǐng)域的生成模型仍面臨挑戰(zhàn)。目前的3D模型生成技術(shù)通常基于多角度視頻生成和重建,如SV3D模型,通過生成多角度視頻并結(jié)合神經(jīng)輻射場(NeRF)或者3D高斯渲染模型(3D Gaussian Splatting技術(shù)逐步構(gòu)建3D物體。這種方法主要限制在只能生成簡單的、無自遮擋的三維物體,且無法呈現(xiàn)物體內(nèi)部結(jié)構(gòu),使得整個生成過程復(fù)雜而且不完美,顯示出該技術(shù)的復(fù)雜性和局限性。究其原因,在于目前缺乏靈活高效且容易泛化的3D Representation (3D表示)。
我們知道X射線能夠穿透并記錄關(guān)鍵物體內(nèi)外表面信息,受到這個啟發(fā),NUS研究團(tuán)隊胡濤博士等人近期發(fā)布了一種全新的3D表示—X-Ray,它能夠序列化地表示從相機攝像角度看過去的物體的逐層次的物體表面形狀和紋理,可以充分利用視頻生成模型的優(yōu)勢來生成3D物體,可以同時生成物體的內(nèi)外3D結(jié)構(gòu)。
技術(shù)革新:物體內(nèi)外表面的3D表示方法
X-Ray表示:從相機中心開始朝向物體方向的HxW個矩陣點發(fā)射射線。在每條射線方向上, 逐個記錄與物體的表面相交點的 個包含深度、法向量和顏色等的三維屬性數(shù)據(jù), 然后將這些數(shù)據(jù)組織成LxHxW的形式, 實現(xiàn)任意3D模型的張量表示, 這就是我們提出的X-Ray表示方法, 值得注意的是, 該表示形式與視頻格式一樣, 因此我們可以用視頻生成模型做3D生成模型。
編碼過程: 3D模型轉(zhuǎn)X-Ray_X-Ray轉(zhuǎn)3D模型
基于X-Ray表示的3D模型生成
為了生成高分辨率的多樣3D X-Ray模型,我們的團(tuán)隊使用了與視頻格式相似的視頻擴(kuò)散模型架構(gòu)。這個架構(gòu)可以處理連續(xù)的3D信息,并通過上采樣模塊來提高X-Ray的質(zhì)量,生成高精度的3D輸出。擴(kuò)散模型負(fù)責(zé)從噪聲數(shù)據(jù)逐步生成細(xì)節(jié)豐富的3D圖像,上采樣模塊則增強圖像分辨率和細(xì)節(jié),以達(dá)到高質(zhì)量標(biāo)準(zhǔn)。
1. X-Ray 擴(kuò)散生成模型
擴(kuò)散模型在X-Ray生成中使用潛在空間,通常需要自定義開發(fā)向量量化-變分自編碼器(VQ-VAE)[3] 進(jìn)行數(shù)據(jù)壓縮,這一缺少現(xiàn)成模型的過程增加了訓(xùn)練負(fù)擔(dān)。為有效訓(xùn)練高分辨率生成器,我們采用了級聯(lián)合成策略,通過技術(shù)如Imagen和Stable Cascaded,從低到高分辨率逐步訓(xùn)練,以適應(yīng)有限的計算資源并提高X-Ray圖像質(zhì)量。
具體而言,我們使用Stable Video Diffusion中的3D U-Net架構(gòu)作為擴(kuò)散模型,生成低分辨率X-Ray,并通過時空注意機制從2D幀和1D時間序列中提取特征,增強處理和解釋X-Ray能力,這對高質(zhì)量結(jié)果至關(guān)重要。
2. X-Ray 上采樣模型
前一階段的擴(kuò)散模型僅能從文本或其他圖像生成低分辨率的X-Ray圖像。在隨后的階段,我們著重提升這些低分辨率X-Ray至更高分辨率。我們探索了兩種主要方法:點云上采樣和視頻上采樣。由于我們已經(jīng)獲得了形狀和外觀的粗糙表示,將這些數(shù)據(jù)編碼成帶有顏色和法線的點云是一個很直接的過程。然而,點云表示結(jié)構(gòu)過于松散,不適合進(jìn)行密集預(yù)測,傳統(tǒng)的點云上采樣技術(shù)通常只是簡單增加點的數(shù)量,這對于提升諸如紋理和顏色等屬性可能不夠有效。為了簡化我們的流程并確保整個管道的一致性,我們選擇使用視頻上采樣模型。這個模型改編自Stable Video Diffusion(SVD)的時空VAE解碼器,專門從頭開始訓(xùn)練,以4倍的因子上采樣合成的X-Ray幀,同時保持原始的層數(shù)。解碼器能夠在幀級和層級上獨立進(jìn)行注意力操作。這種雙層注意力機制不僅提高了分辨率,還顯著改善了圖像的整體質(zhì)量。這些功能使得視頻上采樣模型成為我們在高分辨率X-Ray生成中更加協(xié)調(diào)和有效的解決方案。
未來展望:新表示帶來無限可能
隨著機器學(xué)習(xí)和圖像處理技術(shù)的不斷進(jìn)步,X-Ray的應(yīng)用前景無限廣闊。未來,這種技術(shù)可能會與增強現(xiàn)實(AR)和虛擬現(xiàn)實(VR)技術(shù)結(jié)合,為用戶創(chuàng)造出完全沉浸式的3D體驗。教育和訓(xùn)練領(lǐng)域也可以從中受益,例如通過3D重建提供更為直觀的學(xué)習(xí)材料和模擬實驗。此外,X-Ray技術(shù)在醫(yī)療影像和生物技術(shù)領(lǐng)域的應(yīng)用,可能改變我們對復(fù)雜生物結(jié)構(gòu)的理解和研究方法。我們期待它如何改變我們與三維世界的互動方式。
以上是關(guān)于NUS研究團(tuán)隊提出X-Ray的全部新聞,如果您對新加坡留學(xué)感興趣,歡迎您在線咨詢托普仕留學(xué)老師。托普仕留學(xué)采用5v1服務(wù)模式,21步精細(xì)服務(wù)流程,硬性四維標(biāo)準(zhǔn)+六維背景提升等留學(xué)服務(wù)體系,為學(xué)生出國留學(xué)申請名校提供保障。