av日韩亚洲,一本一本a久久,亚洲一区二区三区,亚洲一区二区三区免费视频

基于隱函數(shù)的三維紋理網(wǎng)格重建

來(lái)源:期刊VIP網(wǎng)所屬分類:計(jì)算機(jī)網(wǎng)絡(luò)時(shí)間:瀏覽:

  摘 要: 目前,面向?qū)嵕皥D像的單圖三維重建算法大多無(wú)法重建或者只能重建出已知拓?fù)浣Y(jié)構(gòu)類型的帶紋理三維網(wǎng)格。文章結(jié)合目標(biāo)檢測(cè)網(wǎng)絡(luò),構(gòu)建了基于隱函數(shù)的紋理推斷網(wǎng)絡(luò)“ColorNet”,用于預(yù)測(cè)三維網(wǎng)格頂點(diǎn)的RGB值,并且為Pix3D數(shù)據(jù)集的三維模型添加UV紋理映射,并進(jìn)行渲染、顏色采樣。網(wǎng)絡(luò)在經(jīng)預(yù)處理后的數(shù)據(jù)集上訓(xùn)練并測(cè)試。實(shí)驗(yàn)表明,“ColorNet”可以預(yù)測(cè)出三維網(wǎng)格頂點(diǎn)的RGB值,并通過(guò)與三維重建網(wǎng)絡(luò)“IM-RCNN”相結(jié)合,實(shí)現(xiàn)從單張實(shí)景圖像中自動(dòng)地重建接近真實(shí)紋理的三維模型。

  關(guān)鍵詞: 三維重建; 紋理推斷; UV紋理映射; 目標(biāo)檢測(cè)

  引言

  近年來(lái),隨著卷積神經(jīng)網(wǎng)絡(luò)的普及應(yīng)用和大規(guī)模三維模型數(shù)據(jù)集的出現(xiàn),基于深度學(xué)習(xí)的單圖三維重建取得了較大的進(jìn)展,通過(guò)這些單圖三維重建網(wǎng)絡(luò),可以有效地從圖像中重建出物體的三維模型。然而,這些算法仍然存在一些不足。

  首先,目前的網(wǎng)絡(luò)大多將研究重心放在三維形狀重建上。然而,在現(xiàn)實(shí)世界中,物體不僅有三維形狀,而且有紋理,有色彩。他們互相關(guān)聯(lián)互相補(bǔ)充,使人們對(duì)三維物體的理解更為全面。因此,從圖像中重建帶有紋理的三維模型具有理論意義和實(shí)用價(jià)值,可以應(yīng)用于虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)等諸多領(lǐng)域。

  其次,這些網(wǎng)絡(luò)大多從渲染圖像中重建三維形狀,所用圖像只有單一的物體處在圖像中心并且沒(méi)有背景。而面向?qū)嵕皥D像的單圖三維重建網(wǎng)絡(luò)所重建的三維形狀大多沒(méi)有紋理,或者只能重建出已知拓?fù)浣Y(jié)構(gòu)類型的三維網(wǎng)格。

  針對(duì)這些問(wèn)題,本文提出了“ColorNet”,該網(wǎng)絡(luò)可以從實(shí)景圖像中預(yù)測(cè)出物體三維網(wǎng)格頂點(diǎn)的RGB值。本文的主要貢獻(xiàn)在于①結(jié)合目標(biāo)檢測(cè)網(wǎng)絡(luò),提出一種基于隱函數(shù)的紋理推斷網(wǎng)絡(luò),并且通過(guò)與實(shí)景圖像三維重建網(wǎng)絡(luò)“IM-RCNN”[1]相結(jié)合,使得網(wǎng)絡(luò)能夠從單張實(shí)景圖像中重建出帶紋理的三維模型;②實(shí)景圖像三維模型數(shù)據(jù)集Pix3D[2]缺少UV紋理映射,使用三維建模軟件Blender為所有的三維模型添加UV映射并增加紋理,并篩選整理了每個(gè)三維模型所對(duì)應(yīng)的實(shí)景圖像使得網(wǎng)絡(luò)更容易訓(xùn)練,形成了可用于紋理推斷網(wǎng)絡(luò)的實(shí)景圖像三維模型數(shù)據(jù)集。

  1 相關(guān)工作

  1.1 基于深度學(xué)習(xí)的實(shí)景圖像三維重建

  針對(duì)實(shí)景圖像的三維重建,Yao S等人[3]首先利用目標(biāo)檢測(cè)網(wǎng)絡(luò)預(yù)測(cè)得到物體的掩膜,將它和圖像疊加得到去除背景后的物體,再預(yù)測(cè)物體的三維屬性,對(duì)已有的三維網(wǎng)格模板形變,以此重建三維模型。WU J[4]等人使用經(jīng)裁剪后物體處于中心位置的圖像,訓(xùn)練了“3D-VAE-GAN”網(wǎng)絡(luò)來(lái)重建三維模型,該網(wǎng)絡(luò)只能生成低分辨率的三維模型。GKIOXARI G等人提出了“Mesh R-CNN”[5],該網(wǎng)絡(luò)結(jié)合目標(biāo)檢測(cè)網(wǎng)絡(luò),首先預(yù)測(cè)一個(gè)粗糙的體素模型,并將其轉(zhuǎn)化為初始網(wǎng)格模型,再使用圖卷積[6]網(wǎng)絡(luò)將其形變,獲得最終的三維網(wǎng)格。在我們之前的工作中[1],提出了基于隱函數(shù)表示法的單圖三維重建網(wǎng)絡(luò)“IM-RCNN”,該網(wǎng)絡(luò)結(jié)合Mask RCNN[7],能夠從實(shí)景圖像中重建出高分辨率的三維模型,并且具有更好的視覺(jué)效果,是目前較為有效的方法。然而,所重建的三維模型仍然不具有紋理。KANAZAWA A等人[8]對(duì)預(yù)定義的三維網(wǎng)格進(jìn)行形變,實(shí)現(xiàn)了從實(shí)景圖像中重建鳥(niǎo)類的三維模型。

  1.2 基于深度學(xué)習(xí)的紋理推斷

  針對(duì)三維物體的紋理推斷,Tulsiani S等人[9]使用多個(gè)視圖和光線一致性作為監(jiān)督,提出了一個(gè)基于體素的紋理表示法,重建出了帶有紋理的三維體素模型。SUN Y等人[10]將三維形狀估計(jì)和體素顏色回歸結(jié)合起來(lái),從單張圖像中重建出帶有紋理的三維體素模型。然而,由于體素表示法不具備內(nèi)存效率,他們只能重建出分辨率較低的三維紋理模型。NATSUME R等人[11]將視圖生成方法用于從圖像中重建出帶紋理的三維人體模型。他們提出的視圖生成方法,可以從前視圖中預(yù)測(cè)后視圖,再將前視圖和后視圖一起用于為三維人體模型添加紋理。KANAZAWA A等人[8]首先預(yù)測(cè)UV紋理映射圖的RGB值,再將該圖進(jìn)行UV映射,為三維網(wǎng)格添加紋理。SAITO S等人[12]提出了像素對(duì)齊隱函數(shù)表示法用于三維人體重建,并對(duì)該表示法作了擴(kuò)展,使用隱函數(shù)來(lái)回歸RGB值,從而能夠推斷出每個(gè)頂點(diǎn)的顏色,最終實(shí)現(xiàn)從圖像中重建帶紋理的三維人體模型。

  2 網(wǎng)絡(luò)設(shè)計(jì)

  目前,基于隱函數(shù)的三維形狀表示法受到越來(lái)越多研究者的關(guān)注[12-15],在隱函數(shù)表示法下,三維形狀可以由一個(gè)連續(xù)函數(shù)[f]的[k]等值面來(lái)表示,例如:

  SAITO S等人[12]將隱函數(shù)作了推廣,通過(guò)一個(gè)連續(xù)函數(shù)[f]將一個(gè)三維空間點(diǎn)[X]映射成一個(gè)RGB向量,即:

  他們的網(wǎng)絡(luò)從渲染圖像中重建出帶紋理的三維模型。相反,本文結(jié)合目標(biāo)檢測(cè)網(wǎng)絡(luò),構(gòu)建了基于隱函數(shù)的紋理推斷網(wǎng)絡(luò)“ColorNet”,并與單圖三維重建網(wǎng)絡(luò)“IM-RCNN”相結(jié)合,從而實(shí)現(xiàn)從實(shí)景圖像中重建帶紋理三維家具模型的目標(biāo),如圖1所示。

  2.1 紋理推斷及損失函數(shù)

  圖1展示了“ColorNet”的架構(gòu)。由于本文面對(duì)的是實(shí)景圖像,因此需要獲得物體在整幅圖像中所處位置的特征圖。在目標(biāo)檢測(cè)網(wǎng)絡(luò)的相關(guān)工作中,REN S等人[16]提出了“ROI Pooling”,用于獲取與輸入圖像對(duì)齊的區(qū)域特征圖,之后He K等人[7]使用雙線性差值提升了對(duì)齊精度。因此,“ColorNet”使用RoiAlign[7]操作,從輸入的單張實(shí)景圖像中得到區(qū)域?qū)R特征圖[Featurereal∈RC×H×W]。同時(shí),網(wǎng)絡(luò)隨機(jī)輸入一張?jiān)撊S模型的渲染圖像[Irender],利用一個(gè)由殘差網(wǎng)絡(luò)組成的顏色編碼器[Ecolor]對(duì)它進(jìn)行映射,即:

  經(jīng)過(guò)映射,將[Featurecolor]和[Featurereal]在通道維度上相連接,得到[Featureconcate∈R2C×H×W]。

  另一邊,有[N]個(gè)用于訓(xùn)練的三維采樣點(diǎn)集[P],以其中一個(gè)點(diǎn)[Pi]為例,使用正交投影矩陣[M]將它投影到圖像平面上得到像素點(diǎn)[pi=M(Pi)],并獲得在相機(jī)坐標(biāo)系上的深度值[zi]。之后,使用雙線性采樣獲得與該像素點(diǎn)對(duì)齊的特征[Featurealign∈R2C×N],同時(shí)將深度值[zi]標(biāo)準(zhǔn)化作為深度特征[Featurezi∈R1×N],將兩者在維度上相連接,得到該采樣點(diǎn)最終的特征[Featurepoint]。最后,將該采樣點(diǎn)的特征送入顏色解碼器[Dcolor],得到預(yù)測(cè)的顏色向量[RGBpred∈R3×N],即:

  損失函數(shù)[LossRGB]是所有三維采樣點(diǎn)對(duì)應(yīng)的預(yù)測(cè)RGB值和標(biāo)注RGB值之間的均方誤差,即:

  2.2 顏色編碼器和顏色解碼器的結(jié)構(gòu)

  目前,通過(guò)殘差網(wǎng)絡(luò)可以有效地提取圖像特征。本文對(duì)ResNet-18[17]網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行微調(diào),移除原有的池化層,使用卷積核大小為9×9,步長(zhǎng)為2的卷積層進(jìn)行替代,并使用LeakyReLU作為激活函數(shù),得到用于提取圖像顏色特征的編碼器。

  顏色解碼器用于學(xué)習(xí)一個(gè)連續(xù)的函數(shù)來(lái)預(yù)測(cè)出三維網(wǎng)格每個(gè)頂點(diǎn)對(duì)應(yīng)的RGB值。由于多層的前向網(wǎng)絡(luò)可以在任何精確度上擬合出一個(gè)連續(xù)的形狀函數(shù)[18],本文采用八個(gè)全連接層搭建顏色解碼器,并且除第一個(gè)全連接層,其余各層均將上層的輸出特征與第一層的輸入特征在維度上相連接,作為本層的輸入特征。另外,除最后一層的激活函數(shù)為Tanh以外,其余各層均采用LeakyReLU激活函數(shù)。

  3 數(shù)據(jù)預(yù)處理

  實(shí)驗(yàn)在Pix3D[2]數(shù)據(jù)集上進(jìn)行,該數(shù)據(jù)集包含9個(gè)類別的物體,共有10069張實(shí)景圖像、395個(gè)三維家具模型。然而該數(shù)據(jù)集中,某個(gè)三維模型在不同的實(shí)景圖像中可能擁有不同的紋理,并且這些三維模型不具有UV紋理映射。因此,網(wǎng)絡(luò)訓(xùn)練前,我們對(duì)三維模型進(jìn)行預(yù)處理,并且篩選每個(gè)模型對(duì)應(yīng)的實(shí)景圖像,使得每個(gè)三維模型在不同的實(shí)景圖像中都有相近的紋理,便于網(wǎng)絡(luò)進(jìn)行收斂。

  3.1 添加UV紋理映射

  為了進(jìn)行三維模型的渲染以及網(wǎng)格表面點(diǎn)的RGB值采樣,需要使用帶有UV紋理映射圖的三維模型。由于原始的Pix3D數(shù)據(jù)集中的三維模型不具備UV紋理映射圖,在實(shí)驗(yàn)中需要為395個(gè)三維網(wǎng)格模型手工添加紋理。本文使用三維建模軟件Blender,依次為三維模型添加UV映射圖、繪制紋理以及著色,圖2為添加紋理映射后的模型效果。

  3.2 三維模型渲染

  在為三維模型添加紋理映射之后,對(duì)它們進(jìn)行渲染。使用弱透視相機(jī)模型將三維模型與圖像中心對(duì)齊,并將每個(gè)三維家具模型圍繞偏航軸旋轉(zhuǎn)360度進(jìn)行渲染,共生成142,200張512×512分辨率的渲染圖像。圖3展示了前10個(gè)旋轉(zhuǎn)角度的渲染圖像和掩膜,所生成的渲染圖像沒(méi)有背景。

  3.3 三維表面紋理采樣

  在對(duì)三維模型進(jìn)行渲染后,也可得到UV紋理映射圖對(duì)應(yīng)的法向量圖、掩膜和渲染圖像,如圖4所示。

  在對(duì)表面紋理進(jìn)行采樣時(shí),本文使用UV掩膜來(lái)索引UV渲染圖像、UV法向量圖中對(duì)應(yīng)的紋理區(qū)域,再?gòu)倪@些區(qū)域中隨機(jī)采樣指定數(shù)量的點(diǎn),獲得每個(gè)采樣點(diǎn)對(duì)應(yīng)的顏色值,作為標(biāo)注RGB值。

  4 實(shí)驗(yàn)

  4.1 實(shí)驗(yàn)環(huán)境及參數(shù)配置

  實(shí)驗(yàn)在單張GeForce RTX 2080 Ti GPU上進(jìn)行,由于目標(biāo)是生成帶有紋理的三維形狀,本文使用“IM-RCNN”訓(xùn)練后的模型作為紋理推斷網(wǎng)絡(luò)“ColorNet”的預(yù)訓(xùn)練模型,網(wǎng)絡(luò)共迭代315000次。網(wǎng)絡(luò)訓(xùn)練采用帶動(dòng)量的隨機(jī)梯度下降算法,在前32000次迭代中,學(xué)習(xí)率從0.0025到0.02線性增加,之后在256000到315000次迭代中,以10倍數(shù)進(jìn)行衰減。RGB值損失的權(quán)重是1,使用的權(quán)重衰減率是10?4。

  4.2 帶紋理的三維網(wǎng)格推斷

  為了從實(shí)景圖像中預(yù)測(cè)出帶有紋理的三維模型,本文將紋理推斷網(wǎng)絡(luò)“ColorNet”與單圖三維重建網(wǎng)絡(luò)“IM-RCNN”[1]相結(jié)合,如圖5所示。“IM-RCNN”的隱函數(shù)分支可以從單張圖像中預(yù)測(cè)出物體的三維形狀,它的掩膜分支和包圍框分支可以輸出物體的掩膜和包圍框。

  在推斷時(shí),網(wǎng)絡(luò)結(jié)構(gòu)與訓(xùn)練階段略有不同。首先,網(wǎng)絡(luò)從一張實(shí)景圖像[Ireal]開(kāi)始,通過(guò)RoiAlign操作獲得區(qū)域?qū)R特征[Featurereal],再通過(guò)“IM-RCNN”的隱函數(shù)分支以及等值面提取[19]操作得到預(yù)測(cè)的三維網(wǎng)格[mesh]([Vmesh=(3,N)])。之后,“ColorNet”對(duì)[mesh]的[N]個(gè)頂點(diǎn)計(jì)算預(yù)測(cè)的RGB值。另外,網(wǎng)絡(luò)通過(guò)“IM-RCNN”的掩膜分支得到物體的掩膜[maskpred],并與實(shí)景圖像[Ireal]相疊加,得到去除背景的圖像[Irender],并將其送入顏色編碼器計(jì)算圖像特征。

主站蜘蛛池模板: 如东县| 桐柏县| 宜兴市| 公安县| 玛沁县| 闽侯县| 永福县| 扎兰屯市| 博客| 山阴县| 新野县| 饶阳县| 瑞昌市| 双流县| 苏州市| 革吉县| 三明市| 大新县| 宿州市| 长武县| 伊川县| 桐梓县| 古田县| 毕节市| 黄大仙区| 长武县| 麦盖提县| 巴马| 明水县| 左权县| 竹山县| 祁门县| 黄冈市| 怀来县| 新和县| 葫芦岛市| 陵水| 大悟县| 隆昌县| 晋中市| 昆山市|