2D圖像變3D，微軟新AI框架有望成為遊戲業福音

已經有不少機構，嘗試將2D圖像轉換為3D形式，包括 Facebook、Nvidia等公司的AI研究實驗室，或是類似Threedy.AI這樣的新創公司。近日，來自微軟的研究團隊也發表了一篇預印論文，展示了其在非結構化2D圖像的基礎上生成 3D 形狀圖像的能力。

通常來說，訓練這樣的框架，需要通過柵格化處理來進行微分步驟渲染，因此，過去研究人員在該領域的努力，都專注於開發訂製渲染模型。然而，通過此類模型處理的圖像會顯得不夠真實自然，也不適合用於生成遊戲以及圖形產業的工業效果圖。

微軟的研究人員這一次做了新的突破，他們在論文中詳細介紹了一個框架，該框架採用的「可縮放」訓練技術，是第一次被用於這一領域。研究人員提到，在使用2D圖像進行訓練時，該框架始終可以比現有的模型，生成效果更好的3D形狀，這對於影片遊戲開發人員、電子商務公司，以及缺乏創建3D模型經驗的動畫公司來說，稱得上是「福音」。

具體來說，研究人員試圖利用功能齊全的工業渲染器，該渲染器可以根據顯示數據來生成圖像。為此，研究人員訓練了3D形狀的生成模型，以便渲染形狀並生成與2D數據集分布相匹配的圖像。生成器模型採用隨機輸入向量（代表數據集特徵的值），並生成3D對象的連續體素表示（3D空間中網格上的值），然後將體素輸入到不可微分的渲染過程中，並在使用現有渲染器進行渲染之前，將其閾值降低為離散值。

也就是說，這是一種新穎的代理神經渲染器，直接渲染由3D形狀生成模型生成的連續體素網格的方式。正如研究人員所解釋的那樣，在給定3D網格輸入的情況下，需要對其進行訓練以匹配現成渲染器的渲染輸出。

生成式對抗網路（GANS）在產生2D圖像數據方面的成果，令人印象深刻，許多視覺應用，比如遊戲，都需要3D模型作為輸入，而不僅僅是圖像。但是，直接將現有的GAN模型擴展到3D，需要獲取3D訓練數據。

（上圖為微軟模型生成的3D蘑菇圖像）

在實驗過程中，研究團隊為上述生成器採用了3D卷積GAN架構（GAN是一個由兩部分組成的AI模型，其中包括生成器，這些生成器使用分散式採樣，從隨機噪聲中生成合成示例，並將這些示例與訓練數據集中的真實示例一起饋入鑑別器中，以嘗試區分兩者）。基於3D模型生成的數據集和真實的數據集，可以合成來自不同對象類別的圖像，並在整個訓練過程中從不同角度進行渲染。

研究人員還表示，他們的框架還會從圖像中提取照明和陰影資訊，使其能夠從每個訓練樣本中，提取更多有意義的數據，並在此基礎上產生更好的結果。在對自然圖像的數據集進行訓練之後，該框架可以生成逼真的樣本。此外，該框架還可以利用表面之間的曝光差異，來成功檢測出凹形物體的內部結構，從而使準確地捕獲凹形程度和中空空間。

將顏色，材料和照明等資訊合併到系統中，未來，這些資訊就可以與更多「常規」實際數據集一起使用。

本文為雷鋒網授權刊登，原文標題為「2D 圖像變 3D，微軟新 AI 框架或成遊戲業福音」