數據修復,用手機實現高精度人臉...
571
2023-11-02
如何得到一個人的高精度面部三維模型?
通常情況下,對某個人的臉進行精確的三維重建需要昂貴的設備和專業知識技能,比如要用攝影棚、相機、3D 掃描儀等等,各種各樣的工作都集中在使用光度學立體或多視圖立體技術來進行面部結構重建。
現在,卡內基梅隆大學(CMU)的研究人員使用普通智能手機錄制的視頻完成了這項壯舉。用智能手機拍攝臉部正面和側面的連續視頻,在深度學習算法的幫助下分析這些數據,成功對多個面部進行了數字重建,實驗結果表明,他們的方法可以達到亞毫米精度,堪比專業化的處理。
圖|CMU 的方法(c)與傳統最先進的方法(d)效果對比(來源:CMU)本研究項目的成員之一、CMU 機器人研究所副研究員西蒙 · 露西(Simon Lucey)表示,面部的三維重建一直是計算機視覺和圖形領域的一個公開問題,因為人們對面部特征的外觀非常敏感,即使重建過程中出現輕微異常,也可能使最終結果看起來與現實差別較大,高水平的細節是個難點,也是栩栩如生的關鍵。
如今,數字臉可以用來構建游戲角色或 AR、VR 的化身,也可以用于動畫、影視制作、社交、生物識別甚至醫療等領域,商業空間可謂十分廣泛,而整個制作過程或許會越來越便捷。
研究人員在慢動作拍攝中使用了 iPhone X,高幀速率的慢動作是原始數據采集的關鍵之一,視頻以 120 幀 / 秒的速度拍攝,每段時長 15-20 秒,背景條件是無約束的,但需要是靜態的場景,拍攝對象最好保持一種靜態的表情。
錄像可以由拍攝對象自己錄制,也可以由助手錄制,之后視頻會分為三個關鍵步驟進行處理:攝像機姿態估計;使用多視圖立體生成點云;使用約束組合進行網格擬合。
傳統而言,大多數多視點人臉重建方法依賴于預先校準的攝像機或使用地標跟蹤器來估計相對于幾何對象的攝像機姿態。
CMU 團隊利用視覺同步定位和映射(SLAM)的直接方法,一方面視覺 SLAM 可以對曲面上的點進行三角剖分以計算其形狀,另一方面可實現亞像素精度的相機姿態估計。這種檢測方法特別適用于特征點檢測和匹配中不存在大量拐角點的人臉。
因此,研究人員利用這個事實,輸入一個單一的連續視頻序列,對于一個典型的序列,可以得到 50-80 個具有精確已知攝像機姿態的關鍵幀,經過這一步能創建出一個人臉的初始幾何圖形,略顯粗糙,丟失的數據也會在模型中留下一些 “空隙”。
圖|初步掃描得到的模型效果(來源:CMU)如上圖所示,點云生成階段結束時生成的具有和不具有紋理的點云數據,這些點云精確地捕捉了整個面部的幾何特征、眼睛、嘴唇等區域的輪廓細節,使每個部分都能被識別。
然而,由于非理想照明、缺少紋理和智能手機的傳感器噪聲等因素,點云會有丟失的數據和噪聲,接下來就需要一個強力的網格擬合方法進行彌補,研究人員采用了非剛性網格擬合算法,利用點云約束、地標約束、網格剛度約束和邊緣約束的組合,對模板進行變形修復,最終需要 30-40 分鐘的處理時間完成一個人臉模型的精確修復。
雖然這個過程耗時有點兒長,但結果卻是值得的,最終構建出的面部三維模型中位數精度約為 0.95 毫米,在精度和完成度方面優于當前一些主流的單視圖和多視圖重建方法,在精細細節方面得到增強,這也是三維人臉重建研究的一個最新趨勢:將精細的高頻細節壓印到重建模型之中。
不過,目前這項研究對場景中的動態運動不具有魯棒性,團隊會在接下來進一步深化研究。
圖|各種主流單視圖和多視圖重建方法的結果比較,正面和剖面相應的誤差熱圖(來源:CMU)
另外一點值得關注的是,該團隊還建立了一個包含 100 位受試者的數據集,每個受試者在不同的光線和背景條件下記錄了 2 個視頻序列。對于每個視頻,研究人員都提供一組 50-80 個他們使用的關鍵幀和重建方式(網格、點云和表面法線貼圖)作為參考,希望這一數據集有助于進一步研究和評估無約束的、既準確又一致的多視圖和單視圖重建算法。
在這項工作中,我們看到了一個普適性的解決方案,這種方法當下不一定很快,但整個過程可以在智能手機上完成,而隨著智能手機的計算處理能力越來越強大,最終用戶有望在不使用任何專用傳感器掃描儀的情況下捕獲高精準度的面部三維模型。
西蒙 · 露西表示,除了面部重建,CMU 團隊的方法也可以用來捕捉幾乎任何物體的幾何結構,然后,這些對象的數字重建可以合并到動畫中,或者通過互聯網傳輸到可以使用 3D 打印機復制這些對象的站點。
發表評論
暫時沒有評論,來搶沙發吧~