怎样 获得一小我私人 的高精度面部三维模子 ?
通常情形 下,对某小我私人 的脸举行 准确 的三维重修 需要昂贵的装备 和专业知识手艺 ,好比要用摄影棚、相机、3D 扫描仪等等,种种各样的事情都集中在使用光度学立体或多视图立体手艺 来举行 面部结构重修 。
现在,卡内基梅隆大学(CMU)的研究职员 使用通俗 智能手机录制的视频完成了这项壮举。用智能手机拍摄脸部正面和侧面的一连 视频,在深度学习算法的资助下剖析 这些数据,乐成对多个面部举行 了数字重修 ,实验效果 批注 ,他们的要领可以到达亚毫米精度,堪比专业化的处置赏罚 。
图|CMU 的要领(c)与传统最先进的要领(d)效果对比(泉源 :CMU)
本研究项目的成员之一、CMU 机械人研究所副研究员西蒙 · 露西(Simon Lucey)体现,面部的三维重修 一直是盘算机视觉和图形领域的一个果真问题,由于 人们扑面 部特征的外观很是敏感,纵然重修 历程中泛起稍微 异常,也可能使最终效果 看起来与现实差异较大,高水平的细节是个难点,也是栩栩如生的要害。
现在 ,数字脸可以用来构建游戏角色或 AR、VR 的化身,也可以用于动画、影视制作、社交、生物识别甚至医疗等领域,商业空间可谓十分普遍 ,而整个制作历程或许会越来越便捷。
研究职员 在慢行动拍摄中使用了 iPhone X,高帧速率的慢行动是原始数据收罗的要害之一,视频以 120 帧 / 秒的速率 拍摄,每段时长 15-20 秒,配景条件是无约束的,但需要是静态的场景,拍摄工具最好保持一种静态的心情。
录像可以由拍摄工具自己录制,也可以由助手录制,之后视频会分为三个要害步骤举行 处置赏罚 :摄像机姿态预计;使用多视图立体天生 点云;使用约束组合举行 网格拟合。
传统而言,大多数多视点人脸重修 要领依赖于预先校准的摄像机或使用地标跟踪器来预计相对于几何工具的摄像机姿态。
CMU 团队使用 视觉同步定位和映射(SLAM)的直接要领,一方面视觉 SLAM 可以对曲面上的点举行 三角剖分以盘算其形状,另一方面可实现亚像素精度的相机姿态预计。这种检测要领特殊 适用于特征点检测和匹配中不存在大量拐角点的人脸。
因此,研究职员 使用 这个事实,输入一个单一的一连 视频序列,对于一个典型的序列,可以获得 50-80 个具有准确 已知摄像机姿态的要害帧,经由 这一步能建设出一小我私人 脸的初始几何图形,略显粗拙,丢失的数据也会在模子 中留下一些 “逍遥 ”。
图|起源 扫描获得的模子 效果(泉源 :CMU)
如上图所示,点云天生 阶段竣事 时天生 的具有和不具有纹理的点云数据,这些点云准确 地捕捉了整个面部的几何特征、眼睛、嘴唇等区域的轮廓细节,使每个部门都能被识别。
然而,由于非理想照明、缺少纹理和智能手机的传感器噪声等因素,点云会有丢失的数据和噪声,接下来就需要一个强力的网格拟合要领举行 填补 ,研究职员 接纳了非刚性网格拟合算法,使用 点云约束、地标约束、网格刚度约束和边缘约束的组合,对模板举行 变形修复,最终需要 30-40 分钟的处置赏罚 时间完成一小我私人 脸模子 的准确 修复。
虽然这个历程耗时有点儿长,但效果 却是值得的,最终构建出的面部三维模子 中位数精度约为 0.95 毫米,在精度和完成度方面优于当前一些主流的单视图和多视图重修 要领,在细腻 细节方面获得增强,这也是三维人脸重修 研究的一个最新趋势:将细腻 的高频细节压印到重修 模子 之中。
不外,现在 这项研究对场景中的动态运动不具有鲁棒性,团队会在接下来进一步深化研究。
图|种种主流单视图和多视图重修 要领的效果 较量 ,正面和剖面响应 的误差热图(泉源 :CMU)
另外一点值得关注的是,该团队还建设了一个包罗 100 位受试者的数据集,每个受试者在差异的光线和配景条件下纪录了 2 个视频序列。对于每个视频,研究职员 都提供一组 50-80 个他们使用的要害帧和重修 方式(网格、点云和外貌法线贴图)作为参考,希望这一数据集有助于进一步研究和评估无约束的、既准确又一致的多视图和单视图重修 算法。
在这项事情中,我们看到了一个普适性的解决方案,这种要领当下纷歧定很快,但整个历程可以在智能手机上完成,而随着智能手机的盘算处置赏罚 能力越来越强盛 ,最终用户有望在不使用任何专用传感器扫描仪的情形 下捕捉高精准度的面部三维模子 。
西蒙 · 露西体现,除了面部重修 ,CMU 团队的要领也可以用来捕捉险些任何物体的几何结构,然后,这些工具的数字重修 可以合并到动画中,或者通过互联网传输到可以使用 3D 打印机复制这些工具的站点。