只用音频，让25年前的奥巴马“穿越”到现在？

本文摘要：真假奥巴马，傻傻分不清。上面两个人，只不过都是奥巴马。左边是1990年还在剑桥读书时的他，另外一个则是20多年之后早已当上总统的“他”。最关键的是，这两个奥巴马实质上都在谈着一样的东西，因为右边的“假”奥巴马，而且是利用左边20多年前奥巴马音频分解的。这个魔术般的“演出”，实质上是来自华盛顿大学的3位学者Supasorn、Steven、Ira的近期成果。

新葡萄最新官网

真假奥巴马，傻傻分不清。上面两个人，只不过都是奥巴马。

左边是1990年还在剑桥读书时的他，另外一个则是20多年之后早已当上总统的“他”。最关键的是，这两个奥巴马实质上都在谈着一样的东西，因为右边的“假”奥巴马，而且是利用左边20多年前奥巴马音频分解的。这个魔术般的“演出”，实质上是来自华盛顿大学的3位学者Supasorn、Steven、Ira的近期成果。

他们在7月中旬公布了涉及的展示视频，其中一位成员Ira在上周洛杉矶的SIGGRAPH上对这一成果展开了详尽的讲解和解析，(公众号：)也在SIGGRAPH现场倾听了这次共享。如何构建输出语音，输入图像？看完了这个展示第一个想起的问题必定是：这个“魔术”到底是如何构建的？到底如何将语音转化成为一个人的面部表情呢？在现场共享的开始阶段，Ira就必要认为了这一研究的两大难题：音频只是一个一维信息，但最后我们要的是二维的图像画面；人类本身对于嘴部运动的感官十分脆弱，高清画质下小的瑕疵将更为显著。

荐个例子，目前电影和游戏中有很多人物的细节片段，他们说出时整个脸部的微小动作，实质上都是由真人演员，通过在脸上贴满了各种标记之后在摄像机面前一对一仿真的结果。但很显著这种方法并无法应用于到所有应用于场景当中。

既然无法清着来，那就不能“取巧”了，我们提到月论文中的一张图，来看一下他们实际的处理过程。非常简单概括一下：输出音频，展开利用一个神经网络循环将语音转化成一个大体的嘴型；利用大体的嘴型新的转化成为嘴、牙齿、涉及脸部的图像；找寻到合适的视频片段，并且将嘴型的时间点与视频片段对应；将嘴型覆盖面积在目标的视频片段上；获得最后视频片段。整个过程中最重要的还是对现有数据的用于。

除了从现有的图像数据中学不会嘴型变化之外，他们实质上确实分解的只有嘴部的变化，只剩的头部变化以及背景实质上也来自于现有的素材。这种“通过AI技术将现实资料融合到一起，再行分解虚拟世界内容”的思路是他们顺利的关键。让AI仿效奥巴马的嘴因为不会利用很多现有的素材，所以第一个问题变为了“如何仿效奥巴马的嘴部运动”。

因为嘴型只不过并不与发音几乎一一对应，它同时也不会受到前后发音、语气等因素的同时起到。如果你必要把音频分为无数个片段，对应嘴型之后再行拼成一起。你就不会获得一个说出时候像在痉挛的奥巴马。

新葡萄最新官网

回应，Ira他们想到了一套“循环神经网络（recurrent neural network）”：神经网络循环对25毫秒的音频展开分析，然后融合前后的发音来确认面部表情。最关键的是：这个25毫秒的窗口期并不是一个一个隔开的，而是随着时间大大前进的。

这也让最后分解的奥巴马十分简洁。确认这种检测方法之后，他们就利用机器学习对所有奥巴马片段展开分析，并且最后将他们转化成为包括上下嘴唇的18个标记点的二维模型。

在月论文中，他们也详尽讲解了自己如何用于“循环神经网络”，感兴趣的可以iTunes下来详尽想到。造脸：弄假成真虽然有了分开分解的嘴，但距离已完成奥巴马的整个脸，甚至是整个片段还差距很近，首先必须找寻到一个需要作为“背景”的现有片段。他们自由选择了以语音的间隔作为参照：首先分析输出语音的间隔，然后在现有的片段中找寻必要相近的片段。甚至是将现有的片段展开50%幅度以内的图形。

紧接着他们建构出有一个假设的奥巴马3D模型，并且以此对顺位的片段展开头部方位的分析。同时根据目标片段的数据分解虚拟世界的下半部分脸部。为了让最后画面看上去更为现实，他们甚至分开对牙齿展开了高清化处置。最后他们再行将现有片段中的脸、衬衫抽出来，并且将分解的下半部分脸部模型分为脸部和颈部。

最后将几个图层展开统合，沦为最后片段。由于没展开几乎的三维化处置，所以在效果上他们也遇上了一些“小问题”。比如在奥巴马头部左右改向较为大的时候，分解的嘴部模型无法很好适应环境下巴，进而经常出现诸如双下巴等图形错误。

新葡萄最新官网

但即便如此，在不告诉是分解片段的情况下，坚信并没多少人会找到是骗的。局限：现在能仿效的有可能只有总统们不过在现场，注意到Ira也坦言了这一方法的两个主要局限：仿效的对象不能面向镜头（侧脸、其他角度敢，因为没用于几乎的3D图形技术）；必需要有大量的高清视频数据供以分析。

这也是他们最后将奥巴马选做第一位“实验者”的关键，因为美国总统在任期之上都会公开发表每周电视讲话。而奥巴马在自己供职的8年间积累了多达800个高清电视讲话。其他人想有这么多素材并不过于更容易。另外一方面，目前整体的制作过程还是比较慢，在用于NVIDIA TitanX、Intel i7-5820K的情况下，分解66秒的实际视频大体必须3分钟。

而为了对整体时长超过17小时的视频展开自学，他们大约用10两组Xeon E5530服务器跑完了两周。Ira对于这项技术的应用于前景也回应了充份的悲观，他在现场也荐了几个明确的例子：可以构建高质量的画面传输，同时大幅增大比特率市场需求；可以构建各种语言下的读唇能力；可以构建各种娱乐能力，诸如电影、游戏中的特效，让像Siri这样的虚拟世界助手“宽”出有一张脸。

Ira最后在现场对以及其他观众回应：这个应用于在奥巴马上的处置实质上也需要应用于在符合条件的其他对象上。但从结果来看，在利用AI的时候融合现有现实数据是一种更为“可信”的作法。对于他们来说，下一步的挑战是尝试融合除了脸部以外的更好奥巴马素材。

原创文章，予以许可禁令刊登。下文闻刊登须知。

本文关键词：只用,音频,让,年前,的,奥,巴马,“,穿越,”,到,新葡萄最新官网

本文来源：新葡萄最新官网-www.theninjaapproved.com