自导梦工厂动画电影无须是梦，那个辅助工具同时实现了布偶音频旋转画电影_推特粉丝

原副标题：自导梦工厂动画片无须是梦，那个辅助工具同时实现了布偶音频旋转画电影

机器之心报道

编辑：DAT160

那个架构能将人物音频转成动画片，还是高画质、度受控的。

在SNS网络、短音频平台上采用米老鼠肖像演唱音频是许多人讨厌的动作游戏，但我们也会发现许多问题，比如肖像修正范围比较窄，和本人没有那么像等。

近日，来自马来西亚两广理工学院的一项相关研究在 reddit、twitter上都斩获了数百的点赞量。他们开发了两个能进行受控高清晰度人像音频艺术风格转换的架构——VToonify，在艺术风格掌控的灵巧性、聚合音频的质量、天数上的连续性等方面都有着出众的表现。

你能根据他们的须要灵巧修正聚合的艺术风格类型以及风格化的程度等指标：

从 demo 中能看出，VToonify 聚合的那些人像不仅具有度固定式的米老鼠艺术风格，而且包含了人像的许多技术细节，有一种三万人巧的感觉。因此，不少网友则表示，有了那个辅助工具，动画片电影做起来何必很容易？

还有人放飞将其应用到 VR 领域。

当被问到能否当动态感光白眉林，作者则表示：现阶段数学模型还很大，做到动态还须要许多工程努力。

学术论文概要

学术论文镜像：https://arxiv.org/pdf/2209.11224.pdf项目镜像: https://github.com/williamyang1991/VToonifydemo 镜像: https://huggingface.co/spaces/PKUWilliamYang/VToonifycolab 镜像：https://colab.research.google.com/github/williamyang1991/VToonify/blob/master/notebooks/inference_playground.ipynb

聚合高效率率的艺术人像音频是计算机系统信号处理和计算机系统听觉中的两个重要任务。虽然基于强大的 StyleGAN，人类学家们已经提出了一系列成功的人像米老鼠数学模型，但那些面向全国影像的方式在应用于音频时存在明显的不足之处，如固定帧大小不一、人脸识别翻转要求、缺乏非脸部技术细节和天数不一致等。

也就是说，两个高效率的音频风格化方式须要消除以下挑战：

能处理未翻转的人脸识别和不同的音频大小不一，以保持运动自然。增大音频体积或采用照相机能抓取更多的信息，防止人脸识别移动出帧；为的是相匹配现阶段广泛采用的高画质设备，聚合的音频要有足够高的解析度；要想构筑两个新颖的采用者可视化系统，新方式应该提供灵巧的艺术风格掌控，让采用者修正并选择他们讨厌的艺术风格。

为的是满足以上需求，人类学家们提出了专门用于音频风格化的混合架构——VToonify。

具体来说，他们首先分析了 StyleGAN 的平移同变性，这是消除「固定帧大小不一」不足之处的关键。如下图 2（c）所示，VToonify 结合了基于 StyleGAN 的架构和影像转换架构的优点，同时实现了受控的高清晰度人像音频艺术风格转换。

他们采用[Pinkney and Adler 2020] 的 StyleGAN 架构进行高清晰度的音频艺术风格转换，但通过删除固定大小不一的输入特征和低解析度层来修正 StyleGAN，构筑了两个全新的全卷积编码器 - 聚合器架构，类似于影像转换架构中的架构，支持不同的音频大小不一。

除了原始的高级艺术风格代码外，他们还训练编码器提取输入帧的多尺度内容特征作为聚合器的附加内容条件，以便在艺术风格转换过程中更好地保存帧的关键听觉信息。

他们遵循 [Chen et al. 2019; Viazovetskyi et al. 2020] 的做法，在合成的配对数据上蒸馏 StyleGAN。

此外，他们还进一步提出了基于单一合成数据模拟相机运动的闪烁抑制损失来消除闪烁。

因此，VToonify 无需真实数据、复杂的音频合成和显式的光流计算，就能学习快速连贯的音频转换。

不同于 [Chen et al. 2019; Viazovetskyi et al. 2020] 中标准的影像转换架构，VToonify 将 StyleGAN 数学模型合并到聚合器中，以蒸馏数据和数学模型。因此，VToonify 继承了 StyleGAN 的艺术风格修正灵巧性。通过重用 StyleGAN 作为聚合器，人类学家只须要训练编码器，大大减少了训练天数和训练难度。

根据上述做法，人类学家提出了基于两个代表性 StyleGAN 主干——Toonify [Pinkney and Adler 2020] 和 DualStyleGAN [Yang et al. 2022]——的两种 VToonify 变体，分别用于 collection-based 和 exemplar-based 的人像音频风格化。

前者根据数据集的整体艺术风格对人脸识别进行艺术风格化，而后者则采用数据集中的一张影像来指定更精细的艺术风格，如图 1 的右上角所示。

人类学家通过采用 DualStyleGAN 的艺术风格掌控模块 [Yang et al. 2022] 来修正编码器的特征，并精心设计数据聚合和训练目标。VToonify 继承了 DualStyleGAN 灵巧的艺术风格掌控和艺术风格程度的修正，并进一步将那些功能扩展到音频（如图 1 右上角所示）

collection-based 人像音频艺术风格转换

在 collection-based 人像音频艺术风格转换中，人类学家利用具有代表性的 Toonify 作为主干，它采用原始的 StyleGAN 架构，并仅以艺术风格代码为条件。

如图 4 所示，collection-based VToonify 架构包含构筑在 Toonify 之上的编码器和聚合器。接受音频帧并聚合内容特征，然后将那些特征输入以聚合最终的艺术风格化人像。与现有的采用整个 StyleGAN 架构的基于 StyleGAN 的架构不同，他们只采用最高级的 11 层 StyleGAN 来构筑。正如 [Karras et al. 2019] 中所分析的，StyleGAN 的低解析度层和高清晰度层分别主要捕获与结构相关的艺术风格和颜色 / 纹理艺术风格。因此，的主要任务是对内容特征进行上采样，并为它们渲染艺术风格化的颜色和纹理。

exemplar-based 人像音频艺术风格转换

在 exemplar-based 人像音频艺术风格转换中，人类学家采用 DualStyleGAN 作为主干，它向 StyleGAN 添加了两个外部艺术风格路径，并以内部艺术风格代码、外部艺术风格代码和艺术风格程度为条件。内部艺术风格代码描述了人脸识别的特征，外部艺术风格代码描述了艺术人像外部的结构和色彩艺术风格。结构艺术风格度_和颜色艺术风格度_决定了所应用艺术风格的强度。

exemplar-based 架构和上面提到的 collection-based 架构有许多共同之处，它通过两方面修改来同时实现灵巧的艺术风格掌控，一是借助 Modified ModRe 同时实现结构艺术风格掌控，二是添加了 Style-Degree-Aware 融合模块。完整架构如图 9 所示。

实验结果

实验结果表明，VToonify 聚合的艺术风格化帧不仅与主干帧一样质量高，而且更好地保留了输入帧的技术细节。

更多技术细节请参见原学术论文。返回搜狐，查看更多

责任编辑：