小浣熊下载站:值得大家信赖的下载站!
发布时间:2024-03-17 12:21:10来源:小浣熊下载站作者:
【机器之心报道】
还记得那个能让人物轻松学会跳舞的神奇技术 Impersonator 吗?经过一年的潜心研发,这一来自上海科技大学和腾讯 AI Lab 的研究项目如今已华丽升级。一起来看看这个改进版如何施展魔法,让静止图像中的角色翩翩起舞,甚至还能演绎川普版“鸡你太美”!
(此处插入视频链接:https://v.qq.com/x/page/t3214il8w4m.html)
据新论文《Liquid Warping GAN with Attention: A Unified Framework for Human Image Synthesis》介绍,这次改进的关键在于将源图像数量从单一图片扩展至一组图片。在动作合成场景下,源图像是一组多视角图像,这意味着合成结果无论从哪个角度看都更加真实自然。
论文地址:https://arxiv.org/pdf/2011.09055.pdf
GitHub 地址:https://github.com/iPERDance/iPERCore
项目主页:https://www.impersonator.org/work/impersonator-plus-plus.html
这套统一框架致力于解决人体图像合成的三大核心问题——人体动作模仿、外观迁移及新视图合成。与仅依赖 2D 关键点的传统方法不同,该研究采用 3D 人体网格复原模块来捕获人体姿态和形状,不仅精准定位关节位置,还实现了肢体旋转建模,更能展现个性化的人体形态特征。
为确保源图像中的纹理、风格、颜色乃至人脸身份信息得以保留,研究者创新提出了 Attentional Liquid Warping GAN,其中包含一个新颖的 Attentional Liquid Warping Block (AttLWB),它能够巧妙地在图像和特征空间中传递并融合源信息,实现细致入微的合成效果。
整个方法由三大部分构成:人体网格复原、流组成以及搭载 Liquid Warping Block 或 Attentional Liquid Warping Block 的 GAN,如训练流程图所示:
(此处插入图 3:训练 pipeline)
简而言之,系统首先从视频中随机选取一组图像作为源图像 I_s_i 和参考图像 I_r;然后通过人体网格复原模块估算出每个图像对应的 3D 网格及其渲染图 C_s 和 C_t;接着,流组成模块依据对应图生成变换流 T,并运用此流对源图像进行扭曲处理,产出扭曲图像 I_syn;4.在 GAN 模块中,生成器包括三个子组件,分别负责生成背景图像、重建源图像以及根据目标条件合成最终图像。而 AttLWB 则扮演着关键角色,它将源图像特征跨层传递到合成过程中,确保细节信息得到充分保留和再现,尤其在处理多源输入时表现优越。
人体网格复原模块
该模块利用 HMR 技术,在准确性和效率间取得平衡,高效预测出源图像和参考图像的运动姿态和形态参数。
流组成模块
本模块通过神经网格渲染器(NMR)完全可微的方式,基于相机视图渲染出源和参考网格的对应关系图和权重索引图。在此基础上计算出变换流,进而分离源图像的前景部分和背景蒙版,并利用变换流将源图像的可见纹理映射到目标条件下,生成初步的合成图像 I_t^syn。
Attentional Liquid Warping GAN
GAN 阶段的目标是在理想条件下生成高保真度的人体图像,具体任务包括合成背景图像、预测不可见部分的颜色以及生成衣物、头发等像素细节。其网络架构设计精细,兼顾了各个生成组件的需求。
为了验证所提方法在动作模仿、外观迁移及新视图合成上的性能,研究团队在 Impersonator(iPER)、MotionSynthetic、FashionVideo 和 Youtube-Dancer-18 四大数据集上进行了全面实验。其中,Impersonator 数据集包含了多样化的服装风格和体型特征,为评估提供了丰富资源。
人体动作模仿结果
(此处插入表 1 和表 2)
实验结果显示,无论是单样本平均结果还是少样本测试,改进版方法在人体动作模仿任务上均表现出色,优于对比方法。
外观迁移结果
(此处插入表 3)
在 iPER 数据集上针对 LWB 和 AttLWB 进行的外观迁移实验表明,AttLWB 在保持图像质量的同时,在各项指标上均有显著提升。
新视图合成结果
(此处插入新视图合成任务比较表格)
在新视图合成任务上,AttLWB 基于 iPER 和 MotionSynthetic 数据集的表现突出,超越了其他对比方法。
可视化效果展示
(此处插入图 9:对比展示图)
综上所述,借助全新升级的 Attentional Liquid Warping GAN,静态人物不仅能轻松学会各种舞蹈动作,且在视觉效果、视角转换等方面都有显著进步。这项研究成果无疑再次拓宽了计算机视觉与人工智能在人体图像合成领域的边界。 WARPED币
上一篇:多重宇宙理论的躁动:我们应该如何看待缺乏实证的理论?
下一篇:返回列表
翻转
休闲益智
怪兽power
动作格斗
冠军来了
休闲益智
荧的惩罚游戏
角色扮演
挖掘机逆袭记
休闲益智
沙丘
休闲益智
披萨塔正式版
休闲益智
方程式赛车手
休闲益智
米加世界迷你小镇
模拟经营