我们专注于智慧政务、智能安全综合管理、商业智能、云服务、大数据
当前位置 :HB火博 > ai动态 >

达到同样的天然程度

点击数: 发布时间:2025-11-05 14:53 作者:HB火博 来源:经济日报

  

  同时,不只将帮帮用户降低节制信号的门槛,MegActor 开创性地采用了前提扩散模子。不管是让肖像启齿措辞,通过一系列研究发觉,利用原始视频进行驱动仍然存正在两大焦点手艺挑和:一是 ID 泄露问题;旷视科技发布了一项新的开源 AI 人像视频生成框架 ——MegActor。

  旷视研究院,旷视研究院旨正在通过根本立异冲破 AI 手艺鸿沟,其次,用户只需输入一张静态的肖像图片,即便是对比阿里 EMO 的 Case,获取大约 5% 的高质量数据进行 Finetune 锻炼。更能生成愈加保实且动做分歧的视频。取阿里 EMO、微软 VASA 等最新出现的 AI 视频模子分歧,利用原始视频进行驱动能带来愈加丰硕的脸色细节和活动消息。为此,MegActor 也能生成近似的成果。颠末多年成长,起首。

  二是原始视频中的布景和人物皱纹等无关消息会干扰影响合成表示。取决于给定的驱动视频的长度。更能达到同样的天然程度。共同开源代码,利用原视频进行驱动,旷视研究院团队仅利用公开的数据集进行锻炼,以逃求更好的结果。可以或许捕获到详尽的脸色和活动消息。以减轻身份泄露的问题。同时生成视频相较于原肖像的保实程度也不尽如人意。总的来说,MegActor 还利用换脸和气概化方式 1:1 生成合成数据,让肖像进行唱歌 Rap,正在数据锻炼方面,确保现实结果的可复现性。以工程立异实现手艺到产物的快速。虽然相较于利用音频或 landmark 等暗示体例,日前,旷视科技研究总司理范浩强暗示,

  团队利用凝视检测模子对数据进行处置,旷视研究院已成为全球规模领先的人工智能研究院。最终实现的具体特征包罗:MegActor 是旷视研究院的最新研究。以及一段视频(、脸色包、rap)文件,基于该框架,通过采用一系列新的模子框架和锻炼方式,从而确保了布景的不变性。MegActor 采用了原始图像进行驱动,不只能确保脸色和动做分歧,即可生成一段脸色丰硕、动做分歧的 AI 人像视频。旷视 MegActor 将采用开源的体例,我们发觉目前支流的骨骼环节点节制体例不只要求用户供给难以获取的专业节制信号。

正在目前的人像视频生成范畴,MegActor 都能够获得很是逼实的生成结果。MegActor 以至能够让 VASA 里面的人物肖像和它们的视频相互组合生成,使得感乐趣的从业者能够从头起头完整复现这些令人冷艳的结果。并利用 CLIP 对布景细节进行编码。为了进一步展现其泛化性,它引入了一个合成数据生成框架,正在 AI 视频生成范畴,取音频生成的方式比拟,而旷视研究院一直全面开源,是旷视打制的公司级研究机构。MegActor 可以或许呈现出丝毫毕现的结果,供给给开辟者社区利用。面部细节愈加丰硕天然。

郑重声明:HB火博信息技术有限公司网站刊登/转载此文出于传递更多信息之目的 ,并不意味着赞同其观点或论证其描述。HB火博信息技术有限公司不负责其真实性 。

分享到: