您的位置:首页资讯软件新闻 → 谷歌推多模态视频模型VLOGGER,自动生成丰富动作视频

谷歌推多模态视频模型VLOGGER,自动生成丰富动作视频

时间:2024/4/2 13:13:55来源:www.pc6.com作者:路西蓝我要评论(0)

4月2日 消息:谷歌的研究人员最近推出了一款名为 VLOGGER 的多模态扩散模型,能够自动生成带语音、丰富动作的人物视频。用户只需向 VLOGGER 输入图像和语音,就可以获得逼真的视频效果。

VLOGGER 的创新之处在于采用了全新的多阶段扩散模型架构,结合了文本生成图像模型和时空控制,从而提升了视频生成的逼真效果和丰富动作。研究人员在多个数据集上对 VLOGGER 进行了综合测试,结果显示 VLOGGER 在视频质量、物体还原性和时序一致性等方面表现出色,同时还能生成丰富的上半身和手势动作。

要制作逼真的人物动画视频通常需要大量的人工调整和修补,以确保动作流畅自然。而 VLOGGER 的创新之处在于,其无需针对每个新人物重新训练模型,也不依赖于人脸检测框选区域,直接生成完整目标图像。此外,VLOGGER 还考虑到了现实中复杂的交流场景,如可见躯干、不同身份等因素,这对正确合成有效交流的人物动作至关重要。

在技术实现方面,VLOGGER 首先通过 Transformer 神经网络处理音频波形输入,生成一系列3D 面部表情和身体姿势参数,用于控制虚拟人物在视频中的动作。其次,在空间和时间上进行条件控制,生成高质量、任意长度的视频。VLOGGER 还引入了一种 "时序外推" 的技术,允许模型迭代生成任意长度的视频片段,同时保持时序一致性。为了提高生成效果,VLOGGER 还采用了级联扩散方法,对基础分辨率的视频进行超分辨重建,生成高质量的影像。

VLOGGER 的推出为虚拟数字人的制作提供了更便捷、高效的解决方案,同时也在多模态视频生成领域取得了重要的技术突破。


相关视频

    没有数据

相关阅读 MuseV:基于SD的AI视频生成工具 角色一致且视频时长不限谷歌DeepMind CEO哈萨比斯因人工智能贡献获英国爵士爵位VideoSwap代码放出 可替换视频人物同时保持背景不变Mini-Gemini:简单有效的AI框架,增强多模态视觉语言模型借力AI+视频号电商,腾讯广告业务这驾马车能跑多远?8款AI视频生成产品实测,谁将成为中国Sora?【电子竞技视频直播】下载方法和评测汇总2024年视频会议也可能有假人 怀疑对方AI换脸可以让对方摁鼻子

文章评论
发表评论

热门文章 滴滴和优步合并了吗 优​思源黑体:改变锤子手机发布会看点预TK域名免费注册及解析

最新文章 谷歌推多模态视频模型“大海捞针”out!“数 金山办公 WPS AI 开始收费 包月价格为25元/微信:严厉打击蓄意造谣抹黑企业、企业家等跃问一图读懂体验入口 跃问星辰一键生成长图GRM:只需少量图片,就能在0.1秒内创建3D模

人气排行 2020年放假安排时间表全年图 2020年法定节假2021年放假安排时间表全年图 2021年法定节假微信公众号怎么申请 微信公众号申请要钱吗zune怎么用?zune使用攻略!2014台式机装机配置推荐snmp协议在windows下的安装与配置微信朋友圈三天可见怎么破解 朋友圈仅展示三2016猴年邮票多少钱一套 2016猴年邮票价格表