文章导航PC6首页软件下载单机游戏安卓资源苹果资源

pc软件新闻网络操作系统办公工具编程服务器软件评测

安卓新闻资讯应用教程刷机教程安卓游戏攻略tv资讯深度阅读综合安卓评测

苹果ios资讯苹果手机越狱备份教程美化教程ios软件教程mac教程

单机游戏角色扮演即时战略动作射击棋牌游戏体育竞技模拟经营其它游戏游戏工具

网游cf活动dnf活动lol周免英雄lol礼包

手游最新动态手游评测手游活动新游预告手游问答

您的位置:首页资讯软件新闻 → 谷歌推多模态视频模型VLOGGER,自动生成丰富动作视频

谷歌推多模态视频模型VLOGGER,自动生成丰富动作视频

时间:2024/4/2 13:13:55来源:www.pc6.com作者:路西蓝我要评论(0)

4月2日 消息:谷歌的研究人员最近推出了一款名为 VLOGGER 的多模态扩散模型,能够自动生成带语音、丰富动作的人物视频。用户只需向 VLOGGER 输入图像和语音,就可以获得逼真的视频效果。

VLOGGER 的创新之处在于采用了全新的多阶段扩散模型架构,结合了文本生成图像模型和时空控制,从而提升了视频生成的逼真效果和丰富动作。研究人员在多个数据集上对 VLOGGER 进行了综合测试,结果显示 VLOGGER 在视频质量、物体还原性和时序一致性等方面表现出色,同时还能生成丰富的上半身和手势动作。

要制作逼真的人物动画视频通常需要大量的人工调整和修补,以确保动作流畅自然。而 VLOGGER 的创新之处在于,其无需针对每个新人物重新训练模型,也不依赖于人脸检测框选区域,直接生成完整目标图像。此外,VLOGGER 还考虑到了现实中复杂的交流场景,如可见躯干、不同身份等因素,这对正确合成有效交流的人物动作至关重要。

在技术实现方面,VLOGGER 首先通过 Transformer 神经网络处理音频波形输入,生成一系列3D 面部表情和身体姿势参数,用于控制虚拟人物在视频中的动作。其次,在空间和时间上进行条件控制,生成高质量、任意长度的视频。VLOGGER 还引入了一种 "时序外推" 的技术,允许模型迭代生成任意长度的视频片段,同时保持时序一致性。为了提高生成效果,VLOGGER 还采用了级联扩散方法,对基础分辨率的视频进行超分辨重建,生成高质量的影像。

VLOGGER 的推出为虚拟数字人的制作提供了更便捷、高效的解决方案,同时也在多模态视频生成领域取得了重要的技术突破。


相关视频

    没有数据

相关阅读 MuseV:基于SD的AI视频生成工具 角色一致且视频时长不限谷歌DeepMind CEO哈萨比斯因人工智能贡献获英国爵士爵位VideoSwap代码放出 可替换视频人物同时保持背景不变Mini-Gemini:简单有效的AI框架,增强多模态视觉语言模型借力AI+视频号电商,腾讯广告业务这驾马车能跑多远?8款AI视频生成产品实测,谁将成为中国Sora?【电子竞技视频直播】下载方法和评测汇总2024年视频会议也可能有假人 怀疑对方AI换脸可以让对方摁鼻子

文章评论
发表评论

热门文章 滴滴和优步合并了吗 优​思源黑体:改变锤子手机发布会看点预TK域名免费注册及解析

最新文章 谷歌推多模态视频模型“大海捞针”out!“数 金山办公 WPS AI 开始收费 包月价格为25元/微信:严厉打击蓄意造谣抹黑企业、企业家等跃问一图读懂体验入口 跃问星辰一键生成长图GRM:只需少量图片,就能在0.1秒内创建3D模

人气排行 2020年放假安排时间表全年图 2020年法定节假2021年放假安排时间表全年图 2021年法定节假微信公众号怎么申请 微信公众号申请要钱吗zune怎么用?zune使用攻略!2014台式机装机配置推荐snmp协议在windows下的安装与配置微信朋友圈三天可见怎么破解 朋友圈仅展示三2016猴年邮票多少钱一套 2016猴年邮票价格表