太炸裂了!阿里开发出 AI 图生视频模型EMO,高启强普法、蒙拉丽莎唱歌样样都会|钛媒体AGI

更新时间:2024-02-29 15:55:29作者:无忧百科

太炸裂了!阿里开发出 AI 图生视频模型EMO,高启强普法、蒙拉丽莎唱歌样样都会|钛媒体AGI


继美国OpenAI公司推出Sora引爆网络之后,中国互联网科技巨头阿里巴巴(Alibaba Group)如今已加紧追赶。

钛媒体AGI 获悉,2月28日,阿里巴巴集团智能计算研究院日前上线了一款新的 AI 图片-音频-视频模型技术EMO,官方称其为“一种富有表现力的音频驱动的肖像视频生成框架”。

据悉,你只需要提供一张照片和一段任意音频文件,EMO即可生成会说话唱歌的 AI 视频,以及实现无缝对接的动态小视频,最长时间可达1分30秒左右。表情非常到位,任意语音、任意语速、任意图像都可以一一对应。

比如,《狂飙》电视剧中“高启强”畅谈罗翔普法;蔡徐坤的一张图片,就能通过其他音频配合“唱出”一首rapper饶舌,连口型都几乎一模一样;甚至前不久OpenAI发布的Sora案例视频里面,一位 AI 生成的带墨镜的日本街头女主角,现在不仅能让她开口说话,而且还能唱出好听的歌曲。


B站鬼畜视频即将会被 AI 所取代。

阿里研究团队表示,EMO可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频,同时,其可以根据输入视频的长度生成任意持续时间的视频。

同时,EMO还拥有音频驱动的人像视频生成,表情丰富的动态渲染,多种头部转向姿势支持、增加视频的动态性和真实感,支持多种语言和肖像风格,快速节奏同步,跨演员表现转换等多个特点与功能。


技术层面,阿里研究人员分享称,EMO框架使用 Audio2Video 扩散模型,生成富有表现力的人像视频。

该技术主要包括三个阶段:一是帧编码的初始阶段,ReferenceNet 用于从参考图像和运动帧中提取特征;二是在扩散过程阶段,预训练的音频编码器处理音频嵌入。面部区域掩模与多帧噪声集成以控制面部图像的生成;三是使用主干网络来促进去噪操作。在主干网络中,应用了两种形式——参考注意力和音频注意力机制,这些机制分别对于保留角色的身份和调节角色的动作至关重要。此外,EMO的时间模块用于操纵时间维度,并调整运动速度。

目前,EMO框架上线到GitHub中,相关论文也在arxiv上公开。

GitHub:https://github.com/HumanAIGC/EMO

论文:https://arxiv.org/abs/2402.17485

事实上,过去一年,阿里巴巴在 AI 方面持续发力,包括阿里云推出通义千问、通义万相等多款对标 OpenAI 的 AI 大模型产品,以及基于双流条件扩散模型的真人百变换装技术Outfit Anyone、角色动画模型Animate Anyone等技术,实现多个场景应用。

今年1月26日,阿里推出的Qwen-VL模型实现多次迭代升级,并宣布 Plus 和 Max 两大版本升级,支持以图像、文本作为输入,并以文本、图像、检测框作为输出,让大模型真正具备了“看”世界的能力。

阿里方面称,相比于开源版本的 Qwen-VL,Plus 和 Max 版本模型在多项图文多模态标准测试中获得了堪比 Gemini Ultra 和 GPT-4V 的水准,并大幅超越此前开源模型的最佳水平。


钛媒体AGI了解到,目前阿里内部还在助力研发基于生成式 AI 技术的机器人、数字人以及Agent相关的技术应用。

另外,阿里是目前中国开源模型领域的大科技公司之一,创建并运营着中国 AI 模型开源社区“魔搭”。“魔搭”社区上线一年以来,模型下载量已突破1亿。早前阿里还发布了一站式大模型服务平台——阿里云“百炼”。

除了自研 AI 模型技术产品之外,阿里还推动投资一些 AI 大模型公司。

就在今年2月,阿里领投了国内 AI 大模型团队月之暗面(MoonShot AI)10亿美元的新一轮融资,促使该公司估值高达25亿美元,成为中国 AI 初创公司最大的一笔单轮融资。

更早之前,阿里还投资了百川智能、智谱 AI 等多个 AI 产业链公司,持续押注这一轮 AI 热潮。而其竞争对手腾讯,则在过去一年投资了百川智能、智谱 AI 、MiniMax和光年之外(Light Years Beyond)等公司。

据钛媒体AGI的不完全统计,目前阿里与腾讯已累计投资超过40家与 AI、数字化有关的初创企业。

毫无疑问,OpenAI 目前在美国以及全球其他地区占据行业主导地位,但在中国市场它没有运营。所以,无论是OpenAI还是微软,均不会成为中国 AI 大模型行业的领导者。

如今,阿里、腾讯等中国科技巨头已经采取行动,通过多种投资方式来支持中国 AI 大模型的早期创业公司,推进中国 AI 大模型发展。

不过,由于二级市场科技股持续下跌,因此整个中国 AI 领域投融资规模却呈现“不温不火”的状态。

研究机构 CB Insight 数据显示,2023 年,中国在 AI 领域的投资约为 232 笔,同比下降 38%,同期融资总额约为20亿美元,比上年减少70%。

高盛预测,到 2025 年,全球 AI 领域的投资额将达到约2000亿美元。

阿里巴巴集团新任CEO吴泳铭曾表示,为了服务好更多的企业和AI开发者,阿里坚持做好两件事:一是提供稳定高效的AI基础服务体系,特别是强大的云计算能力,为全行业训练AI、全社会使用AI打造坚实的基础底座。二是创建开放繁荣的AI生态。

“在可见的未来,我们生活中所有习以为常的产品形态都会发生变化,会有更智能的下一代产品进入我们的生活。更多中小企业将通过AI化协同,灵活替代一部分目前只有大企业才能提供的服务。生产、制造、流通的组织方式和协作方式也会发生根本性变革。AI助理会无处不在,成为每个人工作、生活、学习中的助手。每个企业也都会配备AI助手,就像我们今天的智能汽车,辅助驾驶和自动驾驶已经成为标配。”吴泳铭称。

(本文首发钛媒体App,作者|林志佳)