阿里整大活,一张照片让“TA”给你跳“科目三”

更新时间:2024-01-05 10:03:42作者:无忧百科

阿里整大活,一张照片让“TA”给你跳“科目三”

如果回忆过去一年最让人印象深刻的科技事件或现象,那 AI 得是数一数二的。

AIGC 大模型的火热,让我们每个普通人都切身感受到了 AI 的神奇魔力。不说别的,就大家在刷微博刷抖音时,也一定越来越频繁会看到由 AI 创作的奇妙图片、视频。



这不,最近又有一个 AI 大模型火出圈了。

上传一张真人的,或动漫卡通的人物照片,就能免费生成一段这个人物舞蹈的视频,听起来是不是就很有趣?



就是这样一个有趣的大模型,前段时间在推特、Youtube 等海外社交媒体平台得到爆炸式传播。比如推特大 V Dreaming Tulpa 一条由多位网红、模特照片生成的跳舞视频,小编写稿时单条视频已经有5060 万的播放量!



每一个模特跳舞的动作都十分自然,几乎可以乱真。而且看到他们从静止突然变成“妖娆多姿”,魔性又喜感。



海外老铁们一边赞不绝口,一边求体验入口。



然后,我们就看到各路大 V 也纷纷开始转发,各种花活应接不暇。

比如让梅球王摆各种 Pose;



蒙娜丽莎魔性起舞;



还有各路明星也“惨遭毒手”……



其实,这个功能的背后,就是国内阿里巴巴自研的视频生成模型 Animate Anyone。

早在去年 11 月底,该研究论文便已经在海外爆火,相关视频播放量超 1 亿,Github 上的 Star 数超 1 万,还登上了Reddit 社区 Stable Diffusion 频道热度第一。



Animate Anyone,显然已经成为目前最受欢迎的大模型项目之一。

看到大家分享的有趣视频,小编也忍不住做了体验。

其实体验的方法很简单,这个功能已经在这两天集成到阿里云通义千问 App 中了。下载通义千问 App,然后在输入框里输入“通义舞王”或“全民舞王”等关键词,就能直接进入体验页面。



通义千问首批为用户提供了10 多种热门舞蹈模板,包括科目三、蒙古舞、鬼步舞等等。



小编就选最近很火的“科目三”吧,点击进入后需要按要求上传一张照片。这里小编找来一张游戏人物的卡通照,符合要求,点立即生成就可以了。



然后会进入等待生成的界面,上面提示要 15 分钟,但实际等待没那么久,大概十分钟就可以了。视频生成后,你可以选择分享或下载、点赞等操作。



大家看游戏里小姐姐跳舞的视频,神形兼备,关键是游戏角色穿的是拖沓的长袍,生成跳舞视频后需要对衣服的形态进行模拟,从结果来看,很自然,衣服没有出现穿帮。



接着小编又用自己的真人照片测试了“鬼舞步”的跳舞模式,同样是很自然,很好地保留了原来的面部表情、身材比例、背景等特征。



可以看到,如果说有趣是 Animate Anyone 能火出圈的关键,那功能体验简单顺滑、效果自然,就是“火出圈”更底层的保证。

那么 Animate Anyone 是如何做到这一切的?在技术上有什么独到之处?

相信很多朋友都体验过用 AI 大模型生成文字、生成图片,效果都不错。但能生成视频,并且效果体验还好的,属实不多。

究其原因,还是因为视频生成太难了,特别是人物动作视频的生成:


总之,人物是视频生成中的核心元素,也是核心难点,目前像谷歌、Meta、Runway 等巨头都在积极布局,解决这些困难,也确实诞生了一些方法来化解挑战。阿里研究团队的 Animate Anyone 算法,也就是在这种背景下研发出来的。

整体来看,Animate Anyone 算法从一致性、可控性、和稳定性三方面保证了视频的效果。

例如,它引入 ReferenceNet,用于捕捉和保留原图像信息,可高度还原人物、表情及服装细节;同时使用了一个高效的 Pose Guider 姿态引导器 ,保证了动作的精准可控;另外,还通过时序生成模块,有效保证视频帧间的连贯流畅性。



根据评测集结果显示,Animate Anyone 的性能表现是要显著优于国内外同类模型的。





目前市面上类似的专注人的视频生成主要有两种:

一种是用人体 mask 来控制视频生成,人体会变形到 mask 的形状,无法保持照片中人的比例;

另一种是基于视频的重绘,只保留了人脸的信息,身体、服装、背景都不保留。

两种显然都有一定的瑕疵,而Animate Anyone 是完整的保留了人脸、身材比例、服装细节、背景信息,能更好的还原图片信息。

而且,相比 Gen2、Pika 等文本生成视频的产品,Animate Anyone 可以更聚焦到人的视频生成。可以对生成的动作做精准控制,且在技术上生成的视频长度不受限制。

由此可见,Animate Anyone 在算法上确实具备相当的领先性,特别是在人物一致性和画面稳定性上表现极佳,一改当下很多视频生成画面局部扭曲、细节模糊、抖动跳帧等问题。

并且,这项技术未来可能还会有更广泛的应用场景,包括各种图生视频的应用,还有在线零售、娱乐视频、影视、艺术创作和虚拟角色创建等等,想象空间很大。

而这些背后,显然是阿里大模型团队研发能力的又一次例证。

值得一提的是,最近他们还推出了一款一键试衣的模型,Outfit Anyone,仅仅依靠服饰的平铺图,就可以实现上下装的试穿。



从效果看,这个模型不仅能保证人物本身脸部的 ID,并且通过 3D 和 2D 技术的结合,确保模特姿势、身材等信息的还原,在此基础上,针对任意的单件上 / 下服饰、上和下组合套装等服饰进行直接试衣穿搭。

试想,这个技术如果应用普及了,以后我们在网上买衣服,岂不再也不用为合不合适发愁了?一键虚拟试衣,简直爽歪啊。

无疑,这又是阿里云通义大模型生态下的一次杰作。

要知道,阿里云早在 2019 你那就投入到了大模型的研究中,得益于阿里云领先的基础设施,以及深厚的大模型研发经验,他们在自研大模型及大模型生态的构建上很早就处于业界领先地位。

从去年 4 月,“通义千问”开始邀请用户测试体验开始,通义大模型家族就马不停蹄地开启自我完善之路。



6 月,聚焦音视频内容的大模型产品“通义听悟”上线;

7 月,AI 绘画创作大模型通义万相开启定向邀测;

10 月,智能编码助手通义灵码、AI 阅读助手通义智文、个性化角色创作平台通义星尘、智能投研助手通义点金、智能客服通义晓蜜等一系列行业模型先后上线。



短短几个月,通义大模型家族就不断丰富,并全面覆盖了文本、语音及图像等模态。

目前,通义千问 App 已经可提供文本对话、语音对话、翻译、PPT 大纲助手、小红书文案、视频生成等几十项功能。

而在技术能力上,阿里自研大模型已获得诸多权威机构的认可。

IDC 发布的 AI 大模型评估报告显示,通义千问在全部 11 项测试中获得通用能力、创新能力、服务能力、平台能力、生态合作等 6 项满分,名列前茅。



12 月 22 日,国内首个官方“大模型标准符合性评测”结果公布,阿里云通义千问成为首批通过评测的四款国产大模型之一,在通用性、智能性等维度均达到国家相关标准要求。



不仅如此,阿里云还通过开源研究成果的方式,积极促进大模型生态的繁荣。

他们是国内首个开源大模型的大型科技公司。截至目前,阿里云已开源通义千问 18 亿、70 亿、140 亿、720 亿参数的 4 款大语言模型,以及视觉理解 Qwen-VL、音频理解 Qwen-Audio 的 2 款多模态大模型,进一步降低了大模型初创公司的研发门槛。



阿里云甚至还推出了一站式大模型应用开发平台,阿里云百炼,开发者可在 5 分钟内开发一款大模型应用,几小时即可“炼”出一个企业专属模型。这么做,就是为了让开发生态把更多精力专注于应用创新。



值得一提的是,除了通义大模型,目前中国一半大模型都跑在阿里云上,像百川智能、智谱 AI、零一万物、昆仑万维等等,这主要得益于阿里云人工智能平台 PAI 提供的全球领先的训练性能和高效的算力资源。

拥有如此强大领先的基础设施算力底座、丰富且开源的产品、完善的工具链和智能化平台、以及开放创新的生态,通义大模型能够持续诞生出 Animate Anyone、Outfit Anyone 这样奇妙的应用并风靡全球,也就在意料之中了。

而目前,大模型技术还在迅速发展,智能化时代也正快速到来,相信长在阿里云上的通义大模型会持续推动应用的落地和创新,推动大模型成熟应用规模化的进程,而我们的生活,也会因为这些应用而深刻改变。