CMEF观察:持续聚焦生命科学巨大蓝海,海尔生物新产业逆风生长
2024-04-15
更新时间:2024-04-15 05:56:42作者:无忧百科
近期,生成式人工智能(AIGC)领域又涌现出多款创意十足的新应用。
今天,钛媒体AGI梳理了免费 AI “神器”系列第十二弹,共五款,其中不少产品再一次拓宽了我们对AI的想象力。
1、能让图像开口说话,腾讯推出开源视频框架——AniPortrait
产品信息:AniPortrait是腾讯推出的一个创新技术框架,可以通过一张人脸照片和音频生成一段高质量视频。与此前阿里发布的视频生成模型EMO的功能相似,但AniPortrait是开源模型,用户可以直接使用。
产品功能:AniPortrait可根据输入的音频和图像生成会说话、唱歌的动态视频,并保持人物面部表情流畅、生动且口型一致。同时支持多种语言输入,还可以对面部重绘以及进行头部姿势控制。
据了解,该技术框架的工作原理分为两个步骤:第一步AniPortrait会从音频中提取关键信息,再将音频通过两个简单的处理层转换成一个三维的面部模型,并确定头部姿势。第二步,将三维面部模型和头部姿态转换成一系列二维点,进行识别标注,再使用Stable Diffusion 1.5结合时间运动模块,根据二维标记点序列创建一系列连贯的肖像帧,形成动画,确保动画的流畅性和真实感。
但AniPortrait目前还存在对口型不太流畅自然的问题, 开发团队强调,接下来也会效仿阿里巴巴EMO(Emote Portrait Alive)的方法,直接从音频来预测肖像视频的生成,以达到更好的效果。
项目地址:https://huggingface.co/ZJYang/AniPortrait
论文地址:https://huggingface.co/papers/2403.17694
2、用户破亿,字节推出的AI教育应用“Gauth”在海外爆火
产品信息:Gauth是字节跳动在海外推出的AI教育应用,产品定位为“AI学习陪伴”、“AI作业&学习帮手”,旨在帮助力提升教育及学习效率。
产品功能:用户只需上传题目照片,或者直接对题目拍照,Gauth就能在几秒钟的时间内为用户生成完整详细的解题逻辑和解答步骤。
据悉,Gauth覆盖的学科包括数学、统计学、物理、化学、历史等。其中,网页版Gauth还在“数学”模块下划分了多个细分方向包括方程,代数,等式,不等式、序列、复数等,并有“统计”和“微积分”专属模块。根据测评,语文及综合方面能力均可达到美国SAT考试水平,数学方面综合答题水平可比美国9年级。
因具备强大的学习辅助功能,Gauth在海外市场爆火,据Gauth官网数据显示,截至目前已有超过2亿的学生用户群体体验并采用了该平台的服务。从七麦数据榜单来看,截至2024年3月27日,Gauth在美国教育应用市场中排名第二,仅次于全球知名语言学习应用Duolingo(多邻国)。
日活方面,Gauth近期全球日活用户峰值达206.5万人次,相较于1月25日的日活85.68万人,增长超过1.4倍;日下载量方面,2024年1月1日Gauth下载量为4840,3月21日下载量为6.93万次,日下载量增长14倍。
3、文字生成解说视频模型——NoLang
产品信息:NoLang是Mavericks公司开发的一款文生视频模型,可以通过文字直接转换成解说视频,帮助用户更直观获取信息。
产品功能:用户可以输入包含文字、网页链接及PDF文件等进行提问,NoLang能根据提问快速生成一段解说视频。例如,当用户输入一段文字或一个网页链接时,NoLang会首先对内容进行总结,再根据总结的内容生成一个解答视频,这一功能使得信息获取更加直观和生动。
同时,NoLang还具备强大的互动性,用户可以对生成的视频进行互动,通过追加问题来延续视频内容,形成一系列相关联的视频线程,便于深入理解和跟踪信息。这一功能使得NoLang不仅是一个信息获取工具,更是一个智能学习助手。
此外,NoLang还推出了Chrome扩展功能。安装Chrome扩展后,用户可以直接在浏览器中调用NoLang服务,无需离开当前网页,即可生成视频。不过,目前NoLang仅支持日语和英语,其他地区的用户可能使用不便。
体验地址:http://no-lang.com
4、AI视频生成模型——MoneyPrinterTurbo
产品信息:MoneyPrinterTurbo是一款开源AI视频生成模型,旨在帮助视频创作者高效制作短视频。
产品功能:用户只需输入内容主题或几个关键词,就能自动生成一段包含文案、素材、字幕以及背景音乐的一分钟高清短视频。并且MoneyPrinterTurbo支持批量视频生成,一次性可生成多个视频供用户选择,提高工作效率。
同时,MoneyPrinterTurbo可生成包括竖屏(9:16,1080x1920)和横屏(16:9,1920x1080)的多尺寸视频,支持多语言输入和多种模型接入,包括OpenAI、moonshot、Azure、gpt4free、one-api等。截止发稿,MoneyPrinterTurbo在Github上已累积2500颗星。
项目地址: https://github.com/harry0703/MoneyPrinterTurbo
5、比Sora更惊艳的AI视频制作工具——LTX Studio
产品信息:LTX Studio是一款由Lightricks推出的AI电影生成工具,旨在简化视频创作流程,提升影片制作效率,降低成本。据了解,Lightricks的首批测试名额于2024年3月27日发放。
产品功能:用户只需输入文字提示或创意想法,LTX Studio便会根据提示生成脚本和分镜头,同时提供了丰富的定制选项,如场景、风格、角色等,还可以对镜头切换、角色、场景一致性、摄像机、灯光等进行可视化精准控制,使用户能灵活调整并预览影片效果。
此外,LTX Studio还具有换脸和修改功能,用户只需上传一张照片,就能轻松实现角色换脸。亦或者使用 @ 提及角色名称即可添加、替换或删除任何镜头中的任何角色。这一功能增强了用户的创造力和自由度,为视频和影视创作带来更多想象空间和可能。
体验地址:https://ltx.studio/
(本文首发于钛媒体APP,作者|章橙,编辑|林志佳)