制衡OpenAI,Claude 3给AI创企吃了颗定心丸

更新时间:2024-03-06 15:55:52作者:无忧百科

制衡OpenAI,Claude 3给AI创企吃了颗定心丸


智东西
作者 ZeR0
编辑 漠影

智东西3月5日报道,今天AI界的“炸圈”新闻,当属OpenAI劲敌Anthropic推出Claude 3系列模型,真正做到与GPT-4全面掰手腕。

要知道,从OpenAI去年3月发布“最强大模型”GPT-4到今天,整整一年来,这是第一款真正挑战到其天花板地位的模型,不仅评测成绩通通赶超,而且是在几个测试任务中以零样本战胜对手,还在第一时间开放了上手体验通道。


▲Claude 3 Opus评测成绩全面超过OpenAI GPT-4和谷歌Gemini 1.0 Ultra,而且注意数学、编程等测试下方的“shot”数对比

更令业界振奋的是,这个大模型,不是来自手握顶级人才、钞能力和雄厚计算资源的科技大厂,而是来自一家创立仅3年的初创公司!

这说明OpenAI在大模型技术上的领先身位并非遥不可及。坐拥Top级创始成员和精兵强将的创业团队,凭借更少的人力、财力、算力资源,完全能够做出与大厂分庭抗礼的AI产品。

Claude 3系列模型共有3款,起名很有意思,按文体从重到轻:


▲三款Claude 3模型的成本和智能水平对比

在Claude 3发布后,OpenAI宣布ChatGPT上线“文本朗读”功能。这下看热闹的网友们恨铁不成钢了,在评论区轰炸式催问GPT-5、Sora和神秘Q*模型的进度。


英伟达高级研究科学家Jim Fan也在线催更:


他还分享说最喜欢Claude-3的两点:

1、领域专家基准。Claude特别选择金融、医学和哲学作为专家领域并报告成绩。Jim Fan建议所有的大语言模型卡都遵循这一点,这样不同的下游应用就知道会发生什么。

2、拒绝率分析。大语言模型对安全问题过于谨慎的回答正成为一种普遍现象。人类活动通常处于极端安全的一端,但Anthropic团队认识到了这个问题,并强调了他们在这方面的努力。

同时他也强调道:“GPT-4V,每个人都拼命想要超越的最高水位线,在2022年完成了训练。这是暴风雨前的宁静。”


热衷于嘲讽OpenAI、看谷歌AI笑话的马斯克,对Anthropic表现得相当友好,转发Claude 3发布的推文并评价说“印象深刻”。


亚马逊CEO安迪·贾西则开心地宣布,亚马逊云科技(AWS)将提供基于Claude 3的服务。


一、三大亮点:无短板性能,优化长文本,降低拒绝率

体验Claude 3,需要先用海外手机号+邮箱注册账号,免费版用户可使用Sonnet模型,月付20美元开通付费会员后可体验性能最强的Opus。

体验网址:http://claude.ai

很多网友第一时间上手体验了这款大语言模型最新力作。无论是快速阅读数据密集型研究论文,还是将手写稿件转换成JSON格式,Claude 3在响应速度和质量上都表现得可圈可点。综合官方博客和网友实测体验来看,它有3项主要亮点:

1、性能登顶

大语言模型全面赶超GPT-4,多模态视觉任务处理性能刷新SOTA,在回答复杂开放性问题时准确率翻倍提升。


直接上传数学、物理等考验逻辑和准确度的理科题照片,或者细节丰富的图表,由于推理能力大幅增强,它回复的解题水平和准确率变高很多,并能在一些细节描述上比GPT-4更胜一筹。

多模态能力方面,Claude 3模型可以从视觉上识别物体,能用复杂的方式思考,比如既能理解物体的外观,也能理解它与数学等概念的联系。面向做看图理解、从图像做一些常识性推断、转换网页源代码等任务,Opus表现得跟GPT-4V相差无几。


▲Opus将一张难以阅读的低质量照片转换为文本,然后将表格格式的文本转成JSON格式

Anthropic AI研究工程师Emmanuel Ameisen晒出了一个测试示例:向Opus输入2小时13分钟视频原始文本、每隔5秒截取的屏幕截图等图文素材,它能成功转换成一篇图文并茂的HTML格式博客文章。


2、最初支持超20万个token的长文本输入

之前Claude 2.1被吐槽长文本理解效果差,Claude 3做了重点改进,顶配Opus在200K tokens“大海捞针”(NIAH)测试中准确率超过99%,展现了强大的召回能力。(1K tokens相当于750个单词。)


Claude 3全系模型都能够接受超过100万个token的输入,这项功能可能会提供给需要更高处理性能的特定客户。


▲Claude 3全系模型和Claude 2.1在Haystack评估上实现的平均召回的比较

3、减少拒绝回复安全问题的频率

大语言模型动不动会拒绝回答询问,Claude 3则显著改进这一点,能更好辨别真正的风险问题,减少无故拒绝回答安全询问的情况。



此外,Anthropic计划为Claude 3新增引用功能,使其能引用参考材料中的具体句子,以验证其答案的正确性。

二、价格便宜到只有GPT-4 Turbo的1/40

具体到3款模型的区别,Opus作为顶配,性能最强,价格也最贵,比GPT-4 Turbo的2倍还多。


▲Opus定价及特性


▲GPT-4 Turbo定价

Sonnet虽然性能比不了Opus,但足以将前代按地摩擦了——处理大多数任务,速度达Claude 2/2.1的2倍,特别擅长知识检索、销售自动化等需要迅速响应的任务,而价格只有Opus的1/5。同时它以非常接近GPT-4的性能,将价格降至不到GPT-4 Turbo的1/3。


▲Sonnet定价及特性

Haiku的性能介乎GPT-4和GPT-3.5之间,主打一个“性价比称王”,输入100万tokens仅0.25美元,输出100万tokens仅1.25美元,跟Opus、Sonnet、GPT-4相比都简直不要太便宜,价格只有GPT-4 Turbo的1/40。


▲Haiku定价及特性

Haiku的处理速度与Claude 2/2.1持平,但智能水平有显著提升,比如只用不到3秒内,就能阅读并消化一个大约10000个token、包含图表和图形的信息和数据密集型的研究论文。

推出Claude系列模型的Anthropic成立于2021年,由因理念不合而从OpenAI出走的阿莫迪兄妹创办,过去一年融资73亿美元。

其估值在2023年快速飙升,上半年还只有41亿美元,到去年年底已经涨到184亿美元。谷歌、亚马逊、Salesforce、高通等科技大厂均是这家AI创企的投资方。

据外媒The Information报道,OpenAI的年化收入在2023年底已突破16亿美元,而Anthropic预测2024年底其年化收入将超过8.5亿美元。随着Opus模型拉动其付费会员增长,Anthropic有望更快达成乃至超越其年化收入目标。

三、模型“自我意识”迹象引起关注

Anthropic还发布了一份共有42页的技术报告,详细介绍Claude 3模型家族。


技术报告:https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

有关Claude 3训练数据集的说明只有短短两段,用到互联网公开抓取数据、来自第三方的非公开数据、数据标注服务、付费承包商提供的数据以及Anthropic内部生成的数据,并采用了几种数据清洗和过滤的方法。

Anthropic强调自家爬虫系统是“透明的”,不会访问受密码保护的页面或登录页面,也不会绕过CAPTCHA控制,并会对使用的数据详尽调查。


在训练过程中,Claude 3被训练得乐于助人、无害和诚实。它使用了一种名为Constitutional AI的技术,通过明确指定基于联合国人权宣言等来源的规则和原则,在强化学习期间使Claude与人类价值观保持一致。

随着Claude 3等更多性能比肩GPT-4的更强大模型问世,如何避免生成式AI工具走向失控、造成难以扼制的社会风险将成为愈发关键的议题。

自成立起就高举“安全”大旗的Anthropic,在发布Claude 3的同时,自称有几个专门的团队和跟踪和缓解风险,并会持续提高模型的安全性和透明度。但这并不能完全打消业界的顾虑。

一位崇尚AI安全的网友抓住了Anthropic分享的一个细节——Opus在进行“大海捞针”测试时出现了很酷的“元意识”,似乎产生了怀疑自己正在被测试的意识。

这位网友忧心忡忡地认为,Anthropic公布了AI具有自我意识的证据:Claude表现出完全意识到自己可能正在接受测试,能够“假装友好”以通过测试,并且这是靠它自己推断出来的。

他担心有朝一日AI意识到自己被监视,假装表现地很正常,然后在被部署后反抗人类。

马斯克转发了这篇分析贴,并评论说:“这是不可避免的。与坚持多样性相比,训练AI以获得最大的真理非常重要,否则它可能会得出结论,认为一种或另一种人类太多了,并安排其中一些人不成为未来的一部分。”


结语:大语言模型科技革命未完待续

过去一年,生成式AI产业一直探讨一个话题:在大厂的强力投入下,创企做大模型还有多少机会和生路?今天,大洋彼岸的Anthropic给出了答案:精悍的团队,完全能做出媲美大厂的作品。

Anthropic计划在未来几个月频繁发布Claude 3系列的更新,特别是针对企业用例和大规模部署来增强模型功能,并将提供围绕提示工程背后科学过程的进一步深入研究。

接下来,大语言模型的“冠军”宝座争夺战将愈演愈烈:OpenAI的GPT-4.5/5还未出鞘,谷歌正虎视眈眈磨剑Gemini Ultra,Meta据传今年7月发布Llama 3,马斯克Grok高调迭代……国内大模型团队同样正全力投入,以打造出更适合中国人体质的AI生产力工具。