大模型的开源之战,比操作系统来得更快一些

更新时间:2023-10-26 15:01:35作者:无忧百科

大模型的开源之战,比操作系统来得更快一些


本文作者:刘奇,编辑:何玥阳,原文标题:《开源不是活雷锋,但搭便车的机会出现了》,题图来自:视觉中国

“是的。谷歌在人工智能方面并没有护城河,OpenAI也没有。在我们彼此竞争的时候,第三派一直在悄悄地吃我们的午餐。” “第三派,我是说那些开源模型,开源能让它们‘更快、更可定制、更私密,能力更强’。” ——谷歌研究员报告备忘录

“Llama 2为初创企业提供了一条生命线,像我这样的人希望开源模式存在,因为我不喜欢把我所有的钱都给OpenAI。” ——人工智能助理初创公司Lindy创始人

越是前沿的领域,越是充满变数。

对公众来说,大模型领域可能只是出了几个玩具般的App,很厉害,但没什么用。真正的商用似乎还有一段距离。


但商业端,大小公司之间的争斗已经进入了贴身白刃战,战况瞬息万变,反转频出,感觉都有点燃起来了。


太多的细节,对于小白来说多少有些繁杂,要想吃明白这个瓜,可以去提纲挈领一个主线,在我们看来,这也是今年以来大模型领域的斗争核心:

开源VS闭源。

一、开源:后发者的驱虎吞狼

就软件来说,属于它的科技史并不算长,但我们依然可以总结出一些规律。


比如,每一次全新时代来临之际,其核心产品都会出现两条路线,先发者闭源,后来者开源。

PC时代的操作系统,Windows VS Linux; 移动互联网时代的操作系统,iOS VS Android; 以及当下即将来临的AI时代,GPT VS ??


第一次,Linux的出现比Windows整整晚了六年。Linux的江湖地位不必多说,但商业价值相比后者的一家独大,可以说是忽略不计。

第二次,Android的出现仅仅比iOS晚了十个月。


结果是,Android拿下了80%以上的市场份额,而苹果拿走了手机市场90%以上的利润。

这个数据为长期以来的平均概数。最新数据,Android市场份额跌到了70%,苹果的利润占比则跌到了85%。这与中国厂商的崛起有不小关系。


开源系统的影响力大幅提高,但在商业价值上依然被闭源系统吊打。

第三次,也就是这一次,商业化落地的进程还没正式开启,开源系统就已经来势汹汹了。

产生这一路线分歧,有其必然的商业逻辑。


在前沿科技领域,每一次技术突破的背后都需要极大的研发成本。这其中对于企业自身的资本、精力、人员投入乃至运气,都有着极高的要求。

比如此次的引领者OpenAI,有报告显示,OpenAI每天仅维持其人工智能服务ChatGPT的运行就需要花费约70万美元。


如果不是OpenAI光启动资金就有10亿美元,是个典型的富二代,怕是经不住这样“烧钱”。


其次,在巨额投入的先发优势下,这类企业的产品质量也往往是市面上所能看到的最优选项,尽管这种优势在中后期会随着技术进步的放慢而被抹平,但这也是支撑其做到直接收费的市场原因。


这是非常传统的商业逻辑,典型例子如制药领域,早期高投入研制特效药,前期专利保护高价售卖进行回本,后期逐步放开惠及市场。


但与药品市场不同的是,软件领域有着极大网格效应,时间在这一行业中格外重要,先发者往往能做到赢家通吃。

药品市场中,假设我新药比你研发得慢一点,但只要我比你便宜一块钱,或者有其他差异化特性,我依然可以拿到属于自己的市场份额,那大家自然都愿意慢慢地搞专利保护,也就是闭源模式。


但在软件领域中,市场的发展瞬息万变,新入场的创业者、开发人员以及应用生态都在不断涌现,而他们也需要付出学习成本以及维护成本,那么越往后期,其更换成本就越高。


就像你手中的微信,也许你并不喜欢这款软件,也许市面上有更加优秀的通讯产品,但你已经将自己的互联网社交圈子安置在这个软件上了,某种程度上就是别无选择。这也就是所谓的赢家通吃。


而当初一同出现的米聊、易信、飞信等软件,这些企业早期投入的成本,也就随着微信生态的建立打了水漂。


但Android的成功,意味着这类后发者还有一线生机:开源。


开源的本质,是驱虎吞狼。


拉开架势1V1单挑确实打不过了,那就把我的入场券免费送出去,请所有人一起入场。


个人的失败固然痛心,但同行的成功更令人无法忍受。


既然赢家最后的核心优势是生态建立,那我就不让你这么顺利地垄断生态,通过免费的行为,把这一环节的水彻底搅浑。

二、攻防战的背后竞合大于竞争

梳理过往经验,有这样几个规律和趋势是可以清晰看到的:

1. 商业价值上,开源系统的优势在于影响力的迅速扩散,闭源系统的优势则是利润更有保障; 2. 与Linux相比,安卓获得了极大的商业成功,这与后发者的反应速度有着极大关系; 3. 结合上一点,考虑到这一次大模型领域中,后发者的开源进程已经进入了提前抢跑式的布局。

那么我们有理由相信,在又一个新的时代中,开源大模型很有可能取得比Android更加优异的成绩。

这对包括GPT在内的所有闭源大模型来说,都不是一个好消息。文章开头所引用的谷歌研究员匿名报告,他所担心的便是这一趋势。


毫无疑问,当下是开源模型的强势期。后发者下定决心拿出“免费开源”这一必杀器时,必将强有力地搅动行业现状。

但另一边,这也意味着OpenAI的先发优势已经十分稳固,在闭源系统这一端,可以说已经拿下了这一城。


不要相信那些开源社区所说的“透明化、分享精神、更高效的组织形式balabala”。

商业领域,尤其是要对股东负责的上市公司,是不可能纯做活雷锋的。真有信心硬刚OpenAI,能赚钱为什么不赚?

回顾过去一年,双方攻防数轮,精彩非常:

ChatGPT月活刚突破1亿,Meta就立马推出LLaMA(“羊驼”); 羊驼被“非故意开源”之后,基于开源模型产生的GPT平替大爆发, OpenAI立马反手打一个GPT-4; Dolly 2.0首创开源、遵循指令、提供可商业化数据集的大模型,ChatGPT APP就再次掀起风暴; Meta推出新一代开源大模型Llama 2,这是大型科技公司首个开源的商用大模型,被称为GPT-4的“最强平替”,后来首席人工智能科学家杨立昆就被叫到参议院接受众议员质询。 ......

总体来说,双方的主线依然是竞速赛。


虽然也出现了“媒体舆论”和“政策监管”这些盘外招,但长期来看,未来的商业格局,还是取决于三点,也就是人工智能三要素:算法、算力、算据(数据)。


算法方面,我们不能否认当下的开源模型在过去的GPT-3中汲取了大量养分。而随着GPT-4更加封闭,其能否持续保持竞争力,仍然有待进一步观察。


清华大学电子工程系长聘教授周伯文说:“我们目前只知道它(GPT-4)是一个多模态大语言模型,但它如何理解图片,如何用 RLHF 微调,以及参数量规模、训练数据和成本等技术细节,OpenAI 全部选择隐藏。”


这一点上,对OpenAI来说,大模型赛道的技术长度,或者说依然暂未开发的未来进化空间是其优势。

也就是说,如果GPT-5乃至GPT-6持续推出,考虑到AI进化的荷塘效应,这一可能性几乎是必然的,开源模型能否继续保持相对竞争力尚未可知。


算力方面,就是堆钱,双方均实力雄厚,不展开。

算据方面,我们认为,存量数据的价值意义远不如基于AI产品所产生的原生数据。

如果说存量数据是“AI小宝宝”看电视被动学说话,那么原生数据便是“AI小宝宝”在与人直接交流。更即时的反馈,更快速地纠错,以及更贴合实际应用的数据价值,自然更有利于AI的进一步进化迭代。

基于此,ChatGPT APP的战略价值进一步被放大。

而开源生态方面,则需要观察垂类原生应用的进展情况。


正如,羊驼被泄露后,一众GPT的平替爆发,知识蒸馏(通过将大型模型的知识转移到小型模型中,从而快速达到想要的模型质量)的出现大幅降低了计算成本,某种程度上直接削低了加入开源生态的门槛。


那么这一进展也将间接促进开源生态的进一步繁荣。


总体来说,双方各有优势。


闭源大模型不断向上拓宽行业的天花板,随着不可避免的技术外溢,必然将引领着开源大模型的持续发展。


另一边,开源大模型则在迅速横向拓展着AI生态的繁荣,这一繁荣所带来的新增市场,也将被闭源大模型所共同分享。


目前仍处于市场越做越大的阶段。

“在竞争中共同成长”,极有可能是未来的主题。

三、基座之争收尾下一阶段争什么?

随着开源模型的出现,这也意味着大模型时代的基座斗争已经进入了尾声。

闭源方面,OpenAI坐稳了江山,接下来它的对手只有自己和技术本身。

短期来看,开源上手成本低,使用灵活,同时给予了中小型企业极大的自主性和安全感,短期内必将形成强烈的冲击。


但中长期来看,随着开源项目组建的系统进展,依然会需要大量人力和资源来维护,其综合成本同样会持续上升,届时OpenAI的市场可能又会迎来回升。


基于此,未来的形势或许会反复,但巨大的反转不太可能会出现。

开源生态方面,Meta的Llama目前具有着明显的优势。

开源之后,Meta将拥有更多的可训练数据,开发人员能够帮助Llama 2去发现和解决漏洞,并且能够很快打开市场,为未来的商业化铺路。

扎克伯格在四月份与股票分析师的电话会议上表示,随着开发者采用和改进这些模型或修补他们的安全漏洞,Meta将能够将这些改进纳入其自己的消费者和广告产品的AI模型中。


当然,考虑到当前仍处于AI时代的极早期阶段,应用级生态的建立仍需要时间去观察。同时考虑到中国市场的这一变量,开源大模型或许在未来仍需要参加半决赛乃至附加赛。


随着开源这一最终杀器的祭出,这也意味着通用大模型基座维度的竞争中,最大的变数已经落地。

此外,随着开源模式的出现,一个新的阶段也将被彻底开启。即,应用层产品的涌现。

在此之前,人们往往会质疑其商业壁垒的问题,比较知名的如投资人朱啸虎所说:“如果90%的能力是ChatGPT提供,那么AIGC应用就没有什么投资价值。”


其潜台词是,无论你成长得多么大,你的利润都可以轻易被OpenAI拿走。

但开源模型的出现彻底打消了这一顾虑。随着开源社区的爆发式增长,具备基础能力的大模型正在迅速普及。供给侧的繁荣使得大模型趋于白菜价。

此外,应用级企业自主研发的门槛也被降到了最低,企业的自主性将得到极大保障。

应用级企业被巨头釜底抽薪的可能性消失了,寒武纪式的物种爆发近在眼前。


可以预见的是,接下来应用级层面的Killer App(杀手级应用)将成为行业中的下一个核心赛点。

而整个市场的竞争重心,也将从100%的技术驱动,向着代表着用户体验的产品驱动倾斜。

参考文献

[1]《为什么开源大模型终将胜出?》OneFlow- Varun Shenoy

[2]《谷歌没有护城河,OpenAI也没有》SemiAnalysis

[3]《小羊驼:训练成本仅300 美元的斯坦福开源模型,适合创业公司打造自己的AI模型》阿尔法工场[4]《OpenAI即将开源新模型,但不是最先进的那个》新智元

[5]《ChatGPT时代如何创业》傅盛演讲

[6]《大模型创业300天:成者100亿估值,80%败者出局》AI鲸选社

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com