明线与暗线:读懂云厂商鏖战大模型

更新时间:2023-09-16 10:08:49作者:无忧百科

明线与暗线:读懂云厂商鏖战大模型

天气转凉,夏天即将过去。如果有人问,云计算厂商在这个火热的夏天做了什么。答案是,他们做了三件事:大模型、大模型,以及大模型。

7月,在华为开发者大会2023(Cloud)期间,华为云公布了盘古大模型3.0,随后进行了生态等方面的升级。而在此前更早时候,阿里云公布了通义千问大模型,并在8月3日宣布其正式开源。

来到9月,云计算厂商的大模型发布更加密集。9月5日,百度智能云在2023百度云智大会发布了千帆大模型平台2.0,进一步集成百度的文心系列大模型,只隔两天,腾讯就在2023腾讯全球数字生态大会发布了混元大模型,其主要出口则是腾讯云。

至此,中国几大云计算厂商可以说是在大模型领域重兵集结。相较于AI算法公司与研究机构,云计算厂商做的大模型更贴近产业与应用的一线,而且大模型与云厂商原本的业务体系、营收模块有着相对复杂的关系。因此,云厂商的大模型之争,绝不是简单的模型之间技术对比。



那么,云计算大厂做大模型究竟是为什么?云+大模型之战的决胜点在哪?

本文中,我们希望通过多个层次的对比与梳理,和大家一起解答这个问题。

首先要明确两个前提:一是伴随着各行业IT投入的降低,云计算厂商普遍面临着增速放缓,营收不利的情况。根据IDC报告预测,未来五年中国云计算行业的平均增长速度将下调10%左右,云计算厂商的正在普遍降低业务预期。因此,大模型突然爆火,对于云计算行业来说是难得的窗口,这个机会或许利益没有想象中大,但目前也不得不做。

另一个情况是,从用户界面来看云+大模型的需求是十分复杂的。有的用户需要直接调取模型,有的用户需要AI算力来自己训练模型,还有用户需要大量的模型定制化与解决方案集成。因此云厂商做大模型并不是很多人想象的短兵相接白刃战。大模型相关业务,需要面向多个市场,多种商业模式。这场赛事更像是一场阵地战,各个战略节点都不能出现缺口。

在这场大模型鏖战的各个层面,都有一条明线和一条暗线在牵引着局势的发展。

IaaS层:明线堆卡,暗线启动国产AI算力

大模型带给云计算厂商最直接的变化,其实并不来自于模型本身,而是大模型火了之后,涌现出来的大模型热潮需要庞大的AI算力。大模型数据规模巨大,且训练模型需要专属的AI算力,这就给云计算服务商短期带来了用云量的升级。在云计算IaaS层市场整体相对低迷的情况下,大模型的出现也算是注入了一针强心剂。

这个层面上云计算厂商的竞争节点,用一个词概括就是“堆卡”。谁能提供充沛少排队,且尽量价格低廉的AI算力,谁就算赢了。而AI算力的来源主要是英伟达的GPU,于是就出现了云计算厂商买空市面上GPU的现象,以及“云厂商都是给英伟达打工”的说法。

但不管怎么说,云计算厂商在IaaS层的堆卡竞赛都不会结束,大量用户依旧会以计算成本和计算效率来作为选择公有云AI算力的考量依据。这个层面上,云计算厂商就需要提升在计算集群性、计算兼容性方面的能力,尽量发挥出每一张GPU的价值。



比如说,百度智能云就承诺在万卡集群训练大模型时,有效训练时间达到95%以上,从而降低用户的训练时间成本,实现更好的计算加速比。阿里云则提出了能够支持高达十万卡GPU的单集群规模,可让多个万亿参数大模型同时在线训练。

而在堆卡这条明线之外,云+大模型在基础设施层的竞赛其实还有一条暗线,就是AI算力的国产化。

不久之前,英伟达高端GPU面向中国市场供应链不稳定的消息沸沸扬扬,后来又传出了“中国特供版GPU”价格贵、性能低的问题。这些现象愈发让各界看到了AI算力走向自主可控的必然性。

在这轮大模型热潮中,AI算力的国产化与云上获取从趋势变成了现实。其主要方式有两种,一种是云计算厂商兼容更多的国产芯片,提供多样化的AI算力。比如腾讯云、百度智能云等厂商都在强化自身的国产软硬件兼容性,并且构建AI计算的相关生态。

在这一点上,华为云拥有天然的优势。受到制裁后的几年里,华为逐渐将自主AI计算生态做大做强,已经成为国产AI计算中比较成熟的一支。伴随着盘古大模型的升级,华为云同时宣布将提供自主化的AI云服务,为大模型训练提供算力底座,这意味着华为的自主化AI算力正式由线下走上云端。

强调大模型、AI框架的自主可控已经是大势所趋。接下来,有理由相信公有云+国产AI算力的模式,将在宏观趋势的推动下持续向上。最终成为左右IaaS市场的关键变量。

模型层:明线MaaS落地,暗线降低定制化成本

从产业层面上看,大模型带给云计算的最大变化是什么?就目前情况来看,MaaS的新商业模式是云厂商最为看重的一点。所谓MaaS,是指云厂商直接向用户输送AI大模型,从而实现模型即服务。

至少在目前的开局阶段,各家云厂商对MaaS这个全新模式寄予厚望,甚至有厂商直接用MaaS替换了此前的SaaS,似乎经历了久久为功之后,SaaS模式终于要被云产业放弃了。这也难怪。毕竟在中国市场SaaS的客单价较低,但需要进行的定制化工作却很多,并且异常消耗后期服务。以大厂的综合成本来看,SaaS始终难以摆脱食之无味弃之可惜的鸡肋定位。

既然如此,还不如转头拥抱更加火热的大模型。于是可以看到各个云厂商在2023年集体发力MaaS的新商业模式,并且为此做出了系列工作。

进军MaaS的第一阶段,云厂商主要布局在三个方面:

1.基础模型要多且精,能够满足用户在NLP、CV、多模态等几个大方向的多样性需求。同时,基础模型还是云厂商的大模型门面。基础模型的体验,决定着用户与开发者对云厂商大模型能力的第一印象。比如文心一言的火爆,就给文心系列大模型与百度智能云的MaaS服务带来了明显的品牌加持效应。

2.重点领域要重点覆盖,在可能被高频次调用的行业类别与应用类别上,厂商要尽量做出成熟的大模型,以及基于大模型开发的应用,尽量实现低门槛集成与开箱即用。比如腾讯云的行业大模型精选商店,既提供混元大模型,还上架了金融、文旅、零售等20多个领域的行业大模型。行业大模型,已经成为MaaS模式的中坚力量。



3.要提供充沛的工具能力。除了基础模型、高频定制模型之外,还有海量的大模型需求。这要求用户和开发者具备一定的开发能力,而云厂商需要提供模型精调、应用开发方面的工具链。比如百度智能云的千帆平台,就在模型之外还提供预制数据集、应用范式,以及其他帮助企业应用大模型的工具。

但看似如火如荼的MaaS模式,实则也隐藏了一个暗线问题:SaaS不赚钱,于是转头拥抱MaaS,但谁说MaaS就赚钱了呢?

云厂商做AI也已经很多年了。但结果往往是效果很好,利润很差。这其中的关节依旧在SaaS失速的那个关键原因上:定制化成本。

无论是企业应用AI还是现在应用大模型,本质上都难逃AI作为软件的不确定性。不同企业之间的不同需求天差地别,加上AI在算力、数据与人才上都有极高的成本,任何定制行为都会产生一连串的连锁反应。专家下工厂听上去很美,但说一千道一万,工厂最终是无法负担专家薪资的。但如果不提供定制化,又会出现绝大多数AI需求无法被满足的尴尬。

于是,怎么从顶层设计阶段就降低MaaS模式可能产生的定制化成本,已经成了大模型一战最为核心的竞争暗线。

在这个方面,各家厂商的探索幅度与实现方式各不相同。比如百度智能云更倾向用预置模型、预置应用的方式来降低定制化。除了模型平台之外,百度智能云还发布了“AI 原生应用 Family”,通过模型+大模型应用的模式让企业满足自身需求。

在这方面,目前探索幅度最大的是华为云。华为云的盘古大模型3.0,从框架设计上搭建了一个“5+N+X”的三层架构。这个架构把大模型分为L0、L1、L2三层体系。其中L0层包括NLP、CV、多模态、预测、科学计算五个基础大模型;L1则是N个行业大模型,比如政务、矿山、金融等;L2是面向各行业的细化场景模型,比如先导药物筛选、传送带异物检测等。

这个框架的设计理念,是用户和伙伴、开发者可以根据自身需要,调用不同等级的模型进行组合拼装,既可以直接调用集成模型,也可以基于模型进行精调,还可以获得由不同开发者训练的具体场景模型。这一思路的设计形式,就有了工业革命中模块化、零部件化的特征,而具体效果如何,还有待在产业中检验。

整体而言,云厂商在MaaS上最讨厌的就是定制化高、复用度低、后续服务工作量大的需求。这会把原厂有限的资源过度分散,最终回报难以达标。这也就是云计算行业经常讨论的“小作坊式AI开发”。

在目前阶段,云厂是可以在MaaS上只投入,不产出的。但长远来看,从小作坊到流水线的改变能否实现,是决定MaaS生死的背水一战。

生态层:明线聚合众力,暗线开源之争

我们需要接着说大模型那个问题,定制化成本太高。正因为定制成本高,单一服务商的综合资源有限,因此云厂商必须把大量工作分包出去。要由合作伙伴来完成咨询、服务、分销等工作。否则原厂会被漫长的流程与巨大的服务成本反复折磨。这也就导致,在走向MaaS模式的时候,云计算公司比以往更加需要伙伴生态的搭建。

另一方面,云厂商在目前不仅需要伙伴,开需要尽量聚拢应用开发者。AI大模型是个新东西,其能诞生的新应用模式具有很大的想象力。就像iPhone时刻有赖于大量的APP开发者,大模型这个“新iPhone时刻”也有赖于大量具有突破能力的AI开发者。为此,互联网大厂一方面在自己做应用,另一方面也需要聚拢更多应用开发者。因为任何应用火了,都会为提供基础模型与算力的云厂商带来一系列连锁效应。



这些因素综合起来,让云+大模型之战,在最开始就变成了一场生态争夺战。各个厂商可以说是摆开阵势,尽一切可能来吸引伙伴和开发者加入自身的生态体系。其中,基础措施是提供开发者与伙伴所需的技术与能力,进阶模式则是推动基于大模型的技能培训、应用开发大赛、免费资源、联合创业计划,在商业层面赋能伙伴和开发者。也有云厂商主张与伙伴进行全域协同,联合创新,在细分市场与细分场景中以伙伴为主进行大模型落地。

而在如何吸引开发者、伙伴的生态之争中,隐藏暗线是一个非常具有互联网思维特征的命题:能不能干脆把模型开源免费,用极端降低成本的方式来吸纳伙伴加入?



这也是最近被热烈讨论的“大模型开源闭源之争”其来源之一。

支持开源者认为,免费就是最好的生态聚合策略,且靠免费引流的策略在互联网时代屡试不爽。加上AI大模型作为基础软件,走向开源恐怕是早晚之事。

而反对者认为,大模型还处在刚刚发展的阶段。厂商需要持续投入大量研发成本进行升级,盲目的免费会导致大模型发展陷入停滞,搅乱科技进步秩序。并且大模型开源不仅能降低伙伴和开发者的成本,也会导致市场最终定价降低,摊薄伙伴的利润,最终导致企业不愿意投入研发创新。

不管怎么说,大模型开源与闭源的对垒,已经从产业探讨变成了云计算市场的现实。8月3日,阿里云宣布通义千问开源,成为首个宣布大模型开源的中国互联网云厂商,并且阿里云打造的AI模型社区魔搭ModelScope还以开源、免费、可商用作为主要买点,提供国内外的各种开源大模型。

此后,究竟是越来越多的云厂商在鲇鱼效应下走向开源,还是依旧会保持高技术与低成本之间的对垒?让我们拭目以待。

以我个人观点来看,大模型的发展潜力还很大,可探索空间众多。处于发展中的技术其实并不适合快步走向开源,因此相当部分的大模型保持闭源商业模式,是一个更大概率事件。

解决方案层:明线首批大客户,暗线政企上云新窗口

无论说的多么热闹,其实企业直接通过API接口调用大模型,这种MaaS服务模式的利润并不高。甚至可以说,在目前“百模大战”的背景下,简单调用大模型变成了一件颇为廉价的事情。

而持续投入的云计算行业,显然不能满足于这种商业模式,因此必然要争取一些客单价高,利润大的项目。而政企大客户选用基于大模型的数字化解决方案,就成为了云计算厂商眼中的新机会窗口。

在众多类型的政企大客户中,又有钱,又有数字化能力,且愿意尽快探索大模型可能性的只有两类:智慧城市与金融。其他更偏向实体的制造、能源、交通等行业,则相对来说更加谨慎,还处在对大模型的观望了解之中。

因此,争夺政务与金融大客户订单,就成为了云计算厂商进入大模型赛道后的一个标准动作。比如我们可以看到在2023百度云智大会上,百度智能云发布了基于大模型的数字政府解决方案九州。华为云则在强化和推广金融、智慧城市等领域结合盘古大模型的解决方案。

在可见的未来,云计算厂商除了在模型能力与模型平台的竞争之外,还将在以城市、金融为代表的重点领域进行争夺。而回答好这些领域为什么需要大模型,大模型能带来哪些与以往不同的价值,是云厂商必须回答的第一道考题。

在为大客户构建解决方案层面,也隐藏着一条暗线。这条线索直接关乎于云计算厂商的焦虑感:大型政企客户,不那么愿意上云了。



在几年前,大型政企上云是一种大势所趋,可谓是能上尽上,多上快上,但在目前阶段,政企客户更加强调数据与数字化系统的安全可控,盲目上云被认为并不可取。尤其是否能把大量关键数据放互联网云平台上,开始逐渐变成一种疑问。目前阶段,国资云、国家云的提法不断强化,即使上云,大型政企也会优先考虑以我为主,多云采购的策略,而这在无形中就分散了云厂商的利润空间。

在这样的背景下,云厂商对大模型的一个隐性期待,是能够让其成为推动大型政企继续上云的技术契机。毕竟在云上获取大模型,有天然的成本与可操作性优势。

因此,能不能更好展现出大型政企、重点实体行业部署大模型解决方案的重要性,同时打消政企在数据安全、自主可控、持续服务、品牌信任等领域的疑问,就成为了云厂商鏖战大模型的另一道必答题。

事实上,云计算与大模型的结合,还有很多赛点可以讨论。比如大模型与PaaS的结合;云厂商在办公、网盘等toB应用结合大模型的情况等。整体而言,算力、MaaS、生态、大型政企解决方案,构成了云计算厂商能否在大模型之战中获得竞争力的四个层面。

无论对于哪家公有云厂商来说,这场竞赛的目标都是一致的:让模型有用,让成本下降,让AI成为盈利的起点

大模型最终会变成又一个鸡肋,还是新时代的大门?路漫漫其修远兮,云计算还需要上下求索。