从安全大模型到大模型安全,安全行业玩起了以“模”治“模”| 钛媒体深度
2024-05-29
更新时间:2024-05-29 03:57:58作者:无忧百科
数据和算力更好的匹配,决定着 AI 未来的发展。
这一个月,AI 继续高速向前推进:技术疯狂向前,价格疯狂下降。
OpenAI、Google 先后发布 GPT-4o、Project Astra 、微软刚发布 50 多项 AI 相关更新;字节的「豆包」大模型家族、腾讯的混元大模型集体亮相。
数小时内大模型算力进入「厘时代」,阿里云、百度、字节统统降价甚至免费,就差花钱补贴用户了。
在这样的氛围下,5 月 22 日,极客公园今夜科技谈邀请到矩阵起源创始人 & CEO 王龙做客,畅聊数据和算力这两个大模型发展的基础要素。
作为从数据库业务升级大模型操作系统,矩阵起源刚刚拿到 Pre A 轮的数千万美金融资。和硅谷明星数据公司 Databricks 一样,矩阵起源也是一家从大数据时代就坚持长期主义,在设计之初就考虑了未来与 AI 技术的对接,一开始就坚持自己做「数字世界操作系统」的愿景,直到迎来 AI 时代,成为更适配新时代的数据公司。
别看现在技术和价格卷得如火如荼,目前能用好 AI 能力的公司十分有限。当前阶段稍显「有价无市」的大模型落地,是一个显而易见的痛点。
王龙认为,首先要调整对大模型能力的认识和期待,「就像自动驾驶,L2-L3 已经可以带来很多价值了。」在企业应用大模型能力中,当前需要做很多繁琐的自适配。
矩阵起源依然在做难而正确的事,发布操作系统 Matrix OS,和世纪互联联合发布「Neolink.AI」,做未来的「大模型工作台」,像连接鼠标键盘一样连接数据和算力,帮助更多公司一键进入大模型时代。
正如王龙清晰地说到,「我们的操作系统连接数据存储和算力资源,服务对象包括大模型开发者和传统企业应用开发者,我希望以最简单、最合理的方式为他们提供所需的算力和数据资源。」
01
AI 降价了,
但痛点不是价格
张鹏:最近大模型领域价格战很受关注,其实这场价格战背后,一方面是技术进步和规模效应带来的成本优势,另一方面也体现出行业想要让更多行业能真正应用大模型的意愿。
今天我们介绍的创业公司矩阵起源,正是从大模型发展中两个非常重要的因素——数据和算力领域内开展业务,他们刚刚拿了 Pre A 轮的数千万美金融资。他们要解决的是什么样的问题,让资本这么看好,这么大规模的投入?
我们邀请到了矩阵起源的创始人兼执行董事长王龙,您可以先做一下自我介绍。
王龙:我是行业老兵,在三个国家、十几个公司工作过。在中国过去几年主要是在腾讯做物联网、大数据和人工智能的负责人。2021 年再次创业,决定围绕数据做一些事。
我们最核心产品 MatrixOne 数据库和 MatrixOne Cloud 全托管云原生数据平台,是把结构化、非结构化的数据放在一起,把智能物联网和 AIGC 的数据,传统企业的数据放在一起,用同一套存储、同一个计算框架去处理。最近融资后,我们又加了一些算力的重点。
张鹏 :最近 OpenAI 发布 GPT-4o,谷歌也推出 Project Astra,都提到了多模态技术,这个变化体现了什么?
王龙 :说一个我的经历。之前我们公司为所有开发人员配备了 GitHub 的 Copilot 工具。在我亲自体验了最新的 GPT-4o 之后,我决定为所有员工购买 GPT 服务套餐。由于我最近有许多与 Office 相关的工作,如制作图表和撰写文档,我发现 GPT-4o 在处理多模态任务方面表现出色。
我想分享下我对大型模型的看法是如何发展的。大约在前年年底,GPT 首次发布时确实令人震撼。我当时就意识到,这是人机自然语言交互领域的一次革命。一开始,我并没有深入考虑太多,我觉得只与机器人聊天并不会带来太多实际收益。
在上一次深度学习浪潮中,大家利用它在人脸识别、安全监控、OCR 等领域赚钱。这些领域在半年到一年后才真正实现了商业化落地和盈利,而且赚钱过程也相当艰难。
但我发现这次 AI 浪潮与上一次深度学习技术有很大不同,这次 AI 的影响力和发展速度明显要快得多。2023 年 1 月到 2 月,已经有人开始利用这些技术赚取了数百万甚至上千万的收入,比如使用 AI 生成文案,进行广告营销等。这一次 AI 浪潮的发展速度和影响力至少是上次的十倍。
现在情况又有所不同,多模态技术让我们认识到,尽管纯文本有很大的想象空间,但与结合了图片、视频和音频的多媒体能力相比,文本的价值还是有所不足。其潜在的想象空间可能至少是 2016 年 AI 浪潮时的一百倍。虽然我还不敢断言它能否达到工业革命时蒸汽机的程度,但市场潜力已经非常巨大。
张鹏:现在看到多模态的能力未来能创造更大价值,那么多模态技术与大模型的核心能力之间的关系如何? 企业如何在大模型时代更好地认识和利用自身的数据资产,未来会发生哪些变化?
王龙:我创业的时候在考虑,是继续做数据相关还是 AI 相关。AI 更偏向于应用,更容易通过人和项目来赚钱,但数据则更加偏底层,需要靠产品来支撑。
因为不管未来 AI 如何发展,数据都是数字世界最为核心的要素。所以从一开始创立公司时,我们的目标就是要成为「数字世界的操作系统」,做一个奠基者,而不是仅仅做一个数据库。
张鹏:数据库是第一块砖,是吧?
王龙:对,无论未来 AI 发展如何,数据无疑都是最基础的「第一块砖」。无论是为 AI 服务还是其他系统服务,数据都起着关键作用。所以我们选择了专注于数据领域。
接下来我们思考,到底应该围绕哪些数据展开? 传统企业数据不太可靠,而互联网数据领域已有许多先驱。于是我们把目光转向新兴的智能物联网数据,包括摄像头、麦克风、工业传感器等产生的数据,希望能够建立一个数据操作系统,将这些异构数据整合在一起。
为了融合各种不同时代和系统的异构数据,我们的系统架构需要保持高度的创新性。而这种架构的优势,AI 兴起之后会变得更加明显。
现在我们的数据库系统,在推理模型、代理系统、向量处理等方面都已经具备了相应的能力。我们正在进一步规划如何将训练数据也有机地融合进来,以进一步增强系统的功能。
一开始我们就定下做「数字世界操作系统」的愿景,所以我们提前做了一些前瞻性的布局。现在看来,这不仅是我们得以成功融资的关键因素,也使我们的数据库系统脱颖而出,不再是一个普通的数据库,而是一个面向未来的创新型数据管理平台。
矩阵起源 Matrix OS | 图片来源:矩阵起源
张鹏:你认为数据库是一个有意义的面向未来的问题,所以你才会有新的架构、新的目标去做,当时你是怎么判断未来的?
王龙:我将数据大致划分为几类。
第一类是企业数据,主要涉及内部流程管理,如 ERP、进销存、OA 等系统产生的结构化数据。这类数据注重存储空间利用、数据完整性等特点,总体比较「乖巧」。
第二类是互联网数据,主要体现在个人消费、UGC 内容等领域。这类数据不像企业数据那么「严肃」,存在很多不确定性。像谷歌的 Hadoop(一个分布式系统基础架构)生态,就是针对这种数据量大、质量参差不齐的特点而设计的,它们的思路是忠实记录原始数据,然后交由检索系统去处理分析。
随着移动互联网的兴起,数据规模和复杂度进一步提升。这些演变过程反映了数据本质的变化——从早期结构化、确定性强的企业数据,到海量、多样、不确定的互联网数据。这就给数据管理和处理带来了全新挑战。
此外,智能物联网数据发生变化,之前的互联网数据大多源自人工产生,但物联网时代,很多数据来自于各类机器设备,如摄像头、手机等。
这种机器生成的数据,与人工数据不一样,如果这些数据出现错误,很难确定责任归属。相比之前,这类数据,不仅要关注数据的完整性和可靠性,还要处理数据出错时的责任认定问题。
随着 AI 时代的到来,数据的性质又发生了变化。之前 AI 主要基于公众互联网数据进行训练,但真正落地应用时,它又需要结合企业内部数据,以及物联网数据,比如说去做设计、去做勘探、去做工业控制。
张鹏:下一步的决策是怎么做的?
王龙:无论是做 AI 还是其他,未来人类都会倾向于将各类数据集中到同一个地方进行处理。因为只有数据聚合在一起,其价值才能最大化。
比如,生产数据可能存在企业内部,而营销数据则在互联网上,如果能将它们整合起来,就能实现更优化的应用。即便是互联网企业,内部也会有一些财务、管理等系统产生的数据。所以将这些异构数据统一管理,才是最优的。
为了满足不同时代数据的特殊需求,我们在设计系统架构时考虑了这些。首先,我们选用了云原生的存储技术,能够将各类异构数据统一存放在同一个存储系统中。无论是企业内部数据、互联网数据,还是物联网数据,云原生存储都能够灵活容纳。同时,我们对存储系统进行了精细化的设计,以支持高效的数据处理。
第二我们意识到不同类型的数据,对处理的需求也存在差异。有的需要记录错误信息,有的则要注重数据诞生的痕迹;有的对吞吐量有很高要求。为了满足这些差异化需求,我们采用云原生的计算资源细粒度调度技术,以灵活适配不同数据的特点。
张鹏:这不光是湖仓(开放式架构)的问题,还是存储的问题,这成了一个新的目标吗?
王龙:是的,然后我们采用了一种全新的架构来构建我们的计算框架,这当然有代价,就是团队无数次的代码重构。我们经历了一次又一次的试验,得到了一些非常重视我们理念的客户的支持,他们一直在提供真实数据来改进我们的产品。让我们不断发现需要改进的地方,并且及时做出调整。
到了去年 10 月,当我们正式发布产品时,已经有三四十位客户,感谢他们帮助我们打造了一个独特的管理、存储和计算资源的框架。
这套框架的优势在于,无论我们接入什么类型的数据,都变得非常容易。比如人工智能数据,或者接入任何类型的计算资源(如我们所说的制算资源或GPU资源)。这是因为我们的系统本质上是一个易于插拔的系统,类似于操作系统的概念,可以轻松地接入不同厂商的鼠标或显示屏。
许多创业公司可能在一两年内就获得了大量客户,而我们用了三年时间才获得了三四十个客户。然而,我认为这种努力是值得的,因为它帮助我们建立了一个强大的产品基础。
张鹏:在大模型技术爆发和国内对大模型的热潮中,你认为创业者应如何识别和把握未来的机遇,进行战略调整?你作为一个成熟创业者,当时是怎么经历的决策过程?
王龙 :我和我们投资人世纪互联创始人兼执行董事长陈升有一次聊到说,有客户面临 IT 投入增长速度远超业务增长的问题,问我有什么方法可以控制这种不可控的增长。
我分析后发现,客户的软件成本增长还算合理。国内大多数厂商要么使用开源产品,要么使用国内软件公司的产品,他们不会因为使用了 500 台服务器就支付 500 台的费用。
那他们的成本主要增长在哪里?我原本以为,客户的硬件从 500 台增长到 1000 台,矩阵起源软件能帮助节省大约 200 台或 300 台。但客户要求减少一半成本,而软件的成本只占总成本的 20%,我就算不收钱,成本也只能减少 20%。
陈升说,客户现在的需求已经不在于使用普通的服务器机柜了,客户现在最关心的是智能算力。因为过去,作为一个企业信息化负责人,你搭建一套 IT 系统,投入可能分布如下:硬件占 50%,其他如电费、软件费用、服务费用等各占 10% 左右。
但现在情况不同了,企业首先需要投入大量资金用于智能算力,如英伟达的 GPU 等,这可能占到 70% 到 80%,电费占 20%,其他软件费、人工费、服务费等加起来只占 10%。陈升说,优化那 10% 没有太大意义,你应该想办法在占大头的 70% 中找到优化空间。
张鹏:也就是你不能在一粒米上搞微雕。
王龙:这番话其实挺启发我的,我想如果我们开发一个数据产品,比如操作系统,我们希望客户能快速应用落地,那我们就需要关注客户的钱主要花在了哪里,然后如何帮助他们更有效地使用这部分资金。
这就引出了一个问题:用户都在做什么?用户正在开发大模型,或者围绕大模型进行应用落地,他们的整个逻辑已经发生了颠覆性的变化。所以我们不能仅仅围绕传统的数据集中式管理,我们需要思考,除了数据管理之外,还能做些什么。
我们发现关键是如何将算力与数据更好地结合起来。现在我们公司从三四年前以数据为核心的单一模式,已经转变为以数据和算力为核心的双核心模式。
所以,回到你前面的问题,作为创业者,如何调整自己的策略?就是看到大模型浪潮给我们带来的冲击和挑战,并找到应对的方法。
张鹏:创业者有时会犯一个错,就是过于专注于自己擅长和坚信的事物,而忽视了市场的实际需求。会投入大量精力去完善自己的产品,但如果大家缺的不是这粒米,可能就错过了在一个山上去雕个大佛的机会。你瞬间就把目标转成智能算力,这是很重要的一点。
王龙:对,而且这个改变本质上并不是整个调头,只是方向上的转变,变成数据和智能算力的结合。
02
「一键 AI」难在
少了「工作台」
张鹏 :正好讲讲数据和算力这两者的关系。
王龙 :我们过去在数据库领域经常提到存算分离和存算解耦的概念。因为存储和计算资源都非常宝贵,如果能将它们解耦,就可以根据实际需求灵活调度和匹配算力与数据。
过去人们经常探讨是将数据移动到计算资源附近,还是将计算资源移动到数据附近。围绕这个问题,有各种各样的技术架构。这其中的优缺点非常复杂,研究的人也很多。但归根结底,数据和算力是 IT 系统中最关键的两个因素。
数据和算力之间的匹配本身就是一项核心能力。过去更多使用 CPU 通用算力,基本上是按照 CPU 的账来算。但现在,智能算力的情况有所不同。它是按照GPU来计算的,GPU 的成本远远高于 CPU。还要考虑 GPU 带来的网络成本、电力成本,以及整个系统的制冷等复杂因素。
其中一个必须考虑的是算力集群的电力成本和电网的承载能力。可以从世纪互联的经历看这个变化,他们原本是做 IDC 机柜的,核心竞争力在于遍布全国的机柜资源和强大的网络连接能力。
但随着智能算力的兴起,世纪互联发现需要改变。以前一个机柜的电力消耗大约只有几十千瓦,但现在,英伟达最新一款服务器的起步电力消耗就是 120 千瓦,例如 NVL72,要配备 72 张 GB200 卡。如果再加上制冷系统等其他因素,电力消耗很容易达到 200 千瓦。
对于 IDC 来说,原本可能认为自己的电力供应是充足的。但现在,即使是稍微大一点的集群,比如英伟达最新的示范性集群,拥有 36000 张卡,每张卡的功耗都在 1 千瓦以上,要找到一个能够承载这样高功耗的数据中心,实际上相当具有挑战性。
MatrixOne:超融合数据管理平台 | 图片来源:矩阵起源
张鹏:得给他配个核电站了。确实消耗的电力太大,哪个城市都扛不住。
王龙:美国现在就发愁,数据中心到底建在哪个州?电力和算力虽然看起来是比较传统的两个词,但它背后代表的公式和含义其实跟以前不完全一样,总之数据和电力怎么更好的配合这件事情,会成为未来不管是做AI相关应用还是其它事情的一个关键点。
张鹏:其实数据和计算一直是密不可分的。虽然现在要考虑高能耗,但我认为能源问题是人类总会设法解决的,最关键的是,能不能让数据和GPU配合好。
王龙:最近我在美国,有幸与英伟达的创始人黄仁勋以及他团队开了个会。我与他们的首席解决方案架构师深入交流,就讨论了高能耗的问题。
首先,他认为能耗一定会降低,因为目前我们主要在做模型训练,而推理任务相对较少,推理的能耗相比训练要小得多。当然,如果大家都开始使用推理,能耗可能会上升,但总的来说,我们可以看到行业内有大量创业公司正在研究如何降低推理和训练的能耗。
其次,他提出了一个非常有启发性的观点,他建议我们不要仅仅将大模型视为一种软件,而应该将其看作是一种储能装置。
大模型将电能转化为未来可以使用的能量,储存在大模型中。他认为大模型的本质是将人类智慧——包括数据、算法和互联网上的大量信息——以及正在产生的能源,整合到一个数字化模型中。
张鹏:说到成本,最近大模型领域的价格战很热,会不会那些花费巨资训练的大模型似乎突然变得不那么有价值了?这种价格竞争是否真的预示着未来企业将AI作为生产力的成本将出现指数级的下降?会成为更广泛应用的起点吗?
王龙:确实,目前大模型领域的竞争非常有趣。虽然过去我们常说流量至关重要,但大模型时代不一样了。大多数模型的接口都非常相似,对于开发者来说,切换使用不同的大模型可能只是代码中的一个小改动。流量需要有粘性才能体现价值,大模型并不是以流量为核心的。
我们的 CTO 和科学家在硅谷就这个问题进行过深入探讨。当他们刚开始部署 Copilot,用于辅助编写代码时,CTO 感到有些不安,他开玩笑说未来可能不再需要 CTO 了。
但实际使用发现大模型与人类专家之间还是存在差距,不过未来编写程序的方式可能会发生改变。大模型可能会在某些方面提供辅助,核心的创新和决策需要人类专家的参与。
所以成本下降并不一定是大模型应用的关键。
传统上,成为程序员意味着要学习各种编程语言,比如 Java、C++、Python 或 PHP。掌握这些语言后,程序员就能编写代码,与计算机进行交流。编写代码本质上是操纵计算机的一种方式。
但是现在要去与大模型沟通,让大模型来完成工作。这使得编程变得更容易,因为任何人都可以通过自然语言与大模型交互,不断地调试和优化。
在企业中应用大模型时,最基本的一点是,即使你没有任何技术背景,只要你能说话,就能让大模型为你工作。当你觉得机器语言的表现不好时,想让它变得更聪明,就会出现各种基于强化学习的代理(agent),它们可以帮助提升大模型的性能。
张鹏 :你都不需要掌握机器的语言了。其实本质上这也是编程,相对于过去那种就是大模型之前时代的编程来讲,其实在提示工程之后的进阶编程,是 RAG(Retrieval-augmented Generation 检索增强生成)。
王龙:有道理,就是基于数据来编程,我把数据喂给大模型,让它能够得出我想要的答案。如果我对这个大模型还不满意,我可以直接调优,改变它的参数。最后我对这个大模型彻底不满意,我就搞一个全新的大模型,连预训练都自己做。
张鹏:我们实际上都在参与塑造大模型的发展。如果还需要支付昂贵的费用,那就显得不太合理了。
国外企业在这方面的做法值得我们学习,将用户视为开发者,定期举办开发者大会,提供激励措施。我们应该转变思维模式,应该把大模型看作是一种可以共同创造和分享价值的平台。
王龙:是的,当你使用像 OpenAI 或者 Google 的 Gemini 的 AI 时,它们会问你是否允许它们使用你的数据进行训练。实际上,这就像是在帮助它们改进算法,或者说是在为它们的模型打补丁。
这只是我的推测,因为当我同意它们使用我的数据处理训练时,它们的响应速度似乎有显著提升。这让我怀疑是不是有一个后台机制,能够利用用户提供的数据来即时优化模型性能。
张鹏:所以在这个趋势下你怎么构想你的那个业务呢?最近你们从超融合数据库推出了新的操作系统,叫 Matrix OS,但是操作系统这个词很宏大,怎么理解?
王龙:操作系统虽然听起来是一个宏大的概念,但其实它的基本原理相当简单。比如我们笔记本电脑的操作系统是干什么的?它的主要作用是让鼠标、键盘、显示器等各种硬件设备协同工作。
作为用户,你只需要关心你想如何操作电脑、获取信息、显示内容,而无需在意鼠标是宏基的还是戴尔的,显示器和芯片来自哪里。操作系统在后台为你处理了所有这些复杂性。如果你是一名新的鼠标制造商,你也不需要向操作系统报备,只需按照既定的接口标准接入,即可被操作系统识别和使用。
本质上,操作系统是一个连接者,它简化了复杂系统,充当了一个连接器的角色,为开发者提供了便利。
我们发布的操作系统连接了什么?连接了数据存储和算力资源。服务对象是谁?模型开发者和普通应用开发者。
无论是 AI 开发者还是传统企业应用开发者,我希望以最简单、最合理的方式为他们提供所需的算力和数据资源。无论是进行 AI 应用开发、微调、提示工程还是其他任何开发工作,我们提供的工具和服务都能满足他们的需求。
我们致力于让操作系统成为一个易于使用、高效的平台,让开发者能够专注于创新和解决问题,而无需被底层硬件和软件的复杂性所困扰。
张鹏:如果我们类比,Matrix OS 有点像大模型时代的程序员工作台,那么它为开发者提供了一个全面的工具集合。在这个平台上,你可以从最基本的编程技能 prompt engineering 开始,然后逐步进阶到更高级的 rag 技术,再进一步到复杂的模型训练。
无论你的编程水平如何,Matrix OS 都能为你提供最适合的工具和资源,帮助你高效地完成工作。它允许你根据自己的需求和能力,选择不同层次的开发任务。无论是进行基础的编程、高级的算法开发,还是自定义模型的训练,Matrix OS 都能提供支持。这就是 Matrix OS 的核心。
王龙:大模型对我来说就是一个编程工厂,提供给大家去用。
张鹏:既可以是个工作台,也可能是一个企业的大模型生产工厂。
这一年我们发现大模型在实际应用落地和行业渗透方面,表现似乎略低于预期。任何技术的创新都是为了解决实际问题,你帮我们看看,卡点在哪?
王龙 :我对技术总体是非常谨慎的,但是现在我比之前要乐观。这种乐观可能与我的期望有关。
人工智能本质上是一个概率系统,特别是在大模型领域,它的核心是概率系统之上的 Transformer 架构。这是一个从 50% 概率逐步提升到 99% 概率的过程。
我们可以将人工智能的发展与自动驾驶进行比较。自动驾驶的目标是用机器代替人类驾驶,如果机器能够永远不出错,那将是非常了不起的成就。
张鹏:那不就 L5 了吗?
王龙:对,L5 也出错,但是它可能比人强很多。自动驾驶分了 5 级,L1 到 L5,现在中国大部分厂商可能在 L2,特斯拉实际上到 L2.5 到 L3。
特斯拉的全自动驾驶系统(FSD)是一个端到端的解决方案,FSD 本质上依赖摄像头来处理所有的决策问题,这在某种程度上体现了多模态处理的能力。它的价值已经非常明显,即使是国内的 L2 级别自动驾驶辅助系统,也已经为用户提供了巨大的帮助。
所以,当你意识到达到 L5 级别全自动驾驶可能还需要很长时间,但 L3 级别已经能够提供实质性帮助时,你对大模型的未来就持有相对乐观的态度。
张鹏:从你身上我学到了一课,那就是乐观与否主要取决于我们的期望设定。谈论大模型时,我们至少能够确定有 L2 级别的价值。接下来每提升一个级别,它能够解锁的场景和创造的总价值都可能是指数级的增长。
王龙:当我们讨论大模型技术在企业中的应用,如果一开始就期望它能够处理关键任务型系统(mission-critical)的实时决策,并且要求它绝对不出错,那么很可能会让你失望。这种期望类似于自动驾驶领域的 L5 级别,要求极高的精确度和零错误率。如果以这种标准来衡量,大模型目前可能还难以满足。
然而,如果我们将大模型应用于可以容忍一定错误的领域,例如文档撰写、知识检索或设计工作,它就能提供很大的帮助。
因此,企业在应用大模型时,应该根据任务的性质选择合适的智能级别。不应该错误地将一个 L3 级别的智能应用于需要 L5 级别精确度的场景。理解每个场景的具体需求,并为这些需求匹配恰当的智能解决方案,才是应用大模型的关键。
张鹏:程序员们常说「show me the code」,而在商业创业领域,强调的是「show me the money」。只有当你的产品能够带来利润,才能证明它的价值和实用性。
虽然我们可能无法深入理解所有的专业细节,但你能不能为我们概述一下原来面临的问题是什么?接着通过什么样的方法来解决这些问题的?
王龙:首先,数据问题相对容易解决。目前,大多数数据训练和推理任务都采用共享存储架构,这是标准做法。核心问题在于如何根据需求匹配合适的算力。
以我们的产品为例,匹配 GPU 算力和 CPU 算力的逻辑是不同的。如果匹配 CPU 算力,我们可能更多地关注于容器化、服务化以及虚拟化技术。而匹配 GPU 算力时,则需要考虑更多任务相关因素,比如数据是用于训练还是推理,以及数据在整个开发流程中的不同用途,如 RAG 模型构建或数据标注等,这就涉及到不同的管理流程。
我们经常提到的 DevOps 和 OPS(运维)工具链,都需要与这些流程相匹配。这就像你拥有一个商店,里面什么都有,但商品的摆放是否科学、是否合理,需要根据实际运营情况来不断优化。
这是一个不断迭代和优化的过程,需要根据用户反馈和实际使用情况来调整。
我们对大模型的部署有一个预设的优化策略。例如,针对不同规模的模型,我们会决定在哪里进行推理,以及选择哪种硬件加速卡来执行这些任务。同时,我们会根据预期的并发请求数量来准备相应的资源,并预估资源准备所需的时间。
在推理过程中,我们还需要考虑多种因素,比如是否要将服务部署在成本较低的地区,或者更靠近用户以减少延迟。在工具和资源准备就绪后,我们就需要不断地在各种场景中进行优化。
这与我们之前开发的自优化数据库计算框架有相似之处。其核心理念是系统会随着使用而自我改进,越用越顺畅,从而更有效地调配资源。理想情况下,无论是训练、推理还是整个流程中的任何环节,我们总能找到最合适的位置,将算力和数据匹配给任务,并根据数据量进行优化。
我们追求的最理想状态是能够动态地、智能地管理和调配资源,以达到最优的性能和成本效益。当然,这个过程需要逐步实施,随着经验的积累和场景的扩展,不断调整和完善。
张鹏:所以基础设施的能力对企业很关键,采用最佳实践可以减少不必要的试错成本,是这个意思吗?
王龙:这个逻辑是对的。分享另外一个思考,我们正在讨论开发和部署 modern application(现代应用)时,遇到的成本和架构变化。现在,当我们谈论数据和算力的连接,这种连接与过去有所不同。例如,过去在连接算力时,我们不需要考虑太多硬件的具体位置或能耗问题,但现在这些因素已成为成本中非常重要的一环,不像以前可以忽略不计。
数据方面也有类似的考量。我们不仅要考虑数据共享、安全性和处理问题,还要考虑数据是如何被不同应用使用的。这就需要我们在每个环节上都有更深入的考虑,链条会变得更长。
这也是我们开发 Matrix OS 商业模式上的一种必然。我们不能完全将自己置于中间层,不能仅仅作为一个软件平台,而不关心底层基础设施的细节。现在新的编程范式已经出现,你需要了解更多。
这就是我所说的「软硬一体」和「数据与应用一体」,这两件事也可能是未来的一个重要变化。
03
从数据智能
到「算力智能」
张鹏:你构想在帮助大家解决问题的进程里,可能还有什么东西是你们要有对应的产品去覆盖的?
王龙:其实可以看美国公司 Databricks,他们的逻辑与我们有些相似,都是以数据为核心。但他们坚信机器学习应该在数据库中进行。这个想法颇具挑战性,因为在传统的架构中,数据库并不是用来执行深度学习任务的。
Databricks 一直在致力于推动这一理念,过去一年在美国备受瞩目。他们坚信 AI 与数据应该紧密结合。随着 AIGC 的兴起,他们的架构使得集成各种 AI 工具集变得相对容易。不论是通过购买还是集成,例如对 Python 的支持,都使得拥抱 AI 技术变得更加简单。
这个发展历程值得我们关注学习。我们的架构跟它是有点接近的,也在设计之初就考虑了未来与 AI 技术的对接,预留了很多接口。
尽管我们现在可能还不清楚未来的训练框架会是什么样子,或者未来会出现哪些新的技术,但我们已经有了一定的准备。比如有人正在探讨 Transformer 架构是否有改进空间,或者是否有其他方法可以颠覆现有的模型,这些都还是未知数。
张鹏 :这就属于有一条路趟出来,那个路太不确定了。
王龙:我就踏实做好数据平台,和算力平台连接。我们已经明确了不同类型的数据该如何处理:企业数据、物联网数据以及 AI 生成的数据等,这就是坚实的基础。
训练部分可以采取开放合作的方式,其他方接入我们的接口,我们接入其他训练平台,就能形成一个互利共赢的合作关系。这正是生态系统的意义所在。我们的平台是开源的,我们的核心理念是确保数据和算力的确定性应用得到有效管理。
张鹏:谈到 Databricks 这家公司,它的市值现在已经达到 400 多亿美元。它确实在这一波中超越了 Snowflake,非常热门。去年我参加了他们两家公司的会议,它们恰好在同一时间举行。Snowflake 历史悠久,名气大,甚至请到了黄仁勋来站台,但气氛上还是没有 Databricks 火爆。去年我就观察到了这种趋势。
王龙:Databricks 和 Snowflake 的故事非常有趣。Snowflake 自 2012 年成立以来,一直致力于企业数据的管理和优化。他们专注于如何在企业数据领域取得突破。然而,当 AI 技术兴起后,Snowflake 发现情况并非如此简单。AI 的训练往往依赖于互联网上的公开数据,或者是非结构化和半结构化数据的清洗和加工。
Snowflake 手里拥有的主要是企业应用数据,这些数据在 AI 时代并不那么容易应对。但 Databricks 从一开始就专注于 AI 和开放式数据管理能力。他们基于 Apache Spark(一种通用计算引擎)这一开放式数据管理框架,一直在扩展其能力。
Databricks 早期面临的一个挑战是,数据库的利润较高,因为结构化数据容易标准化,毛利较高。而 AI 路径,特别是深度学习领域,当时并没有带来预期的收益。原因在于,当时的数据处理需要大量的清洗、挖掘和治理工作,而没有这些能力的数据价值并不高。
但随着 AI 技术的发展,人们意识到 AI 的核心其实是互联网数据。这一转变让 Databricks 的开放式数据管理策略和对 AI 的早期投入开始显现出优势,而 Snowflake 需要调整策略来适应这一新的市场趋势。
张鹏:三十年河东三十年河西,这都不到三十年。
王龙 :我们公司一开始自称为数据库,可能让人联想到 Snowflake,但我们从一开始就全面采用开放数据格式。我们深思熟虑过一个问题:未来的数据应该是什么样子才能更好地适应时代?因此,我们在存储架构上的设计,使其能够轻松接入多模态数据。我们希望我们的这种坚持和前瞻性能够得到好运。
张鹏:听起来是一次架构信仰的胜利。如果我们与 Databricks 相比较,似乎还处于起步阶段。能有 Databricks 这样的行业领头羊作为我们的参照,前景确实非常令人期待。这比我们最初仅仅作为一个数据库公司的意义要深远得多。
我们之前也讨论过,世纪互联与你们建立了非常紧密的合作关系。在所谓的「数据加算力」领域,特别是在算力层面,看起来你们的战略合作伙伴关系正从传统的IDC向当前流行的 AIDC(人工智能数据中心)转变,它背后所代表的变化是什么?包括你们与世纪互联之间的协同作用,如何理解这种共振?
王龙:首先,我在与世纪互联管理层的沟通中非常明确地意识到,我们在某些分析方法上达成了共识。在 AI 原生的世界里,算力是关键,IDC 必须升级到 AIDC,才能拥抱未来的 AI,才有机会在市场上获得成功。如果我们远离价值中心,就会遇到问题。所以我们有了这样合作的机会。
此外,最近几个月,我们一直在进行紧密的合作和研发。我们发现,我们必须延伸价值链去思考如何与上一级产品结合的问题。例如,世纪互联在网络技术上的积累和近两年在 AIDC 上的投入,让我们了解到建设 GPU 集群的困难和挑战,包括电力、冷却系统、网络服务质量等一系列问题,这些都是与大模型紧密相关的。
在 AIDC 领域,我们发现情况与以往不同。以前的 IDC 是传统的企业,相对稳定和容易预测。但在 AIDC 领域,这些都变成了不确定因素。作为软件平台,我们必须找到解决方案,不能总是假设底层设施都是好的,或者随时都能准备好。
张鹏:你们与世纪互联合作推出的「Neolink.AI」的平台,和 Hugging Face 有点像吗?
王龙:我们的 Neolink.AI 平台,可以说是 CoreWeave 和 Hugging Face 的结合体。CoreWeave 作为一个算力平台,提供了强大的计算资源。在传统的 CPU 算力平台上,使用起来非常直接,就像公有云服务一样。你只需创建一个 CPU 实例,无论是虚拟机还是容器,只需提出需求,云平台就会迅速响应并创建相应的资源。
然而,GPU 算力云平台的运作方式则不同。虽然你可以请求 GPU 资源,并且大多数时候平台会提供,但你会发现经常需要进行预约。例如,当你请求某种 GPU 算力时,平台可能会提示你需要排队等待几小时。这不仅仅是因为算力资源紧张,还因为 GPU 和 AI 任务的特殊性。
在过去,大多数任务可以在通用的 GPU 或 CPU 上完成,你可以根据需要增加资源数量,然后简单扩展。但 GPU 和 AI 的逻辑并非如此,AI 任务通常需要进行微调,这就需要构建一个集群。
例如,你需要进行一次大规模的微调,可能需要 100 台机器来构建集群。这是一个必须满足的资源数量,而不是说「我只用 20 台,慢一点做」。使用不足的资源可能导致任务执行困难,甚至系统崩溃,无法完成任务。
GPU 和 AI 任务具有独特的逻辑和需求,这对算力平台提出了更高的要求,需要它们提供更灵活和强大的支持。这就是为什么在开发软件时,我们必须深入理解两个方面:一是应用本身的特性以及数据处理方式;二是硬件资源的具体情况,比如 GPU 和 CPU 的位置,如何组建集群,以及是否存在可用的集群资源。如果没有现成的集群,我们可能需要在用户界面上设置一个预约按钮,让用户进行排队等待资源分配。
张鹏:这不是简单的说把需求接过来,然后进行分发,实际上,中间的逻辑正在发生变化。在某种程度上,这反映了世纪互联与你们之间的合作关系,这种关系非常符合未来数据和算力必须综合考虑的趋势,以真正解决实际问题,你们都要天然的做共振。
王龙:像我之前提到的,成本结构是一个重要问题。我听说过一些传言,虽然我不知道具体的内部数据,比如 OpenAI 的 GPT-4 模型,据说它在训练时使用了 3 万张 GPU,而 GPT-5 计划增加到 10 万张。想象一下,3 万张 GPU 每天的成本高达数千万人民币,这是一个巨大的数字。而且,据说整个集群的利用率在 70% 到 90% 之间,这是一个相当高的数字。
在中国,大多数集群还没有达到如此大的规模,或者说还没有达到 3 万张 GPU 的规模。有的达到了 1 万张 GPU,这是存在的。但我在某个厂商的论文中看到的利用率是 57%。如果一个集群每天的成本是一亿美元,而利用率从 80% 降到 60%,那么差距就是数百万人民币。
如果软件能够在这种场景下发挥价值,或者你的解决方案或思路能够在这种场景下提升效率,那么带来的差异将是巨大的。
张鹏:在大模型等新技术的推动下,产业结构和价值链很可能会发生系统性的变化。你已经找到了自己的定位,但还有很多创业者在寻找他们的机会,你还观察到了哪些新兴的机会,值得我们关注和探索?
王龙:多模态大模型的应用肯定有创业机会。多模态技术不仅仅是基于 NLP(自然语言处理)的应用,它将改变人机交互,甚至机器与机器之间的交互逻辑。现在已经有一些应用用到多模态,如电子宠物、个人助理。
另外,在基础设施方面,无论是从提升训练能力还是从提高资源利用率的角度来看,都有很大的空间。比如由于美国对中国的限制,我们的单卡性能可能不如别人,这就需要我们通过提高资源利用率和横向扩展的能力来弥补。在这方面,中国人的强项——即通过数量来弥补质量的不足——将发挥重要作用。
张鹏:多元异构的算力最终被有效整合,不够我们就把它汇起来。
王龙:对,在美国,AI 训练领域倾向于使用同质算力,这是一个重要原则。所谓同质算力,指的是在构建训练集群时,所有使用的硬件应该是相同型号和规格的。如果一个训练集群使用的是 H100 GPU,那么最好是集群中的所有 GPU 都是 H100,并且每个 GPU 的配置都保持一致。这样做的原因是,任何硬件的不一致都可能影响整体的训练效率。
张鹏:那中国没得挑。
王龙:是的,而且这个技术其实非常之难。但一般难度大的地方也意味着它具有相应的价值。由于它与应用的结合非常紧密,每个厂商的大模型在负载程度上都有所不同。我们也在研究,我认为未来可能会有一些机会,特别是考虑到中国有其独特的场景需求。例如,如果美国需要集成 3 万张卡,我们可能需要集成 10 万张卡。在这种情况下,整个底层逻辑将会发生变化。
张鹏:如何让大家真正把大模型训好用好,还是需要好的基础设施,帮大家把事做好。
*头图来源:视觉中国
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
极客一问
在大模型时代,数据和算力的关系
发生了怎样的变化?
刘强东内部狼性训话流出:不奋斗不是我兄弟。
点赞关注极客公园视频号,