人工智能撞上“功耗墙”,终极解决方案是什么?

更新时间:2024-05-16 03:57:18作者:无忧百科

人工智能撞上“功耗墙”,终极解决方案是什么?

硅谷AI大佬已经开始为能源焦虑了。

4月底,OpenAI CEO奥尔特曼 (Sam Altman)出手投资了一家能源初创公司Exowatt,这家公司成立于2023年,旨在用太阳能解决大型数据中心对清洁能源的需求问题。

这并非奥尔特曼第一次投资能源公司,此前他也押注了从事可控核聚变的 Helion Energy 以及核裂变发电公司Oklo。作为目前全球最强大模型企业的掌舵者,奥尔特曼在年初的达沃斯会议上称,AI行业正面临能源危机,其消耗的电力将远远超出人们的预期。“AI技术的发展速度前所未见,到了明年人类就没有足够的电力来运行所有的芯片了。”这是特斯拉CEO马斯克在2月底给出的警告。

对AI行业来说,从外部获取更多能源是一方面,从内部降低能源消耗同样是热门议题。从芯片侧、软件生态到存储、应用侧,AI生态内企业已经意识到并开始在降低能耗方面作出努力。


能耗考验大模型

“AI电力需求将迅猛增长。”摩根士丹利在3月发布的一份AI报告中,预计2023-2027年全球数据中心电力需求为430太瓦时-748太瓦时,相当于2024/2027年全球电力需求的2%-4%。但电力基础设施可能跟不上这一增长形势。

为了解决能源消耗问题,不少人工智能基础设施公司已经在探索从基础技术层面去突破。

清程极智是聚焦软件系统这一层的清华系创业企业,成立于2023年12月,就在3月底这家企业完成了首轮数千万元融资,投资方包括AI大模型独角兽公司“智谱 AI”。

对于AI的能耗问题,清程极智相关负责人Eric对第一财经表示,在芯片方面,更先进的芯片工艺,不论是提高制程的3纳米或是采用chiplet的方式,都可以满足提升算力性能的同时降低功耗。

与芯片相关联的是系统层面,如何更好地做编译优化,将单块芯片的效率提高,并进一步将几千张、几万张芯片连接在一起,将并行框架做好,提高整体效率,这对于大模型训练场景来说非常重要。

从应用侧来看,大模型耗电多是因为模型训练的数据量巨大、模型非常复杂以及用户向AI提出的请求量巨大。因此,Eric介绍,寻找更好的模型架构,在算法层面优化模型的设计,使其更加精简,并适当降低精度,这都可以降低功耗。

已经有不少学者专家在反思目前大模型技术路线问题。

上海人工智能实验室主任助理、领军科学家乔宇此前在GDC大会上表示,沿着Scaling Law,对算力需求越来越多,大家会有一个问题:Scaling Law何处是尽头,跟现在相比,大模型至少还有1-2个数量级的提升。

“到2030年,是不是我们再提高两个数量级就有机会实现真正通用的人工智能,但是我们也要考虑另外一个问题,按照目前这条技术路线,它对算力、对能耗的消耗非常巨大。我们真的需要把这么大的社会资源都投入到这样的领域中来,还是需要现在(找到比)Scaling Law更加高效的方法,后者是这个时代研究者、开发者必须思考的问题。”乔宇说。

上海人工智能实验室领军科学家林达华表达了同样的想法,当前主流的大模型无一例外都建立在Transformer架构堆叠的基础上,但这种架构的问题是对计算资源的消耗特别大,反观人脑这样的“大模型”,有大约100万亿个神经连接,远远超过现有大模型体量,但人脑的运行功率只有20瓦。

实际上,过去一年,产业界和学术界在不断探索更加高效的架构,其中MoE(混合专家模型)受到了越来越多企业的关注。“但这仅仅是一个起点,未来还会有更加高效的稀疏模型结构出现。”林达华说。

在采访中林达华对第一财经表示,如果每一个用户的需求都用大模型千亿参数去响应的话,企业方的成本收益也会算不过来,这必然会倒逼企业在架构上做更多高效的尝试,将架构的计算成本降下去,随着验证逐渐成功,它们会慢慢进入产业界,从而带来模型架构新的黄金时期。

在Eric看来,除了以上几个层次之外,应用落地侧也有很大的变数。目前国内都在研究通用大模型,大规模的训练场景对算力要求较高,不过未来大模型跑出来后,或许模型的推理需求会更重要,这个时候“应用侧有多少是真的需要训练基础大模型”的问题就会出现。

Eric表示,未来大模型祛魅以后,或许业界会反思,并不是所有问题都需要用大模型解决,这或许会减少算力的不必要消耗。


芯片改良路线还能走多远

业界把降耗的希望寄托在芯片设计上。

“应用侧的丰富是必然的,就是时间问题,就算不是大模型的应用,也会有一些如机器人、自动驾驶这样场景下的算力需求,最后一层一层传导下来,最终都要看芯片。”Eric表示,往往更丰富、更高级的应用,最终都会传导至对算力的需求上面。

摩尔定律走向物理极限已成为不少半导体行业人士的共识,芯片行业通行数十年的算力提升方案越来越难实现。

作为最炙手可热的AI芯片厂商,英伟达向来是先进工艺的坚定支持者。但最新的芯片并未沿着晶体管密度翻倍的路径向下走。

当今年3月的GTC大会上,当英伟达CEO黄仁勋从口袋里掏出一块Blackwell架构芯片和一块上一代Hopper架构芯片时,他表示“我们需要更大的GPU”。明显可见的是,“更大”也是物理意义上的:由两块B200整合成的Blackwell架构GB200明显大于前一代的H100。即便是单颗B200,也比H100体积大了约一倍。

这颗B200采用台积电N4P工艺,相比两年前推出的H100 4N工艺(5nm)制程有所改良。B200集成2080亿个晶体管,是上一代H100的2.6倍,但考虑到体积也增大了,晶体管密度并未翻倍。

业界对英伟达芯片的创新力度和实际性能提升多有讨论。英伟达称GB200在大语言模型推理时比H100性能提升30倍,且减少四分之三能量消耗。黄仁勋举例,使用8000枚其第一代AI芯片训练聊天机器人ChatGPT三个月,将耗能15兆瓦,而使用新一代芯片在同样时长内执行同样任务,仅需2000枚芯片,能耗降低至4兆瓦。

但记者此前参加的一个行业论坛上,一名大模型算力厂商负责人分析称,B200以FP16浮点数计算,算力相比H100大概翻了2倍,功耗则是1.5倍,算下来能效比仅比H100增加约50%,不能只看官方宣称的“GB200性能提升30倍”。

“这件事告诉我们,大模型发展中我们既要看算力又要看成本。功耗最终对应电力,而电力对应成本。”该负责人称。记者了解到,也有业界人士认为,变“大”的英伟达GPU体现了制程进步放缓后的妥协,英伟达已在更多考虑制程之外的改良手段。

英伟达的最新芯片上“缝合”越多改良技术,越体现出芯片厂商对继续优化性能和功耗的渴望。

“芯片制程达到5纳米乃至更先进节点时,晶体管密度提升速度变慢了。”千芯科技董事长陈巍也告诉记者,除了先进制程,GB200还采取两种办法提升算力,一是用chiplet技术将两个裸片(小片晶圆)相连,实现更大等效芯片面积,二是将数据格式从FP8延伸至FP4,通过缩小数据格式获得更多乘法单元。

国内某头部高校研究计算机架构的教授林建华(化名)告诉记者,英伟达新GPU的改良技术既包括存储器HBM采取的3D堆叠技术,又包括chiplet(芯粒)技术。

林建华认为,各种改良办法业内基本都已在尝试了,“需要认识到的是,GPU发展了这么多年,每年都有更新优化,能优化得基本差不多了。在现有技术范围内,只能是有限程度的改进。”

陈巍也认为,英伟达最新一代GPU采取的改良路线,不一定能继续走下去。“FP4基本是大模型能跑的数据精度极限了,继续降低数据格式,Block Float(区块浮点)还能往下走一代,但再往下走两代以上概率非常低。”他告诉记者。

传统冯·诺依曼架构中,内存性能限制GPU性能、能耗增长限制芯片算力,被业内称为“内存墙”和“功耗墙”。

“传统计算机冯·诺依曼架构的存和算分开,计算时需要把数据从存的地方搬至算的地方,再搬回去,期间有功耗损失。高功耗问题由来已久。”林建华告诉记者,“基本可以肯定地说,新计算机架构的颠覆不会在两三年、三五年内出现,这将是一个长时间的探索。”

林建华表示,在GPU之外,对更优能耗和更高性能的探索方向包括光计算、量子计算、DNA计算等,其中,量子计算和光计算还处于萌芽阶段,展望未来需以10年、20年为单位去看。


什么是终极方案?

相比芯片侧需要更长期的探索,在软件系统方面业界则能更快落地。Eric对第一财经表示,国产部分芯片算力效率比较低,主要是软件方面的生态较差。

“本来国产某芯片的跑分可能和英伟达是对标的,但因为软件生态不太完整,很多基础的库不完善,用起来较费劲导致效率不高,所以能发挥出来的性能并不高,特别是在千卡万卡集群训练时尤为明显。”Eric举例表示,训练一个GPT-4,英伟达芯片组10000块卡训练6个月或许能做出来大模型,但用同样数量的、对标英伟达的国产芯片,可能需要更长时间,因为整体系统效率偏低。

训练时的算力利用尤为重要。方法之一是把能用的算力用得更好,如进一步压榨GPU等加速卡的性能;二是把系统的整体利用效率提升,将并行计算框架、调度系统、存储系统、容错系统等核心基础软件协同一起,这需要通过大规模异构系统软件来解决。

国内清程极智、无问芯穹等企业都做这样的尝试。蚂蚁集团这样的大厂也在很早之前建立了绿色计算部门。

蚂蚁集团云原生技术部总经理、绿色计算负责人黄挺对第一财经表示,现在业界公开的、相对较好的训练算力使用效率差不多在60%,40%算力没有被充分利用,通过软件方式提升硬件使用效率还有较大空间。

年初蚂蚁集团一次性宣布了不少这方面的成果,包括开源分布式训练加速扩展库ATorch,相当于一个可让大模型训练更高效的“工具包”,以及和上海交通大学合作发布的技术成果GMLake入选了国际顶会,这项技术将碎片化的显存灵活地拼接起来,可提高33%的GPU可用显存量。

黄挺介绍,当前制约高效训练的因素中,显存容量非常关键,由于GPU运行过程中需要依赖大量的显存,显存不足会导致运算核心闲置。

黄挺给了一个更容易理解的解释,一个GPU一般都会带一个自己的显存,“你可以把它想象成一个箱子,一般一台服务器会有多个GPU,整个集群里会有上万卡的GPU,你就可以看到有无数多的箱子放在里面,实际上很多箱子在使用中有一些空间是没有塞满的。在原来情况下,一个GPU只能使用自己的箱子,旁边的GPU很难去使用其他箱子里空出来的空间,但是通过‘池化’的技术,就可以把所有的箱子组成一个更大的箱子,尽量去填满缝隙。”

在此前的GDC大会上,蚂蚁集团技术专家DLRover负责人王勤龙提到,故障也是大规模训练很难避免的,这会导致GPU算力利用率低的问题。模型参数很大,训练规模一大故障率就高了,“比如一张卡一天的故障率是千分之一,1000张卡一天稳定跑成功概率不到40%。”这些都是软件层需要去解决的问题。

伴随大模型的出现,向量数据库(Vector database)频繁地出现在公众视野。这是一种新型存储方式,被看作 AI基础设施的关键一环,可以让大模型更高效率地存储和读取知识库,并且以更低的成本进行模型微调,对降低能耗也尤为重要。

AI创企Zilliz于 2019 年开源首个向量数据库产品 Milvus,其创始人 & CEO 星爵对第一财经表示,如果将大语言模型看作是新一代的大脑或者处理器,那么向量数据库就是新一代的存储,大模型负责运算,向量数据库负责数据的存储。

大模型企业争相做超长上下文,推理成本会随着文本窗口的长度线性增长,当文本的长度超过了1M的时候,会给计算带来非常大的压力,而这是向量数据库可以发挥作用的地方。

星爵介绍,用向量数据库理论上可以提供无限大的上下文,同时带来能耗的显著下降。这种方式伴随的缺点是,精确程度会有所欠缺。

更乐观一点的看法是,或许未来不必担心能源问题。星爵对第一财经表示,从降低能耗的路径来说,当下提到的一些方案可能都不是最优的。未来更大的希望是在可控核聚变这种技术上有更大的突破,然后理论上可以拥有无穷无尽的能源,能源也会变得很便宜。“我们现在觉得可控核聚变还有50年,但也许只需要15年。”

本文标签: gpu  英伟达  晶体管  功耗墙  人工智能芯片