用个,打造全球最强集群
ElonMusk的人工智能初创公司xAI已启动位于田纳西州孟菲斯的超级计算机集群,该集群由100,000个NvidiaH100GPU组成。特斯拉首席执行官埃隆·马斯克在社交媒体平台X上的一篇帖子中证实了这一里程碑。
xAI的超级计算机集群预计将用于训练该公司的大型语言模型Grok,该模型目前作为XPremium订阅者的一项功能推出。本月早些时候,马斯克在X上的一篇文章中指出,xAI的Grok3将在100,000个H100GPU上进行训练,因此“这应该是一件非常特别的事情”。
马斯克进一步详细说明,该集群由100,000个液冷H100图形处理单元(GPU)组成,这是Nvidia从去年开始提供的芯片,受到AI模型提供商的高度需求,包括马斯克在OpenAI的竞争对手(和前朋友)。
马斯克还指出,该集群在单个RDMA结构或远程直接内存访问结构上运行,思科指出这是一种在不增加中央处理单元(CPU)负担的情况下在计算节点之间提供更高效、更低延迟的数据传输的方式。
显然,xAI的目标是在超级集群上训练自己的大模型。但更重要的是,用个,打造全球最强集群马斯克在回复中表示,该公司的目标是训练“按各指标衡量世界上最强大的人工智能”,并“在今年12月之前”实现这一目标。
他还发文称,孟菲斯超级集群将为此提供“显著优势”。
5月份,我们报道了马斯克计划在2025年秋季之前开设超级计算工厂的雄心。当时,马斯克急于开始超级集群的开发,因此必须购买当前一代的“Hopper”H100GPU。这似乎表明这位科技巨头没有耐心等待H200芯片的推出,更不用说即将推出的基于Blackwell的B100和B200GPU。尽管人们预计较新的NvidiaBlackwell数据中心GPU将在2024年底之前发货,但情况仍然如此。
那么,如果超级计算工厂预计将于2025年秋季开业,那么今天的新闻是否意味着该项目提前一年实现?确实可能提前了,但更有可能的是,今年早些时候接受路透社和TheInformation采访的消息人士在项目时间方面说错了话或被错误引用了。此外,随着xAI孟菲斯超级集群已经启动并运行,关于xAI为什么不等待更强大或下一代GPU的问题得到了解答。
超微提供了大部分硬件,该公司首席执行官也在马斯克的帖子下发表评论,称赞该团队的执行力。此前,超微CEO最近对马斯克的液冷AI数据中心大加赞赏。
在后续推文中,马斯克解释说,新的超级集群将“训练世界上所有指标中最强大的人工智能”。从之前的意向声明中,我们假设xAI的100,000个H100GPU安装的功能现在将用于Grok3训练。马斯克表示,改进后的LLM应该“在今年12月”完成训练阶段。
如果要将孟菲斯超级集群的计算资源放在某种背景下来看,当然,从规模上看,新的xAI孟菲斯超级集群在GPU马力方面轻松超越了最新Top500榜单上的任何一台超级计算机。世界上最强大的超级计算机,如Frontier(37,888个AMDGPU)、Aurora(60,000个IntelGPU)和MicrosoftEagle(14,400个NvidiaH100GPU),似乎都远远落后于xAI机器。
早在6月初的报道中就披露,xAI将在占地785,000平方英尺的前伊莱克斯孟菲斯工厂建造一个超级计算机集群,非正式地称为“计算超级工厂”。大孟菲斯商会在一份新闻稿中表示,xAI的超级计算机项目是孟菲斯历史上新上市公司在该市进行的最大资本投资。
xAI的投资规模巨大。根据Benzinga的一份报告,每块NvidiaH100GPU的成本估计在30,000至40,000美元之间。考虑到xAI使用了100,000台NvidiaH100单元,埃隆·马斯克的AI初创公司似乎为该项目花费了约30亿至40亿美元。
值得一提的是,ElonMusk旗下的特斯拉已部署了约35,000台NvidiaH100用于训练自动驾驶汽车,并使用其定制的Dojo芯片开发超级计算机。
本文作者:半导体行业观察,来源:半导体行业观察,原文标题:《ElonMusk用100000个H100,打造全球最强集群》
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。