美国芯片初创企业成功融资亿美元
8月6日消息,美国人工智能(AI)芯片初创公司Groq于当地时间周一成功获得了6.4亿美元的D轮融资,以加强其云端大模型推理能力。
据了解,Groq最新一轮融资由BlackRock、NeubergerBerman、TypeOneVentures、CiscoInvestments、GlobalBrain和SamsungT催化剂等公司领投。
这家总部位于美国加利福尼亚州山景城的初创公司成立于2016年,是一家AI芯片生产商,旨在实现高吞吐量、低成本的推理,而不是训练。该公司核心团队来源于谷歌最初的张量处理单元(TPU)工程团队。Groq创始人兼CEOJonathanRoss是谷歌TPU项目的核心研发人员。该公司硬件工程副总裁JimMiller曾是亚马逊云计算服务AWS设计算力硬件的负责人,还曾在英特尔领导了所有PentiumII工程。截至目前,美国芯片初创企业成功融资亿美元Groq总共筹集了超过10亿美元,现在的估值已达28亿美元。
今年2月,Groq推出了全球首个基于LPU(LanguageProcessingUnit)方案的大模型推理芯片,作为一款基于全新的TSA架构的TensorStreamingProcessor(TSP)芯片,旨在提高机器学习和人工智能等计算密集型工作负载的性能。
虽然Groq的LPU并没有采用更本高昂的尖端制程工艺,而是选择了14nm制程,但是凭借自研的TSA架构,GroqLPU芯片具有高度的并行处理能力,可以同时处理数百万个数据流,并该芯片还集成了230MB容量的SRAM来替代DRAM,以保证内存带宽,其片上内存带宽高达80TB/s。
根据官方的数据显示,Groq的LPU芯片的性能表现相当出色,可以提供高达1000TOPS(TeraOperationsPerSecond)的计算能力,并且在某些机器学习模型上的性能表现可以比常规的GPU和TPU提升10到100倍。
Groq表示,基于其LPU芯片的云服务器在Llama2或Mistreal模型在计算和响应速度上远超基于NVIDIAAIGPU的ChatGPT,其每秒可以生成高达500个token。相比之下,目前ChatGPT-3.5的公开版本每秒只能生成大约40个token。由于ChatGPT-3.5主要是基于NVIDIA的GPU,也就是说,GroqLPU芯片的响应速度达到了NVIDIAGPU的10倍以上。Groq表示,相对于其他云平台厂商的大模型推理性能,基于其LPU芯片的云服务器的大模型推理性能最终实现了比其他云平台厂商快18倍。
另外,在能耗方面,英伟达GPU需要大约10到30焦耳才能生成响应中的tokens,而GroqLPU芯片仅需1到3焦耳,在推理速度大幅提升10倍的同时,其能耗成本仅有英伟达GPU的十分之一,这等于是性价比提高了100倍。
Groq的策略是使用光纤互连将数百个LPU拼接在一起,每个LPU都装有片上SRAM。通过使用576个LPU的集群,Groq声称它能够在Meta的Llama270B模型上实现每秒超过300个令牌的生成速率,是具有8个GPU的HGXH100系统的10倍,同时消耗十分之一的功率。
Groq公司在演示中展示了其芯片的强大性能,支持MistralAI的Mixtral8x7BSMoE,以及Meta的Llama2的7B和70B等多种模型,支持使用4096字节的上下文长度,并可直接体验Demo。不仅如此,Groq还喊话各大公司,扬言在三年内超越英伟达。目前该公司的LPU推理芯片在第三方网站上的售价为2万多美元,低于NVIDIAH100的2.5-3万美元。
编辑:芯智讯-浪客剑