推理时代终结?世界最大芯片加持推理狂飙倍英伟达也被干趴
-
推理时代终结?世界最大芯片加持推理狂飙倍,英伟达也被干趴
新智元报道编辑:桃子好困【新智元导读】LLM若以每秒1000 token高速推理,当前最先进的GPU根本无法实现!CerebrasInference一出世,推理速度赶超英伟达GPU,背靠自研的世界最大芯片加持。而且,还将推理价格打了下来。LLM若想高速推理,现如今,连GPU都无法满足了?曾造出世界最大芯片公司Cerebras,刚刚发布了全球最快的AI推理架构——CerebrasInference。运行Llama3.18B时,它能以1800token/s的速率吐出文字。不论是总结文档,还是代码生成等任务,响应几乎一闪...