和哪个大?刚官宣的竟然也翻车了新榜
果然能革OpenAI命的,只有OpenAI自己。
今天凌晨,OpenAI突然官宣了新模型GPT-4omini,更小、更快、更强,价格却大跳水!直接取代GPT-3.5Turbo作为ChatGPT入门级模型。
无论是免费还是付费用户,现在打开ChatGPT,你会发现GPT-3.5已经被GPT-4omini全面取代。
在性能方面,GPT-4omini支持128Ktoken上下文窗口,支持与GPT-4o相同范围的语言,在多个关键基准测试中超越GPT-3.5Turbo,以及同类型竞品Claude3Haiku和Gemini1.5Flash。
价格也是独一档的存在。GPT-4omini商用价格为:15美分/每百万输入token,60美分/每百万输出token,比GPT-3.5Turbo便宜60%以上,比GPT-4o便宜96%-97%。
目前,GPT-4omini已面向ChatGPT免费、Plus和Team用户开放,企业用户将从下周开始获得访问权限。
OpenAI官方表示,希望通过该模型让更多公司和项目能够以更低成本构建和扩展AI应用。
SamAltman在X上称,智能技术成本正在变得几乎可以忽略不计。
OpenAI产品API主管OlivierGodement则表示:“要想让世界的每一个角落都能被人工智能赋能,我们就必须让模型的价格更加亲民。我认为GPT-4omini确实是朝着这个方向迈出的一大步。”
小模型中的战斗机
根据GPT-4omini在多个关键基准测试中的得分,可以看出,其在文本和多模态推理、逻辑推理、数学和编程等方面均表现出色,优于市场上其他小型模型。
推理任务:在文本智能和推理基准MMLU中,GPT-4omini的得分为82.0%,而GeminiFlash的得分为77.9%,ClaudeHaiku的得分为73.8%。在LMSYS排行榜的聊天方面,GPT-4omini的得分甚至优于GPT-4。数学和编码能力:在MGSM数学推理测试中,GPT-4omini的得分为87.0%,而GeminiFlash的得分为75.5%,ClaudeHaiku的得分为71.7%。在HumanEval编程性能测试中,GPT-4omini的得分为87.2%,而GeminiFlash的得分为71.5%,ClaudeHaiku的得分为75.9%。多模态推理:在MMMU多模态推理评估中,GPT-4omini的得分为59.4%,而GeminiFlash和ClaudeHaiku的得分分别为56.1%和50.2%。目前,GPT-4o-mini在API(应用程序编程接口)中支持文本和视觉,未来将支持文本、图像、视频和音频输入和输出。
我分别让GPT-4omini模仿刘慈欣《三体》的风格写一篇1500字的科幻故事,来感受一下这强烈的“推背感”:
紧接着,我又问了一个最近难倒一众大模型(包括GPT-4o)的问题:9.11和9.9哪个大?
没想到,数学尖子生GPT-4omini竟然也翻车了,我换了两种问法都没答对。
月之暗面曾在回应“Kimi认为9.11大于9.9”时称:“我们非常期待用户在使用中能够发现和报告更多的边界案例(CornerCase),不管是最近的‘9.9和9.11哪个大、13.8和13.11哪个大’,还是之前的‘strawberry有几个r’,这些边界案例的发现,有助于我们增加对大模型能力边界的了解。”
此外,在安全性方面,GPT-4omini内置了与GPT-4o相同的安全措施。据悉,有70多名社会心理学和错误信息等领域的外部专家对GPT-4o进行了测试,以评估潜在风险,提高GPT-4o和GPT-4omini的安全性。
性价比独一档
为了抢占市场份额,国内外大模型厂商“价格战”正酣。
但目前来看,GPT-4omini的性价比堪称独一档的存在:
据ArtificialAnalysis统计,GPT-4omini的价格已经达到美国主流AI“小模型”最低,比Claude3Haiku和Gemini1.5Flash都要便宜一截。
反观国内,近两个月,和哪个大?刚官宣的竟然也翻车了新榜阿里、字节、腾讯等模型厂商相继推出新模型,并宣布降价甚至免费。
5月9日,阿里发布通义千问2.5,个人用户可从App、官网和小程序免费使用;5月11日,智谱大模型官宣降价,入门级产品GLM-3Turbo模型,百万Tokens调用价格从5元降至1元,降幅高达80%;5月15日,字节发布豆包大模型,比行业平均价格便宜99.3%,推动大模型从“以分计价”,进入“以厘计价”阶段;5月21日,阿里宣布9款大模型降价,百度宣布文心大模型两大主力模型ERNIESpeed、ERNIELite全面免费时代。5月22日,科大讯飞宣布讯飞星火LiteAPI永久免费开放,腾讯云公布大模型升级方案,主力模型之一调整为免费。随着AI技术的快速发展、算法的改进,模型训练和推理效率得到提升,大模型的成本有所降低,为降价提供了可能。
虽然蛋糕很大,但为了在激烈的市场竞争中抢占更多的市场份额,尤其是在大模型性能差异不大、能力对齐较快的情况下,价格战似乎是不可避免的。
通过降价吸引更多用户,通过降低API调用成本吸引更多开发者,可以形成规模效应,从而进一步摊薄训练和推理成本。此外,更多的用户使用数据,也有助于进一步优化和训练模型。
当然了,殊途同归,模型降本增效是一件普惠的事,有利于推动AI技术的普及和应用。但在降价的同时,模型厂商需要不断自我超越,才能确保可持续发展。在这一点上,可以说OpenAI起了个带头示范的作用。