再成榜一大哥:模型驾驭数学等任务

IT之家9月20日消息,科技媒体TheDecoder昨日(9月19日)发布博文,报道称在聊天机器人竞技场(ChatbotArena)上,OpenAI的新人工智能模型o1-preview和o1-mini问鼎榜首。

聊天机器人竞技场简介

聊天机器人竞技场是一个比较人工智能模型的平台,它利用6000多个社区评分对新的OpenAI系统进行了评估。

结果

结果显示,o1-preview和o1-mini尤其在数学任务、复杂提示和编程方面表现出色。

Lmsys提供的数学模型优势图表清楚地显示,o1-preview和o1-mini的得分超过1360分,远高于其他模型的表现。IT之家附上相关截图如下:

O1的目标是为人工智能推理设定一个通用新标准,即在回答前“思考”"更长时间。

然而,O1模型并非在所有方面都优于GPT-4o。许多任务并不需要复杂的逻辑推理,有时GPT-4o的反应更快。

注意事项

o1-preview和o1-mini的票数远低于GPT-4o或Anthropic'sClaude3.5等成熟模型,每个模型都只有不到3000条评论,再成榜一大哥:模型驾驭数学等任务这样小的样本量可能无法准确代表实际结果,限制结果的意义。

免责声明:本网站部分内容由用户自行上传,若侵犯了您的权益,请联系我们处理,谢谢!联系QQ:2760375052

分享:

扫一扫在手机阅读、分享本文

佳节

这家伙太懒。。。

  • 暂无未发布任何投稿。