推理模型界的“六边形战士”来了,这次OpenAI的咖啡杯可能要抖三抖。
文 | Q58论坛科技观察组
一、模型发布即“屠榜”,刷新行业认知
谷歌于3月25日发布Gemini 2.5 Pro实验版本,该模型在大模型竞技场(LMSYS Arena)以1443分登顶,并以39分的断层优势创下该榜单历史最大分差纪录。相比OpenAI的o3-mini、Claude 3.7 Sonnet等竞品,其得分提升比例最高达34%。
二、三大性能亮点引关注
- 推理能力全面领先:在编程、数学及科学基准测试中,Gemini 2.5 Pro均表现优异。例如,在超高难度测试“Humanity’s Last Exam”中,其得分较o3-mini提升近5%,且编程能力可对标Claude 3.7 Sonnet。
- 原生多模态与长文本处理:支持100万tokens上下文窗口(即将扩展至200万),可同时解析文本、音频、图像、视频及代码库,并处理TB级数据集。
- 响应速度与稳定性:测试显示,该模型平均响应耗时控制在50秒,中位分与极限分差距仅2%,远超Claude 3.7 Sonnet的6%分差。
三、技术架构突破行业瓶颈
Gemini 2.5 Pro采用深度强化学习与思维链提示技术,在基础模型和后训练算法上实现双重升级。其核心突破包括:
- 通过算法优化提升复杂任务推理能力;
- 整合跨模态数据解析技术,支持多源信息融合;
- 降低模型响应延迟,提升商业化落地可行性。
四、开发者与普通用户如何获取
目前,Gemini 2.5 Pro已面向开发者开放于Google AI Studio平台,并将于未来几周内登陆Vertex AI。普通用户需订阅每月20美元的Gemini Advanced服务方可体验。谷歌计划近期公布模型定价及高速率版本细节。
五、行业竞争格局生变
此次发布被视为谷歌对OpenAI“o”系列模型的强力反击。业内人士分析,Gemini 2.5 Pro的推出可能加速AI代理(AI Agent)的普及,但其高计算成本仍是商业化挑战。随着DeepSeek等企业持续施压,大模型“推理能力军备竞赛”已进入白热化阶段。
[1] 谷歌史上最强推理模型全面屠榜!击败DeepSeek断层…-ZAKER新闻
[3] DeepSeek逼出谷歌新推理模型:40分优势超GPT4.5登顶竞技场
[4] Gemini 2.5 Pro深夜突然上线,榜单全刷爆了!恐怖如斯 - 今天看啥
[7] 谷歌发布Gemini 2.5系列模型 登顶多项AI基准测试-腾讯新闻
[10] 谷歌深夜放大招!Gemini 2.5 Pro 震撼登场,OpenAI 压力山大?