谷歌推最強Gemini推理模型：性能超OpenAI o3和Grok 4，已拿奧賽金牌

作者：陳興華 7小時前

來源：愛集微 #谷歌# #Gemini# #AI#

2091

8月1日晚，谷歌推出其迄今最強推理模型Gemini 2.5 Deep Think。

Gemini 2.5 Deep Think主打“多智能體推理”，可生成多個智能體并發(fā)進行推理。作為谷歌首個對公眾開放的多智能體模型，Gemini 2.5 Deep Think核心機制是并行生成多個智能體思考路徑，從中篩選最優(yōu)答案，盡管耗能更大，但推理效果顯著提升。

同時，該版本在日常使用中速度更快、更易用，根據(jù)內(nèi)部評估，在2025年IMO基準測試中仍達到銅牌水平。

此前，谷歌在今年5月的I/O開發(fā)者大會上首次預覽了Gemini 2.5 Deep Think，宣布新版本進行了“重大改進”。在具有挑戰(zhàn)性的編程、科學、知識、推理基準測試中，與OpenAI o3、Grok 4等其他不使用工具的模型相比，Gemini 2.5 Deep Think在LiveCodeBench V6和Humanity’s Last Exam均取得最佳性能。

據(jù)了解，Deep Think支持文本、圖像、音頻、視頻等輸入和1M tokens上下文窗口，輸出長度為192K tokens。其工作原理是利用谷歌的并行思維技術，能同時生成多個想法，并同時進行思考，甚至隨著時間的推移不斷修改或整合不同的想法，最終得出最佳答案。

值得一提的是，Gemini 2.5 Deep Think是最近谷歌在今年國際數(shù)學奧林匹克（IMO）上“拿金牌”的模型的變體，即高級版Gemini Deep Think解答了IMO 6道題目中的5道，總分35分（滿分42分），達到金牌水平。

目前，僅有最高級別的Google AI Ultra訂閱者可選用“Deep Think”，每月訂閱費為249.99美元（約合人民幣1803元）。