8月1日晚,谷歌推出其迄今最強推理模型Gemini 2.5 Deep Think。
Gemini 2.5 Deep Think主打“多智能體推理”,可生成多個智能體并發(fā)進行推理。作為谷歌首個對公眾開放的多智能體模型,Gemini 2.5 Deep Think核心機制是并行生成多個智能體思考路徑,從中篩選最優(yōu)答案,盡管耗能更大,但推理效果顯著提升。
同時,該版本在日常使用中速度更快、更易用,根據(jù)內(nèi)部評估,在2025年IMO基準測試中仍達到銅牌水平。
此前,谷歌在今年5月的I/O開發(fā)者大會上首次預覽了Gemini 2.5 Deep Think,宣布新版本進行了“重大改進”。在具有挑戰(zhàn)性的編程、科學、知識、推理基準測試中,與OpenAI o3、Grok 4等其他不使用工具的模型相比,Gemini 2.5 Deep Think在LiveCodeBench V6和Humanity’s Last Exam均取得最佳性能。
據(jù)了解,Deep Think支持文本、圖像、音頻、視頻等輸入和1M tokens上下文窗口,輸出長度為192K tokens。其工作原理是利用谷歌的并行思維技術,能同時生成多個想法,并同時進行思考,甚至隨著時間的推移不斷修改或整合不同的想法,最終得出最佳答案。
值得一提的是,Gemini 2.5 Deep Think是最近谷歌在今年國際數(shù)學奧林匹克(IMO)上“拿金牌”的模型的變體,即高級版Gemini Deep Think解答了IMO 6道題目中的5道,總分35分(滿分42分),達到金牌水平。
目前,僅有最高級別的Google AI Ultra訂閱者可選用“Deep Think”,每月訂閱費為249.99美元(約合人民幣1803元)。