美國(guó)人工智能 (AI) 公司 OpenAI 于周三 (16 日) 正式推出全新一代模型“o3”,并同步發(fā)表體積更小、成本更低的“o4-mini”。這兩款模型為 OpenAI 首度具備“以圖像進(jìn)行推理”能力的系統(tǒng),象征其在多模態(tài) AI 領(lǐng)域邁出重要一步。
與過(guò)去僅能處理文字輸入的模型不同,o3 能夠分析白板筆記、手繪草圖、簡(jiǎn)單圖表等視覺(jué)資訊,即使畫質(zhì)不佳也能理解其邏輯關(guān)系。OpenAI 表示,這代表模型不只是“看懂圖片”,而是能將圖像資訊整合進(jìn)邏輯推理流程中,進(jìn)一步提升處理復(fù)雜問(wèn)題的能力。
根據(jù) OpenAI 的說(shuō)明,o3 特別優(yōu)化于數(shù)學(xué)解題、程式設(shè)計(jì)、科學(xué)應(yīng)用與視覺(jué)理解任務(wù),并具備執(zhí)行圖像旋轉(zhuǎn)、放大與標(biāo)注等功能。o4-mini 則主打更快的運(yùn)行速度與更低的成本,適合開(kāi)發(fā)者與商業(yè)用戶部署在彈性預(yù)算的場(chǎng)景中。
兩款模型已即日起開(kāi)放給 ChatGPT Plus、Pro 與 Team 方案的用戶使用。
OpenAI 執(zhí)行長(zhǎng)阿特曼 (Sam Altman) 也于 X(前推特)上幽默表示:“我們會(huì)在夏天之前解決命名混亂的問(wèn)題,大家可以再笑我們幾個(gè)月沒(méi)關(guān)系”,回應(yīng)社群長(zhǎng)期以來(lái)對(duì)模型命名如 o1、o2、GPT-4.1 的玩笑聲浪。
目前 OpenAI 的估值約達(dá) 3,000 億美元,為全球生成式 AI 領(lǐng)域的領(lǐng)頭羊。自 2022 年底推出 ChatGPT 以來(lái),公司積極拓展 AI 的多模態(tài)應(yīng)用,從文字?jǐn)U展至語(yǔ)音、圖像甚至影片生成。根據(jù)官方說(shuō)法,o3 是首款能自主調(diào)用 ChatGPT 所有內(nèi)建工具的模型,包括 Python 運(yùn)算、網(wǎng)頁(yè)查詢、圖像生成與分析,使其能處理跨領(lǐng)域、跨步驟的復(fù)雜任務(wù)。
值得注意的是,OpenAI 過(guò)去幾周也針對(duì)其安全機(jī)制進(jìn)行多項(xiàng)調(diào)整。官方表示,o3 與 o4-mini 已通過(guò)其“歷來(lái)最嚴(yán)格”的安全測(cè)試,并遵循最新更新的“準(zhǔn)備度框架”。然而,OpenAI 同時(shí)也宣布未來(lái)部分微調(diào)模型將不再?gòu)?qiáng)制發(fā)布完整安全測(cè)試報(bào)告 (Model Card),此舉引發(fā)外界對(duì)其安全標(biāo)準(zhǔn)可能放寬的質(zhì)疑。
盡管面臨監(jiān)管與道德風(fēng)險(xiǎn)的雙重壓力,OpenAI 此次發(fā)布的新模型,顯示其持續(xù)朝著更高推理能力、更深整合應(yīng)用,以及邁向自主 AI 的方向快速邁進(jìn)。