OpenAI發(fā)布新AI模型o3與o4-mini 首度具備圖像推理能力

作者：愛(ài)集微 04-17 07:27

來(lái)源：鉅亨網(wǎng) #OpenAI#

3862

美國(guó)人工智能 (AI) 公司 OpenAI 于周三 (16 日) 正式推出全新一代模型“o3”，并同步發(fā)表體積更小、成本更低的“o4-mini”。這兩款模型為 OpenAI 首度具備“以圖像進(jìn)行推理”能力的系統(tǒng)，象征其在多模態(tài) AI 領(lǐng)域邁出重要一步。

與過(guò)去僅能處理文字輸入的模型不同，o3 能夠分析白板筆記、手繪草圖、簡(jiǎn)單圖表等視覺(jué)資訊，即使畫質(zhì)不佳也能理解其邏輯關(guān)系。OpenAI 表示，這代表模型不只是“看懂圖片”，而是能將圖像資訊整合進(jìn)邏輯推理流程中，進(jìn)一步提升處理復(fù)雜問(wèn)題的能力。

根據(jù) OpenAI 的說(shuō)明，o3 特別優(yōu)化于數(shù)學(xué)解題、程式設(shè)計(jì)、科學(xué)應(yīng)用與視覺(jué)理解任務(wù)，并具備執(zhí)行圖像旋轉(zhuǎn)、放大與標(biāo)注等功能。o4-mini 則主打更快的運(yùn)行速度與更低的成本，適合開(kāi)發(fā)者與商業(yè)用戶部署在彈性預(yù)算的場(chǎng)景中。

兩款模型已即日起開(kāi)放給 ChatGPT Plus、Pro 與 Team 方案的用戶使用。

OpenAI 執(zhí)行長(zhǎng)阿特曼 (Sam Altman) 也于 X(前推特)上幽默表示：“我們會(huì)在夏天之前解決命名混亂的問(wèn)題，大家可以再笑我們幾個(gè)月沒(méi)關(guān)系”，回應(yīng)社群長(zhǎng)期以來(lái)對(duì)模型命名如 o1、o2、GPT-4.1 的玩笑聲浪。

目前 OpenAI 的估值約達(dá) 3,000 億美元，為全球生成式 AI 領(lǐng)域的領(lǐng)頭羊。自 2022 年底推出 ChatGPT 以來(lái)，公司積極拓展 AI 的多模態(tài)應(yīng)用，從文字?jǐn)U展至語(yǔ)音、圖像甚至影片生成。根據(jù)官方說(shuō)法，o3 是首款能自主調(diào)用 ChatGPT 所有內(nèi)建工具的模型，包括 Python 運(yùn)算、網(wǎng)頁(yè)查詢、圖像生成與分析，使其能處理跨領(lǐng)域、跨步驟的復(fù)雜任務(wù)。

值得注意的是，OpenAI 過(guò)去幾周也針對(duì)其安全機(jī)制進(jìn)行多項(xiàng)調(diào)整。官方表示，o3 與 o4-mini 已通過(guò)其“歷來(lái)最嚴(yán)格”的安全測(cè)試，并遵循最新更新的“準(zhǔn)備度框架”。然而，OpenAI 同時(shí)也宣布未來(lái)部分微調(diào)模型將不再?gòu)?qiáng)制發(fā)布完整安全測(cè)試報(bào)告 (Model Card)，此舉引發(fā)外界對(duì)其安全標(biāo)準(zhǔn)可能放寬的質(zhì)疑。

盡管面臨監(jiān)管與道德風(fēng)險(xiǎn)的雙重壓力，OpenAI 此次發(fā)布的新模型，顯示其持續(xù)朝著更高推理能力、更深整合應(yīng)用，以及邁向自主 AI 的方向快速邁進(jìn)。