智譜宣布開源視覺推理模型GLM-4.5V正式上線并開源

作者：集小微 3小時前

來源：鳳凰網(wǎng) #智譜AI# #GLM-4.5V# #開源模型#

1484

鳳凰網(wǎng)科技訊 8月11日，智譜AI推出全球100B級效果最佳的開源視覺推理模型 GLM-4.5V（總參數(shù) 106B，激活參數(shù) 12B），并同步在魔搭社區(qū)與Hugging Face開源。此外，API調(diào)用價格低至輸入2元/M tokens，輸出6元/M tokens。

GLM-4.5V基于智譜新一代旗艦文本基座模型GLM-4.5-Air，延續(xù)GLM-4.1V-Thinking 技術(shù)路線，在41個公開視覺多模態(tài)榜單中綜合效果達到同級別開源模型SOTA性能，涵蓋圖像、視頻、文檔理解以及GUI Agent等常見任務(wù)。比如，GLM-4.5V能夠根據(jù)用戶提問，精準識別、分析、定位目標物體并輸出其坐標框。

據(jù)介紹，多模態(tài)推理被視為通向通用人工智能（AGI）的關(guān)鍵能力之一，讓AI能夠像人類一樣綜合感知、理解與決策。其中，視覺-語言模型（Vision-Language Model, VLM）是實現(xiàn)多模態(tài)推理的核心基礎(chǔ)。