鳳凰網(wǎng)科技訊 8月11日,智譜AI推出全球100B級效果最佳的開源視覺推理模型 GLM-4.5V(總參數(shù) 106B,激活參數(shù) 12B),并同步在魔搭社區(qū)與Hugging Face開源。此外,API調(diào)用價格低至輸入2元/M tokens,輸出6元/M tokens。
GLM-4.5V基于智譜新一代旗艦文本基座模型GLM-4.5-Air,延續(xù)GLM-4.1V-Thinking 技術(shù)路線,在41個公開視覺多模態(tài)榜單中綜合效果達到同級別開源模型SOTA性能,涵蓋圖像、視頻、文檔理解以及GUI Agent等常見任務(wù)。比如,GLM-4.5V能夠根據(jù)用戶提問,精準識別、分析、定位目標物體并輸出其坐標框。
據(jù)介紹,多模態(tài)推理被視為通向通用人工智能(AGI)的關(guān)鍵能力之一,讓AI能夠像人類一樣綜合感知、理解與決策。其中,視覺-語言模型(Vision-Language Model, VLM)是實現(xiàn)多模態(tài)推理的核心基礎(chǔ)。