5月,全球大模型熱度激增,數(shù)得上名號的幾個大模型玩家,如OpenAI、谷歌、阿里、百度、字節(jié)、騰訊等,均一窩蜂地釋出大動作,或者全面升級,或者開源免費,或者低價搶市,讓原本就激戰(zhàn)正酣的大模型市場,再掀新高潮。同時,記者也注意到,近期大模型廠商有向個人助手、智能體平臺延伸的趨勢,推動著其他廠商開始跟進。在長文模型、多模態(tài)之后,“AI智能體”有望成為新的焦點。
國際國內(nèi)大模型激戰(zhàn)加劇
國際上,OpenAI搶在谷歌之前,率先推出全面升級的GPT-4o版本大模型,展示了毫秒級反應和多模態(tài)交互的新能力。隨后,谷歌在其I/O開發(fā)者大會上展示了AI助手Astra和旗艦大模型Gemini。在國內(nèi),阿里云于5月9日正式發(fā)布通義千問2.5;5月15日字節(jié)跳動發(fā)布豆包大模型;5月17日騰訊云展示基于混元大模型的一站式AI智能體創(chuàng)作與分發(fā)平臺騰訊元器;更早的4月15日,百度推出了AgentBuilder、AppBuilder、ModelBuilder三大開發(fā)工具。
GPT-4o是OpenAI最新發(fā)布的版本。它在保持GPT-4級別的智能的同時,對文本、視覺和音頻功能進行了改進,可以實時響應用戶的語音提問,讓交互體驗變得更自然、更簡單。GPT-4o還增強了ChatGPT的視覺功能,通過照片或屏幕截圖,ChatGPT現(xiàn)在可以迅速回答相關問題。OpenAI還表示,GPT-4o的多語言功能得到了增強,在50種不同的語言中表現(xiàn)更佳。在OpenAI的API中,GPT-4o的處理速度是GPT-4(特別是GPT-4 Turbo)的兩倍。
谷歌則憑借新推出的AI助手Project Astra展開反擊。這款AI智能體產(chǎn)品不僅支持實時對話,還能通過視頻聊天的方式與用戶進行交互。Project Astra能夠被集成于智能手機、臺式電腦等設備中,谷歌也在探索將其嵌入到智能眼鏡或其他設備。為Project Astra提供支持的是谷歌的Gemini 1.5 Pro模型。在過去的幾個月里,谷歌除了將Gemini 1.5 Pro上下文窗口擴展到200萬token之外,還通過數(shù)據(jù)和算法的改進增強了其代碼生成、邏輯推理和規(guī)劃、多輪對話以及音頻和圖像理解能力?,F(xiàn)在,1.5 Pro可以對Google AI Studio中上傳的視頻圖像和音頻進行推理。
阿里云智能集團首席技術官周靖人表示,新發(fā)布的通義千問2.5版本,理解能力、邏輯能力、指令遵循和代碼能力都進一步增強。據(jù)悉,新版經(jīng)過權威基準OpenCompass評測,中文性能比如文本理解、文本生成、知識問答等多個方面,已全面趕超GPT-4 Turbo。通義APP單次可處理高達1000萬字的長文本,并能同時解析100份不同格式的文檔。在音視頻理解能力上,能夠同時上傳50個音視頻文件,并對其進行包括內(nèi)容識別理解、摘要總結(jié)、多語言翻譯在內(nèi)的多項處理。在代碼編程能力上,集成智能編碼助手通義靈碼,幫助用戶提高編碼效率。
豆包大模型可以提供多模態(tài)能力的模型產(chǎn)品,目前涵蓋通用模型pro、通用模型lite、語音識別模型、語音合成模型、文生圖模型等九款模型。字節(jié)跳動還基于豆包大模型打造了AI對話助手“豆包”、AI應用開發(fā)平臺“扣子”、互動娛樂應用“貓箱”,以及星繪、即夢等AI創(chuàng)作工具,并把大模型接入抖音、番茄小說、飛書、巨量引擎等50余個業(yè)務。火山引擎總裁譚待介紹,經(jīng)過一年時間的迭代和市場驗證,豆包大模型正成為國內(nèi)使用量最大、應用場景最豐富的大模型之一,目前日均處理1200億Tokens文本,生成3000萬張圖片。
騰訊元器作為一站式AI智能體創(chuàng)作與分發(fā)平臺,企業(yè)和開發(fā)者可以基于其直接創(chuàng)建智能體,使用騰訊官方的插件和知識庫,還能將這些智能體一鍵分發(fā)到QQ、微信客服、騰訊云等渠道中。騰訊還同時發(fā)布了多個版本的模型,如hunyuan-pro、hunyuan-standard、hunyuan-lite,其中hunyuan-standard具備256k的超長上下文理解能力,單次處理字符數(shù)超過38萬個。
“AI智能體”成為新焦點
近來,有關AI智能體的話題很熱,不僅是大模型廠商,各類終端廠商也在推出不同帶有AI智能體性質(zhì)的產(chǎn)品。未來AI Agent有望成為AI應用層的基本架構,“Agent+”的產(chǎn)品將會越來越多。
在OpenAI此前發(fā)布的產(chǎn)品中,有兩個產(chǎn)品可以當作類似AI智能體工具使用,GPTs和Assistant API。它們同時支持接入自定義的接口和數(shù)據(jù),前者可以在界面直接操作,后者則是一個API。GPTs為OpenAI在去年首屆開發(fā)者大會上推出,用戶可以添加知識、操作和說明,并發(fā)布以供其他人使用。Assistants API則是一個全面的API開發(fā)助手,是OpenAI專門設計的用于幫助開發(fā)者在自己的程序中構建Agent的工具,并提供了“代碼解釋器”“檢索”和“函數(shù)調(diào)用”三項功能。
最新發(fā)布的GPT-4o則顯著提升了使用體驗,讓用戶能夠更像與助手互動一樣自然地使用ChatGPT。OpenAI首席技術官Muri Murati說:“我們知道這些模型越來越復雜,但我們希望交互體驗變得更自然、更簡單,讓你完全不用關注用戶界面,而只關注與GPT的協(xié)作。這一點非常重要,因為我們正在展望人類與機器之間互動的未來。”
騰訊元器也瞄準智能體應用,通過模仿人的決策過程,可以個性化定制,讓使用者擁有一個24小時待命的全能助手。多個版本的模型包括hunyuan-pro、hunyuan-standard、hunyuan-lite,通過騰訊云對外開放,滿足企業(yè)客戶、開發(fā)者在不同場景下的模型需求,落地最優(yōu)性價比模型方案。百度則在今年4月份上線了文心智能體平臺AgentBuilder,支持零代碼、低代碼兩種模式,商家用幾句話就能生成智能體。
AI智能體,顧名思義就是具有一種能夠自動完成各種任務的軟件。不同于傳統(tǒng)的人工智能,AI智能體具備通過獨立思考、調(diào)用工具去逐步完成給定目標的能力。它可以理解自然語言,也可以根據(jù)用戶的需求和喜好來提供個性化的服務。相較于人們熟悉的Copilot模式,例如Siri,AI智能體更加獨立。目前的各家均致力于推出人工智能助理,希望設備不再只是機械地完成人類指令,而是可以參與人類工作流,為諸如編寫代碼、策劃活動、優(yōu)化流程等事項提供建議,與人類協(xié)同完成。遠期目標是,當人類給出一個工作目標后,AI智能體就能夠針對目標獨立思考并會根據(jù)給定任務詳細拆解出每一步的計劃步驟,依靠來自外界的反饋和自主思考,自己給自己創(chuàng)建prompt,來實現(xiàn)目標。
當前仍處“弱人工智能”階段
一般認為人工智能的發(fā)展將經(jīng)歷三個階段,即第一個階段的大語言模型,第二階段的多模態(tài),以及第三階段的AI 智能體。大語言模型,就像大腦,能夠跟人們對話;到了第二階段等于多了感官,如眼睛、耳朵等,能夠接收到更多類型的資訊,包括圖片、聲音,能夠更深入地理解人們的意圖。而AI智能體的階段,除了可以接收外界信息、有了感官之外,還能夠做執(zhí)行。
在ChatGPT浪潮席卷全球之時,很多人認為大模型距離真正的通用人工智能AGI已經(jīng)非常接近,很多廠商都投入了基礎大模型的研究。但經(jīng)過了一段時間后,大家對大模型真實的能力邊界有了清晰的認知,發(fā)現(xiàn)大模型仍存在大量的問題如幻覺、上下文容量限制等,導致其無法直接通向AGI,于是AI智能體正在成為了新的研究方向。人們希望通過讓大模型借助一個或多個AI智能體的能力,構建成為具備自主思考決策和執(zhí)行能力的智能體,繼續(xù)實現(xiàn)通往AGI的道路。AI智能體有可能成為未來一段時間AI研究的前沿方向。
不過,相關專家指出,AI智能體也分為弱人工智能和強人工智能。現(xiàn)在大多數(shù)人使用大語言模型,仍然是輸入一段提示詞,然后得到大模型生成的一段答案。這個過程就像你讓一個人編寫一篇文章,你設計一個個“提示詞”,引導他不停敲打鍵盤,直到將文章完成。弱AI智能體依然無法擺脫這樣的窠臼。AI智能體的發(fā)展改善著這一過程。它會先生成關于文章主題的提綱,然后搜集資料,寫出初稿,閱讀生成的初稿,思考哪些部分需要修改。然后修改初稿,繼續(xù)這個過程。整個工作流程是不斷迭代的。人工智能越強,其獨立性也越強。