大模型激戰(zhàn)迎來新高度 “AI智能體”成為新焦點

作者：陳炳欣 2024-05-22

來源：愛集微 #大模型# #OpenAI# #通義千問# #豆包大模型# #AI智能體#

4.7w

5月，全球大模型熱度激增，數(shù)得上名號的幾個大模型玩家，如OpenAI、谷歌、阿里、百度、字節(jié)、騰訊等，均一窩蜂地釋出大動作，或者全面升級，或者開源免費，或者低價搶市，讓原本就激戰(zhàn)正酣的大模型市場，再掀新高潮。同時，記者也注意到，近期大模型廠商有向個人助手、智能體平臺延伸的趨勢，推動著其他廠商開始跟進。在長文模型、多模態(tài)之后，“AI智能體”有望成為新的焦點。

國際國內(nèi)大模型激戰(zhàn)加劇

國際上，OpenAI搶在谷歌之前，率先推出全面升級的GPT-4o版本大模型，展示了毫秒級反應和多模態(tài)交互的新能力。隨后，谷歌在其I/O開發(fā)者大會上展示了AI助手Astra和旗艦大模型Gemini。在國內(nèi)，阿里云于5月9日正式發(fā)布通義千問2.5；5月15日字節(jié)跳動發(fā)布豆包大模型；5月17日騰訊云展示基于混元大模型的一站式AI智能體創(chuàng)作與分發(fā)平臺騰訊元器；更早的4月15日，百度推出了AgentBuilder、AppBuilder、ModelBuilder三大開發(fā)工具。

GPT-4o是OpenAI最新發(fā)布的版本。它在保持GPT-4級別的智能的同時，對文本、視覺和音頻功能進行了改進，可以實時響應用戶的語音提問，讓交互體驗變得更自然、更簡單。GPT-4o還增強了ChatGPT的視覺功能，通過照片或屏幕截圖，ChatGPT現(xiàn)在可以迅速回答相關問題。OpenAI還表示，GPT-4o的多語言功能得到了增強，在50種不同的語言中表現(xiàn)更佳。在OpenAI的API中，GPT-4o的處理速度是GPT-4(特別是GPT-4 Turbo)的兩倍。

谷歌則憑借新推出的AI助手Project Astra展開反擊。這款AI智能體產(chǎn)品不僅支持實時對話，還能通過視頻聊天的方式與用戶進行交互。Project Astra能夠被集成于智能手機、臺式電腦等設備中，谷歌也在探索將其嵌入到智能眼鏡或其他設備。為Project Astra提供支持的是谷歌的Gemini 1.5 Pro模型。在過去的幾個月里，谷歌除了將Gemini 1.5 Pro上下文窗口擴展到200萬token之外，還通過數(shù)據(jù)和算法的改進增強了其代碼生成、邏輯推理和規(guī)劃、多輪對話以及音頻和圖像理解能力?，F(xiàn)在，1.5 Pro可以對Google AI Studio中上傳的視頻圖像和音頻進行推理。

阿里云智能集團首席技術官周靖人表示，新發(fā)布的通義千問2.5版本，理解能力、邏輯能力、指令遵循和代碼能力都進一步增強。據(jù)悉，新版經(jīng)過權威基準OpenCompass評測，中文性能比如文本理解、文本生成、知識問答等多個方面，已全面趕超GPT-4 Turbo。通義APP單次可處理高達1000萬字的長文本，并能同時解析100份不同格式的文檔。在音視頻理解能力上，能夠同時上傳50個音視頻文件，并對其進行包括內(nèi)容識別理解、摘要總結(jié)、多語言翻譯在內(nèi)的多項處理。在代碼編程能力上，集成智能編碼助手通義靈碼，幫助用戶提高編碼效率。

豆包大模型可以提供多模態(tài)能力的模型產(chǎn)品，目前涵蓋通用模型pro、通用模型lite、語音識別模型、語音合成模型、文生圖模型等九款模型。字節(jié)跳動還基于豆包大模型打造了AI對話助手“豆包”、AI應用開發(fā)平臺“扣子”、互動娛樂應用“貓箱”，以及星繪、即夢等AI創(chuàng)作工具，并把大模型接入抖音、番茄小說、飛書、巨量引擎等50余個業(yè)務。火山引擎總裁譚待介紹，經(jīng)過一年時間的迭代和市場驗證，豆包大模型正成為國內(nèi)使用量最大、應用場景最豐富的大模型之一，目前日均處理1200億Tokens文本，生成3000萬張圖片。

騰訊元器作為一站式AI智能體創(chuàng)作與分發(fā)平臺，企業(yè)和開發(fā)者可以基于其直接創(chuàng)建智能體，使用騰訊官方的插件和知識庫，還能將這些智能體一鍵分發(fā)到QQ、微信客服、騰訊云等渠道中。騰訊還同時發(fā)布了多個版本的模型，如hunyuan-pro、hunyuan-standard、hunyuan-lite，其中hunyuan-standard具備256k的超長上下文理解能力，單次處理字符數(shù)超過38萬個。

“AI智能體”成為新焦點

近來，有關AI智能體的話題很熱，不僅是大模型廠商，各類終端廠商也在推出不同帶有AI智能體性質(zhì)的產(chǎn)品。未來AI Agent有望成為AI應用層的基本架構，“Agent+”的產(chǎn)品將會越來越多。

在OpenAI此前發(fā)布的產(chǎn)品中，有兩個產(chǎn)品可以當作類似AI智能體工具使用，GPTs和Assistant API。它們同時支持接入自定義的接口和數(shù)據(jù)，前者可以在界面直接操作，后者則是一個API。GPTs為OpenAI在去年首屆開發(fā)者大會上推出，用戶可以添加知識、操作和說明，并發(fā)布以供其他人使用。Assistants API則是一個全面的API開發(fā)助手，是OpenAI專門設計的用于幫助開發(fā)者在自己的程序中構建Agent的工具，并提供了“代碼解釋器”“檢索”和“函數(shù)調(diào)用”三項功能。

最新發(fā)布的GPT-4o則顯著提升了使用體驗，讓用戶能夠更像與助手互動一樣自然地使用ChatGPT。OpenAI首席技術官Muri Murati說：“我們知道這些模型越來越復雜，但我們希望交互體驗變得更自然、更簡單，讓你完全不用關注用戶界面，而只關注與GPT的協(xié)作。這一點非常重要，因為我們正在展望人類與機器之間互動的未來。”

騰訊元器也瞄準智能體應用，通過模仿人的決策過程，可以個性化定制，讓使用者擁有一個24小時待命的全能助手。多個版本的模型包括hunyuan-pro、hunyuan-standard、hunyuan-lite，通過騰訊云對外開放，滿足企業(yè)客戶、開發(fā)者在不同場景下的模型需求，落地最優(yōu)性價比模型方案。百度則在今年4月份上線了文心智能體平臺AgentBuilder，支持零代碼、低代碼兩種模式，商家用幾句話就能生成智能體。

AI智能體，顧名思義就是具有一種能夠自動完成各種任務的軟件。不同于傳統(tǒng)的人工智能，AI智能體具備通過獨立思考、調(diào)用工具去逐步完成給定目標的能力。它可以理解自然語言，也可以根據(jù)用戶的需求和喜好來提供個性化的服務。相較于人們熟悉的Copilot模式，例如Siri，AI智能體更加獨立。目前的各家均致力于推出人工智能助理，希望設備不再只是機械地完成人類指令，而是可以參與人類工作流，為諸如編寫代碼、策劃活動、優(yōu)化流程等事項提供建議，與人類協(xié)同完成。遠期目標是，當人類給出一個工作目標后，AI智能體就能夠針對目標獨立思考并會根據(jù)給定任務詳細拆解出每一步的計劃步驟，依靠來自外界的反饋和自主思考，自己給自己創(chuàng)建prompt，來實現(xiàn)目標。

當前仍處“弱人工智能”階段

一般認為人工智能的發(fā)展將經(jīng)歷三個階段，即第一個階段的大語言模型，第二階段的多模態(tài)，以及第三階段的AI 智能體。大語言模型，就像大腦，能夠跟人們對話；到了第二階段等于多了感官，如眼睛、耳朵等，能夠接收到更多類型的資訊，包括圖片、聲音，能夠更深入地理解人們的意圖。而AI智能體的階段，除了可以接收外界信息、有了感官之外，還能夠做執(zhí)行。

在ChatGPT浪潮席卷全球之時，很多人認為大模型距離真正的通用人工智能AGI已經(jīng)非常接近，很多廠商都投入了基礎大模型的研究。但經(jīng)過了一段時間后，大家對大模型真實的能力邊界有了清晰的認知，發(fā)現(xiàn)大模型仍存在大量的問題如幻覺、上下文容量限制等，導致其無法直接通向AGI，于是AI智能體正在成為了新的研究方向。人們希望通過讓大模型借助一個或多個AI智能體的能力，構建成為具備自主思考決策和執(zhí)行能力的智能體，繼續(xù)實現(xiàn)通往AGI的道路。AI智能體有可能成為未來一段時間AI研究的前沿方向。

不過，相關專家指出，AI智能體也分為弱人工智能和強人工智能。現(xiàn)在大多數(shù)人使用大語言模型，仍然是輸入一段提示詞，然后得到大模型生成的一段答案。這個過程就像你讓一個人編寫一篇文章，你設計一個個“提示詞”，引導他不停敲打鍵盤，直到將文章完成。弱AI智能體依然無法擺脫這樣的窠臼。AI智能體的發(fā)展改善著這一過程。它會先生成關于文章主題的提綱，然后搜集資料，寫出初稿，閱讀生成的初稿，思考哪些部分需要修改。然后修改初稿，繼續(xù)這個過程。整個工作流程是不斷迭代的。人工智能越強，其獨立性也越強。