記者10日從中國科學(xué)院自動(dòng)化研究所獲悉,來自該所等單位的科研人員首次證實(shí),多模態(tài)大語言模型在訓(xùn)練過程中自己學(xué)會(huì)了“理解”事物,而且這種理解方式和人類非常類似。這一發(fā)現(xiàn)為探索人工智能如何“思考”開辟了新路,也為未來打造像人類一樣“理解”世界的人工智能系統(tǒng)打下了基礎(chǔ)。相關(guān)研究成果在線發(fā)表于《自然·機(jī)器智能》雜志。
人類智能的核心,就是能真正“理解”事物。當(dāng)看到“狗”或“蘋果”時(shí),我們不僅能識(shí)別它們長什么樣,如大小、顏色、形狀等,還能明白它們有什么用、能帶給我們什么感受、有什么文化意義。這種全方位的理解,是我們認(rèn)知世界的基礎(chǔ)。而隨著像ChatGPT這樣的大模型飛速發(fā)展,科學(xué)家們開始好奇:它們能否從海量的文字和圖片中,學(xué)會(huì)像人類一樣“理解”事物?
傳統(tǒng)人工智能研究聚焦于物體識(shí)別準(zhǔn)確率,卻鮮少探討模型是否真正“理解”物體含義。“當(dāng)前人工智能可以區(qū)分貓狗圖片,但這種‘識(shí)別’與人類‘理解’貓狗有什么本質(zhì)區(qū)別,仍有待揭示。”論文通訊作者、中國科學(xué)院自動(dòng)化研究所研究員何暉光說。
在這項(xiàng)研究中,科研人員借鑒人腦認(rèn)知的原理,設(shè)計(jì)了一個(gè)巧妙的實(shí)驗(yàn):讓大模型和人類玩“找不同”游戲。實(shí)驗(yàn)人員從1854種常見物品中給出3個(gè)物品概念,要求選出最不搭的那個(gè)。通過分析高達(dá)470萬次的判斷數(shù)據(jù),科研人員首次繪制出了大模型的“思維導(dǎo)圖”——“概念地圖”。
何暉光介紹,他們從海量實(shí)驗(yàn)數(shù)據(jù)里總結(jié)出66個(gè)代表人工智能如何“理解”事物的關(guān)鍵角度,并給它們起了名字。研究發(fā)現(xiàn),這些角度非常容易解釋清楚,而且與人腦中負(fù)責(zé)物體加工的區(qū)域的神經(jīng)活動(dòng)方式高度一致。更重要的是,能同時(shí)看懂文字和圖片的多模態(tài)模型,“思考”和做選擇的方式比其他模型更接近人類。
此外,研究還有個(gè)有趣發(fā)現(xiàn),人類做判斷時(shí),既會(huì)看東西長什么樣,比如形狀、顏色,也會(huì)想它的含義或用途,但大模型更依賴給它貼上的“文字標(biāo)簽”和它學(xué)到的抽象概念?!斑@證明,大模型內(nèi)部確實(shí)發(fā)展出了一種有點(diǎn)類似人類的理解世界的方式?!焙螘煿庹f道。