亚洲五月天一区二区三区-日本午夜福利视频在线-日本欧美一区二区不卡免费-日韩深夜视频在线观看

我國團隊國際首創(chuàng)存算一體排序架構(gòu),攻克智能硬件加速難題

來源:愛集微 #存算一體# #北京大學# #自然#
722

6月25日,北京大學團隊在智能計算硬件方面取得領(lǐng)先突破,國際上首次實現(xiàn)了基于存算一體技術(shù)的高效排序硬件架構(gòu)(A fast and reconfigurable sort-in-memory system based on memristors),解決了傳統(tǒng)計算架構(gòu)面對復(fù)雜非線性排序問題時計算效率低下的瓶頸問題,在這一極難攻克的人工智能基礎(chǔ)算子加速領(lǐng)域形成優(yōu)勢,將為具身智能、大語言模型、智能駕駛、智慧交通、智慧城市等人工智能應(yīng)用提供更高效算力支持。該成果由北京大學集成電路學院楊玉超教授、人工智能研究院陶耀宇研究員組成的團隊完成,已在國際頂級學術(shù)期刊《自然?電子》上發(fā)表。

排序加速:存算一體架構(gòu)中難啃的“硬骨頭”

排序,作為人工智能系統(tǒng)中最常用、最耗時的基礎(chǔ)操作之一,廣泛存在于自然語言處理、信息檢索、圖神經(jīng)網(wǎng)絡(luò)、智能決策等人工智能相關(guān)領(lǐng)域中。在傳統(tǒng)的馮·諾依曼計算架構(gòu)中,處理器與存儲器分離的特點導致數(shù)據(jù)被頻繁搬運,嚴重制約了計算速度和系統(tǒng)能效,因此將存儲與計算融合的“存算一體”架構(gòu)是突破硬件性能的必由之路。

例如在智能駕駛場景中,車輛在高速公路等簡單環(huán)境中,只需對周邊幾臺車的行進路線進行排序就能判斷是否會對自身安全產(chǎn)生影響,整個耗時可控制在毫秒級別,但在復(fù)雜的城市環(huán)境中風險來自周邊的數(shù)百個乃至更多的各類交通參與者,排序的復(fù)雜程度和硬件延遲大幅提高;再比如,在抖音、小紅書等平臺大的規(guī)模檢索與推薦系統(tǒng)中,用戶點擊、評分、相似度計算后,常需要對海量的候選內(nèi)容進行快速排序,找出最相關(guān)項,排序性能直接影響系統(tǒng)的響應(yīng)時間和可擴展性;此外,在大語言模型訓練、機器人路徑規(guī)劃、強化學習搜索等場景中,快速評估多個決策或行動的優(yōu)劣并進行排序,也是必不可少而又極為費時的步驟。然而,在傳統(tǒng)計算架構(gòu)下,大規(guī)模的非線性排序難以在端側(cè)或邊緣設(shè)備高效完成,這一過程消耗大量時間與功耗,極大制約了具身智能、智能駕駛等新興技術(shù)的發(fā)展與普及。

近年來,“存算一體”被認為是突破傳統(tǒng)硬件架構(gòu)計算瓶頸的關(guān)鍵技術(shù),已經(jīng)在矩陣計算等規(guī)則性強的數(shù)值計算中取得顯著成果。然而由于排序存在邏輯復(fù)雜、操作非線性、數(shù)據(jù)訪問不規(guī)則,缺乏通用、高效的硬件排序原語等諸多障礙,目前國際主流的存算一體架構(gòu)均無法解決大數(shù)據(jù)排序問題,這一難題成為了制約下一代人工智能計算硬件發(fā)展的前沿焦點與核心卡點問題。

科研團隊圍繞“讓數(shù)據(jù)就地排序”的第一性原理目標,在存算一體架構(gòu)上攻克了多個核心技術(shù)難題,實現(xiàn)了排序速度與能效的數(shù)量級提升。主要突破包括:首先,開發(fā)了一套基于新型存內(nèi)陣列結(jié)構(gòu)的高并行比較機制;第二,開創(chuàng)性地引入了“憶阻器陣列”,實現(xiàn)了低延遲、多通路的硬件級并行排序電路設(shè)計;第三,在算子層面,優(yōu)化了面向人工智能任務(wù)的算法-架構(gòu)協(xié)同路徑,同時兼容現(xiàn)有矩陣計算;第四,完全自主設(shè)計的器件-電路-系統(tǒng)級技術(shù)棧整合。

在人工智能系統(tǒng)中,排序通常作為數(shù)據(jù)預(yù)處理或決策中間環(huán)節(jié)存在,一旦執(zhí)行效率不高,將成為整個系統(tǒng)的主要瓶頸。論文第一作者、北京大學集成電路學院博士生余連風介紹道,“排序的核心是比較運算,需要精準地實現(xiàn)‘條件判斷+數(shù)據(jù)搬移’,在復(fù)雜的應(yīng)用場景中,要對不同因素的優(yōu)先級進行比較,因此排序的邏輯非常復(fù)雜。一般排序過程需要構(gòu)建支持多級‘比較-選擇’的比較器單元,而傳統(tǒng)存算一體架構(gòu)主要面向‘乘加’、‘累加’等操作,難以支持這樣的復(fù)雜運算,我們的工作成功解決了這一難題,設(shè)計了一種‘無比較器’的存算一體排序架構(gòu)?!?/p>

據(jù)實測結(jié)果顯示,該硬件方案在典型排序任務(wù)中提升速度超15倍,面積效率提升超過32倍,具備并行處理百萬級數(shù)據(jù)元素排序任務(wù)的潛力,功耗僅為傳統(tǒng)CPU或GPU處理器的1/10。在人工智能推理場景中,支持動態(tài)稀疏度下的推理響應(yīng)速度可提升70%以上,特別適用于要求極高實時性的任務(wù)環(huán)境。論文通訊作者、北京大學人工智能研究院陶耀宇研究員說,“正因為排序計算在人工智能中是高頻、通用、基礎(chǔ)且極難處理的一類操作,這一難題的突破意味著存算一體從‘適合特定應(yīng)用’走向‘可支持更廣泛的通用計算’,為人工智能相關(guān)任務(wù)構(gòu)建了全鏈路的底層硬件架構(gòu)支持?!?/p>

提高計算效率,打造加速引擎

據(jù)悉,該技術(shù)具有廣泛的應(yīng)用前景,可用于智慧交通圖像排序系統(tǒng)、金融智能風控評分引擎、邊緣監(jiān)控設(shè)備的目標優(yōu)先識別模塊等場景。在測試中該技術(shù)展現(xiàn)出高速度與低功耗的顯著優(yōu)勢。例如,在智慧交通場景中,系統(tǒng)有望在毫秒級內(nèi)完成十萬級事件優(yōu)先級評估,為超大規(guī)模交通決策、應(yīng)急響應(yīng)調(diào)度等提供高效的實時算力支持。

當前,隨著人工智能技術(shù)正與物理世界加速融合,算力已從“服務(wù)算法”演化為“主導能力邊界”的戰(zhàn)略資源。存算一體超高性能排序加速架構(gòu)的成功突破,不僅是一次架構(gòu)創(chuàng)新的勝利,更是將科研成果轉(zhuǎn)化為實際應(yīng)用、服務(wù)國家重大戰(zhàn)略需求的重要行動。該成果未來有望廣泛應(yīng)用于國產(chǎn)智能芯片、邊緣AI設(shè)備、智能制造終端、智慧城市系統(tǒng)等關(guān)鍵領(lǐng)域,為我國在下一代AI技術(shù)與智能硬件競爭中提供堅實底座,也為構(gòu)建安全、高效、自主可控的新一代智能算力體系提供了“加速引擎”。

“根據(jù)初步測算,若該技術(shù)在智能終端、工業(yè)控制、數(shù)據(jù)中心等核心應(yīng)用場景中推廣,僅在邊緣AI芯片市場就可形成百億元級年產(chǎn)值潛力,大幅提升傳統(tǒng)算力系統(tǒng)的性能。更重要的是,在社會層面,該技術(shù)有望推動新一代智慧交通、智慧醫(yī)療、智能制造、數(shù)字政府系統(tǒng)更加高效運行,釋放數(shù)據(jù)價值,助力新質(zhì)生產(chǎn)力形成”陶耀宇研究員介紹道。

近年來,人工智能技術(shù)正高速演進,相關(guān)應(yīng)用不斷涌現(xiàn),智能產(chǎn)業(yè)發(fā)展迸發(fā)出巨大活力,蓬勃的發(fā)展態(tài)勢離不開背后算力的支撐。黨中央高度重視新型算力體系建設(shè)與核心技術(shù)突破,多次強調(diào)要聚焦關(guān)鍵技術(shù),加快形成新質(zhì)生產(chǎn)力。北京大學科研團隊正是瞄準了‘算力’這個牛鼻子,聚焦‘存算一體’這一關(guān)鍵技術(shù)開展高強度科研攻關(guān),實現(xiàn)了從器件到系統(tǒng)的全棧自主設(shè)計。這一成果不僅是技術(shù)層面的突破,更是攻克了存算一體化排序加速的‘硬骨頭’難題,在面向人工智能基礎(chǔ)操作的硬件加速領(lǐng)域?qū)崿F(xiàn)了突破,將為我國建設(shè)科技強國,實現(xiàn)高水平科技自立自強注入新算力。

附:論文鏈接 https://www.nature.com/articles/s41928-025-01405-2

責編: 張軼群
來源:愛集微 #存算一體# #北京大學# #自然#
THE END

*此內(nèi)容為集微網(wǎng)原創(chuàng),著作權(quán)歸集微網(wǎng)所有,愛集微,愛原創(chuàng)

關(guān)閉
加載

PDF 加載中...