未來,移動(dòng)通信網(wǎng)絡(luò)支撐下的網(wǎng)聯(lián)具身智能體將深度融入經(jīng)濟(jì)社會(huì),推動(dòng)各行業(yè)與日常生活的革命性變革。針對(duì)當(dāng)前網(wǎng)聯(lián)具身智能體上通信與多模態(tài)感知相互分立、各自為政,進(jìn)而制約其智能能力的科學(xué)問題,北京大學(xué)電子學(xué)院程翔教授團(tuán)隊(duì)首次提出并系統(tǒng)論述了機(jī)器聯(lián)覺(Synesthesia of Machines,SoM)的架構(gòu)與概念,即面向通用任務(wù)的AI原生通信與多模態(tài)感知智能融合,利用大模型/無線基座模型,突破多模態(tài)通感智能融合的核心技術(shù),提供網(wǎng)聯(lián)智能發(fā)展新路徑。由于通信與多模態(tài)感知智能融合數(shù)據(jù)集的體量和質(zhì)量在訓(xùn)練階段從根本上決定了未來AI原生的多模態(tài)通感系統(tǒng)的性能上限,海量、高質(zhì)量的通信與多模態(tài)感知智能融合數(shù)據(jù)集至關(guān)重要。然而,現(xiàn)階段的通信與多模態(tài)感知數(shù)據(jù)集(如圖1所示)存在缺少完備的通信與多模態(tài)感知信息、場(chǎng)景簡(jiǎn)單單一以及數(shù)據(jù)集的可信度和可用性未得到充分驗(yàn)證等不足,難以滿足未來AI原生系統(tǒng)對(duì)于數(shù)據(jù)集體量和質(zhì)量的要求。因此,亟需開展海量、高質(zhì)量的通信與多模態(tài)感知智能融合數(shù)據(jù)集構(gòu)建研究,作為AI原生的多模態(tài)通感系統(tǒng)設(shè)計(jì)的核心數(shù)據(jù)基礎(chǔ),支撐機(jī)器聯(lián)覺研究,賦能未來網(wǎng)聯(lián)智能深度快速發(fā)展。
圖1 現(xiàn)有典型的通信與多模態(tài)感知數(shù)據(jù)集
然而,構(gòu)建海量、高質(zhì)量的通信與多模態(tài)感知智能融合數(shù)據(jù)集極具挑戰(zhàn)。首先,實(shí)測(cè)多模態(tài)通感數(shù)據(jù)采集所需設(shè)備繁多且需嚴(yán)格時(shí)空同步,從而導(dǎo)致實(shí)測(cè)數(shù)據(jù)成本極高、復(fù)雜度極高、場(chǎng)景受限且不可控性強(qiáng)。其次,現(xiàn)階段沒有一個(gè)仿真平臺(tái)能直接生成和采集通信與多模態(tài)感知仿真數(shù)據(jù)。為填補(bǔ)上述空白和克服上述挑戰(zhàn),程翔團(tuán)隊(duì)創(chuàng)新性地采用機(jī)器聯(lián)覺架構(gòu),搭建了首個(gè)實(shí)測(cè)注入的通信與多模態(tài)感知仿真數(shù)據(jù)生成與采集平臺(tái),并基于此構(gòu)建了海量、高質(zhì)量的通信與多模態(tài)感知智能融合數(shù)據(jù)集SynthSoM: A Synthetic Intelligent Multi-Modal Sensing-Communication Dataset for Synesthesia of Machines (SoM),從根本上提升了AI原生多模態(tài)通感系統(tǒng)的性能上限。SynthSoM數(shù)據(jù)集的構(gòu)建匯集了3個(gè)高可靠仿真軟件AirSim、WaveFarer和Wireless InSite,包含4個(gè)步驟:高保真場(chǎng)景構(gòu)建、完備場(chǎng)景條件仿真、動(dòng)態(tài)場(chǎng)景生成、數(shù)據(jù)采集與導(dǎo)出,以及對(duì)SynthSoM數(shù)據(jù)集可信度和可用性的進(jìn)一步驗(yàn)證,總體架構(gòu)如圖2所示。
圖2 SynthSoM數(shù)據(jù)集的構(gòu)建架構(gòu)
該工作的主要亮點(diǎn)如下:
(1) 平臺(tái)層面:搭建了首個(gè)實(shí)測(cè)注入的通信與多模態(tài)感知仿真數(shù)據(jù)生成與采集平臺(tái),匯集了3個(gè)高可靠仿真軟件AirSim、WaveFarer和Wireless InSite,實(shí)現(xiàn)了3個(gè)仿真軟件的深度融合與精準(zhǔn)匹配。
(2) 數(shù)據(jù)層面:包含144萬張RGB圖、289萬張深度圖、144萬組激光雷達(dá)點(diǎn)云、49萬組雷達(dá)波形、70萬組信道矩陣和10萬組路徑損耗,總計(jì)共700萬組以上的通信與多模態(tài)感知數(shù)據(jù),是現(xiàn)有多模態(tài)通感數(shù)據(jù)量的5倍以上。
(3) 場(chǎng)景層面:包含空地多路協(xié)同網(wǎng)聯(lián)具身智能場(chǎng)景(網(wǎng)聯(lián)智能無人車、低空經(jīng)濟(jì)無人機(jī))下城鎮(zhèn)、郊區(qū)、鄉(xiāng)村(如圖3所示),具有多時(shí)段、多天氣、多視角、多車流量密度、多頻段、多種天線陣列等豐富場(chǎng)景條件,并在不同場(chǎng)景和條件設(shè)置過程中采用了多種先進(jìn)技術(shù)和算法,包括射線追蹤、激光雷達(dá)光散射增強(qiáng)(LISA)算法、協(xié)同自適應(yīng)巡航控制(CACC)汽車跟隨模型用于防碰撞檢測(cè)等。
圖3 SynthSoM涵蓋的五類空地協(xié)同場(chǎng)景:(a) 城鎮(zhèn)十字路口 (b) 城鎮(zhèn)超寬車道 (c) 城鎮(zhèn)高架立交橋 (d) 郊區(qū)分岔路口 (e) 鄉(xiāng)村山區(qū)公路
(4) 驗(yàn)證層面:為全面驗(yàn)證構(gòu)建的仿真SynthSoM數(shù)據(jù)集的可信度和可用性,首次開展對(duì)于SynthSoM數(shù)據(jù)集的基于統(tǒng)計(jì)的定性分析以及實(shí)測(cè)注入的性能擴(kuò)展性測(cè)試。針對(duì)基于統(tǒng)計(jì)的定性分析,結(jié)果表明在不同場(chǎng)景和條件下所采集的仿真數(shù)據(jù)與實(shí)測(cè)數(shù)據(jù)展現(xiàn)出一致的電磁傳播機(jī)制;針對(duì)實(shí)測(cè)注入的性能擴(kuò)展性測(cè)試,基于數(shù)字孿生技術(shù),在北京大學(xué)校園場(chǎng)景搭建精準(zhǔn)匹配的實(shí)測(cè)與仿真場(chǎng)景(如圖4所示),采集時(shí)空一致的實(shí)測(cè)與仿真多模態(tài)通感數(shù)據(jù)?;诖?,進(jìn)一步開展在仿真數(shù)據(jù)訓(xùn)練,在實(shí)測(cè)數(shù)據(jù)測(cè)試(TSTR)以及在實(shí)測(cè)數(shù)據(jù)訓(xùn)練和測(cè)試(TRTR),如圖5所示。測(cè)試結(jié)果表明TSTR和TRTR的精度分別為89.28%和90.35%,證明了仿真數(shù)據(jù)與實(shí)測(cè)數(shù)據(jù)的高吻合度使得簡(jiǎn)單深度學(xué)習(xí)小模型也有能力實(shí)現(xiàn)零樣本泛化。
圖4 精準(zhǔn)匹配的實(shí)測(cè)場(chǎng)景與仿真場(chǎng)景
圖5 實(shí)測(cè)注入的性能擴(kuò)展性測(cè)試
(5) 開源層面:構(gòu)建的海量、高質(zhì)量的通信與多模態(tài)感知智能融合數(shù)據(jù)集SynthSoM和代碼完全開源,可支撐不同多模態(tài)通感智能融合算法的交叉驗(yàn)證、模型校準(zhǔn)和基線實(shí)現(xiàn),從根本上提升AI原生多模態(tài)通感系統(tǒng)性能上限,支撐未來網(wǎng)聯(lián)智能深度快速發(fā)展。
該研究成果以“SynthSoM: A synthetic intelligent multi-modal sensing-communication dataset for Synesthesia of Machines (SoM)”為題于5月20日正式發(fā)表于Nature子刊Scientific Data。北京大學(xué)為該研究工作的第一完成單位,合作單位包括山東大學(xué)。程翔和山東大學(xué)白露教授為該論文的共同通訊作者,程翔、博雅博士后黃子蔚和博士生于勇為共同第一作者,其他作者包括北京大學(xué)電子學(xué)院博士生孫銘然、韓增瑞、張瑞德和李思江。這項(xiàng)工作得到了國(guó)家自然科學(xué)基金委杰出青年科學(xué)基金、新基石科學(xué)基金會(huì)科學(xué)探索獎(jiǎng)、中國(guó)博士后科學(xué)基金會(huì)博士后創(chuàng)新人才支持計(jì)劃等的支持。