在材料科學領域,準確理解多原子系統(tǒng)的行為是一項基礎而又充滿挑戰(zhàn)的任務。以在鋰離子等高能量密度電池中發(fā)揮關鍵作用的鋰元素為例,精確預測鋰原子簇內部的能量和相互作用,對于推動下一代儲能技術至關重要。然而,隨著原子數量的增加,系統(tǒng)交互的復雜性呈指數級增長。雖然深度學習模型潛力巨大,但在材料科學領域,高質量數據的稀缺性和模型的“黑箱”特性限制了其應用。
北京大學深圳研究生院新材料學院潘鋒教授團隊長期致力于圖論結構化學方法的拓展與應用,作為一種將材料微觀結構映射為數學圖論和拓撲模型的方法,圖論結構化學近年來在材料基因組、催化活性探索等方向中表現出強大的表示和預測能力,并在該領域提出了一系列創(chuàng)新性工作,實現了材料結構表示(J. Phys. Chem. Lett., 2023, 14: 954)、材料的反向設計(npj Comput. Mater., 2025, 11: 147)、新型固態(tài)電解質的設計(J. Am. Chem. Soc. 2024, 146, 18535;2025, DOI: 10.1021/jacs.5c04828 )、化學反應路徑搜索(CCS Chemistry 2024, 7, 1)、催化活性相搜索(Nat Comm. 2025,16, 2542)。近日,潘鋒團隊與密歇根州立大學魏國衛(wèi)(Guo-Wei Wei)教授團隊合作,提出了一種名為“多尺度拓撲學習(Multiscale Topological Learning, MTL)”的可解釋性框架,旨在提高多原子體系能量預測的準確性。該研究利用一種名為“持續(xù)拓撲拉普拉斯(Persistent Topological Laplacians, PTLs)”的多尺度拓撲方法,有效捕捉多體相互作用的內在屬性。相關研究成果以“Enhancing Energy Predictions in Multi-Atom Systems with Multiscale Topological Learning”為題,發(fā)表于國際材料與化學的知名學術期刊《材料化學雜志A》( Journal of Materials Chemistry A)(2025,DOI: 10.1039/d5ta02687c)。
基于持久拓撲拉普拉斯的機器學習方法的總體框架
該研究的核心思想是將復雜的原子結構映射為拓撲空間中的單純復形(simplicial complex),并運用PTL方法在多個尺度上進行分析,從而為原子結構生成能夠表征其多體相互作用的“拓撲指紋”。其創(chuàng)新工作流程如下(圖1):首先,將一個多原子系統(tǒng)(如鋰原子簇)視為一個單純復形,其中0維單形代表原子,1維單形代表原子間的連接,2維單形代表由三個原子組成的環(huán)狀結構。接著,通過一個名為“過濾(filtration)”的參數(原子間距d)從小到大變化,該框架可以捕捉不同尺度下的結構。在每個尺度下,PTL方法會計算出0維、1維和2維的拓撲拉普拉斯算子(L0,L1,L2),這些算子的譜信息構成了對系統(tǒng)拓撲和幾何特性的多維度描述。這種方法的新穎之處在于,它超越了傳統(tǒng)的基于原子坐標的描述符,能夠系統(tǒng)性地編碼原子間“多體相互作用”的復雜信息,為理解和預測材料性質提供了全新的物理視角。
圖1. 利用不同維度的拓撲信息對不同團簇體系分類的定性分析
研究團隊利用一個包含136,287個鋰原子簇(涵蓋4原子到40原子等多種體系)的大型數據。研究的主要結論是,引入更高維度的拓撲信息能持續(xù)提升能量預測的精度。具體而言,在預測任務中,隨著1維(β1)和2維(β2)拓撲特征的加入,模型的平均絕對誤差(MAE)顯著降低。對于所有原子體系,包含0、1、2維信息的特征集(β012)均比只含0維信息(β0)或0、1維信息(β01)的特征集表現更優(yōu)。
圖2. 拓撲學習方法在不同維度的拓撲信息對能量預測精度的影響的定量分析
然而,盡管高維信息至關重要,但其對預測精度的貢獻度隨維度增加而逐漸減小。0維特征貢獻最大,其次是1維特征。這一趨勢與多體物理學理論高度一致,即高階相互作用通常被視為對系統(tǒng)的微擾修正,從而驗證了該拓撲方法的物理可解釋性。此外,該框架還展現出強大的泛化與排序能。當研究人員使用小尺寸原子簇(Li4-Li10)訓練模型后,該模型能有效預測從未見過的、結構更復雜的大尺寸原子簇(Li20-Li40)。結果顯示,引入高維信息后,模型對Li20和Li40能量排序的準確性(通過皮爾遜相關系數PCC衡量)得到了大幅提升,這對從龐大的結構空間中篩選出最穩(wěn)定的構型具有重要意義。
這項研究表明,基于拓撲學的機器學習框架不僅能精確預測多原子體系的能量,還能提供符合物理直覺的深刻見解。該方法有望被推廣至更廣泛的領域,如催化劑設計、新材料發(fā)現以及藥物分子設計,為解決復雜體系中的科學難題開辟了新的道路。
潘鋒與魏國衛(wèi)為本文的通訊作者。深研院新材料學院博士畢業(yè)生陳冬為本文第一作者(現在在密歇根州立大學任助理研究員)。本研究由國家自然科學基金、廣東省重點實驗室等項目資助。