螞蟻集團在整改之外,在AI大模型領(lǐng)域上仍邁開技術(shù)自研步伐。近期新浪科技報導(dǎo),螞蟻集團推出技術(shù)框架“GMLake”,該框架能夠解決大模型訓(xùn)練中的顯存問題,最多提高33%的GPU可用顯存;同時近期螞蟻也開源新算法“Lookahead推理加速框架”,降低推理耗時。
在ChatGPT浪潮下,生成式大模型正引領(lǐng)當前AI發(fā)展。而為了訓(xùn)練得到高效大模型,需要強大和昂貴的基礎(chǔ)算力支撐。目前制約高效訓(xùn)練的因素中,除了算力,顯存容量也非常關(guān)鍵,即“內(nèi)存墻”問題。
一段時間以來,業(yè)界已有很多優(yōu)化工作,包括模型、框架層的改造,甚至犧牲模型精度。目前業(yè)界廣泛使用的訓(xùn)練框架如PyTorch存在顯存管理效率不高,顯存資源碎片化的現(xiàn)象,而當業(yè)界使用優(yōu)化手段后,碎片化問題反而更突出。
因此螞蟻集團和上海交通大學(xué)合作GMLake技術(shù)研究。該框架采用虛擬、物理兩層指針,將碎片化的顯存靈活地拼接起來,從而實現(xiàn)了聚零為整。
值得一提的是,GMLake對典型大模型如GPT、GLM、Vicuna等進行了詳細評測,最高擴大了約33%的可用顯存,即在80GB的A100 GPU上節(jié)省約25GB的顯存,訓(xùn)練吞吐提高最多4倍。
據(jù)了解,GMLake目前已在PyTorch框架上完成集成,對上層模型代碼和框架代碼完全透明,換言之模型不需要修改任何代碼便能使用。
此外,螞蟻集團還開源一套新算法“Lookahead推理加速框架”,能幫助大模型在推理時,提速2至6倍,效果無損,即插即用,該算法已在螞蟻大量場景進行了落地,大幅降低推理耗時。
原來詞元(token)生成過程,就像早期中文輸入法,只能一個字一個字“敲”出來,如采用螞蟻加速算法后,token生成就像聯(lián)想輸入法,有些整句可直接“蹦”出來。
螞蟻集團首席技術(shù)官何征宇近日通過科創(chuàng)板日報表示,大模型真正歷史性的突破是幫助行業(yè)生產(chǎn)力提升,而且有可能讓人類社會生產(chǎn)力劇增?!拔覀冏龃竽P图夹g(shù)的最終目標還是會面向產(chǎn)業(yè),也包括金融產(chǎn)業(yè)、醫(yī)療產(chǎn)業(yè)等專業(yè)服務(wù)場景,幫助他們?nèi)プ霎a(chǎn)業(yè)升級?!倍浵伡瘓F發(fā)言人在去年11月表示,在獲得官方批準后,集團AI大模型百靈大模型多款產(chǎn)品將向公眾開放。