螞蟻推AI技術(shù) 大模型訓(xùn)練提高33%GPU顯存推理提速2倍

作者：愛集微 2024-01-18

來源：聯(lián)合報 #螞蟻集團#

3.3w

螞蟻集團在整改之外，在AI大模型領(lǐng)域上仍邁開技術(shù)自研步伐。近期新浪科技報導(dǎo)，螞蟻集團推出技術(shù)框架“GMLake”，該框架能夠解決大模型訓(xùn)練中的顯存問題，最多提高33%的GPU可用顯存；同時近期螞蟻也開源新算法“Lookahead推理加速框架”，降低推理耗時。

在ChatGPT浪潮下，生成式大模型正引領(lǐng)當前AI發(fā)展。而為了訓(xùn)練得到高效大模型，需要強大和昂貴的基礎(chǔ)算力支撐。目前制約高效訓(xùn)練的因素中，除了算力，顯存容量也非常關(guān)鍵，即“內(nèi)存墻”問題。

一段時間以來，業(yè)界已有很多優(yōu)化工作，包括模型、框架層的改造，甚至犧牲模型精度。目前業(yè)界廣泛使用的訓(xùn)練框架如PyTorch存在顯存管理效率不高，顯存資源碎片化的現(xiàn)象，而當業(yè)界使用優(yōu)化手段后，碎片化問題反而更突出。

因此螞蟻集團和上海交通大學(xué)合作GMLake技術(shù)研究。該框架采用虛擬、物理兩層指針，將碎片化的顯存靈活地拼接起來，從而實現(xiàn)了聚零為整。

值得一提的是，GMLake對典型大模型如GPT、GLM、Vicuna等進行了詳細評測，最高擴大了約33%的可用顯存，即在80GB的A100 GPU上節(jié)省約25GB的顯存，訓(xùn)練吞吐提高最多4倍。

據(jù)了解，GMLake目前已在PyTorch框架上完成集成，對上層模型代碼和框架代碼完全透明，換言之模型不需要修改任何代碼便能使用。

此外，螞蟻集團還開源一套新算法“Lookahead推理加速框架”，能幫助大模型在推理時，提速2至6倍，效果無損，即插即用，該算法已在螞蟻大量場景進行了落地，大幅降低推理耗時。

原來詞元（token）生成過程，就像早期中文輸入法，只能一個字一個字“敲”出來，如采用螞蟻加速算法后，token生成就像聯(lián)想輸入法，有些整句可直接“蹦”出來。

螞蟻集團首席技術(shù)官何征宇近日通過科創(chuàng)板日報表示，大模型真正歷史性的突破是幫助行業(yè)生產(chǎn)力提升，而且有可能讓人類社會生產(chǎn)力劇增?！拔覀冏龃竽Ｐ图夹g(shù)的最終目標還是會面向產(chǎn)業(yè)，也包括金融產(chǎn)業(yè)、醫(yī)療產(chǎn)業(yè)等專業(yè)服務(wù)場景，幫助他們?nèi)プ霎a(chǎn)業(yè)升級?！倍浵伡瘓F發(fā)言人在去年11月表示，在獲得官方批準后，集團AI大模型百靈大模型多款產(chǎn)品將向公眾開放。