原文來源:鈦媒體APP
作者 | 楊麗
圖片來源:由無界 AI?生成
全球大模型爭霸賽,正推進(jìn)大量產(chǎn)業(yè)應(yīng)用訴求。但這一年矛盾最突出的話題卻不是怎么用明白大模型,而是企業(yè)用戶對云數(shù)據(jù)中心、服務(wù)器集群,對大算力芯片的海量計算訴求沒有得到充分滿足。算力供需矛盾的背后,很重要的一點其實是算力閑置問題。
據(jù)研究機(jī)構(gòu)IDC最新數(shù)據(jù),2023年上半年加速服務(wù)器市場規(guī)模達(dá)到31億美元,同比2022年上半年增長54%。其中GPU服務(wù)器依然是主導(dǎo)地位,占據(jù)92%的市場份額,達(dá)到30億美元。同時NPU、ASIC和FPGA等非GPU加速服務(wù)器以同比17%的增速占有了8%的市場份額,達(dá)到2億美元。
這里的GPU就是面向智算場景的GPGPU(General-purpose computing on graphics processing units,通用圖形處理器)。其中大部分市場由英偉達(dá)占據(jù),2022年,英偉達(dá)A100 GPU芯片供貨量緊張,且價格水漲船高,而在中國市場,在10月新的禁令之前,中國特供版A800和H800 GPU也早已斷貨。
大模型算力應(yīng)用基本可分為“訓(xùn)練”和“推理”兩個場景。在推理場景,盡管對算力性能要求不高,但當(dāng)訓(xùn)練好的模型部署到實際生產(chǎn)中時,會需要大量服務(wù)器進(jìn)行并行網(wǎng)絡(luò)計算,推理成本會驟然提升。
而訓(xùn)練場景所需的算力會更強(qiáng),這一階段,神經(jīng)網(wǎng)絡(luò)需要不止一臺服務(wù)器進(jìn)行大規(guī)模計算。由于模型訓(xùn)練有時間周期,算力滿額意味著GPU卡實現(xiàn)了100%資源利用,但訓(xùn)練任務(wù)比較小對算力要求不高,也得占用一張卡,基本處于閑置狀態(tài)。
據(jù)相關(guān)分析稱,OpenAI在GPT-4的訓(xùn)練中使用了大約2.15e25的FLOPS,在大約25000個A100 GPU上進(jìn)行了90到100天的訓(xùn)練,其算力利用率約為32%至36%。這種算力利用率低的情況在業(yè)內(nèi)更加普遍。
鈦媒體結(jié)合政策了解到的情況是,中國正主導(dǎo)構(gòu)建用于數(shù)據(jù)處理的高性能通訊網(wǎng)絡(luò),以及多元異構(gòu)的芯片算力(包括GPU、CPU、以及國產(chǎn)芯片等)的調(diào)度和管理問題。
算力閑置的本質(zhì)邏輯
過去十年,分布式云計算構(gòu)建經(jīng)典的“削峰填谷”和“資源池化”,以更好地實現(xiàn)云服務(wù)的彈性調(diào)度。這種變化其實也在影響云服務(wù)的商業(yè)模式轉(zhuǎn)變。
一位咨詢機(jī)構(gòu)云服務(wù)合伙人曾對鈦媒體表示,過去云服務(wù)商依靠的正是虛機(jī)忙時和閑時調(diào)度,去獲得超額的利潤回報,也就是“超賣”,此時各家比拼的是誰的調(diào)度技術(shù)更優(yōu)秀。
而大模型場景下,算力需要大規(guī)模集中式訓(xùn)練,服務(wù)器也無法被切分成單個虛機(jī),怎樣設(shè)計算子和算力調(diào)度,怎樣滿足大模型應(yīng)用的高性能智算場景,這是云服務(wù)商在頭疼、大模型創(chuàng)企或其他中小團(tuán)隊在反復(fù)提要求的部分。
不少領(lǐng)域?qū)嵺`者或?qū)W術(shù)專家進(jìn)行分析,這一挑戰(zhàn)也體現(xiàn)在大模型平臺設(shè)計的工程性問題上。
例如,如何提升大規(guī)模分布式訓(xùn)練的計算效率一直是大模型預(yù)訓(xùn)練的一個核心問題。特別是在實際的AI集群環(huán)境中,會存在GPU之間的互聯(lián)帶寬受限或AI服務(wù)器之間的網(wǎng)絡(luò)互聯(lián)帶寬有限。
大模型參數(shù)量巨大,意味著對顯存的占用也大。過去小模型的結(jié)構(gòu)不易有效進(jìn)行計算和通信,但大模型規(guī)模已在TB級別,GPU顯存大小基本在80G(以英偉達(dá)A100為例),單個GPU無法完全容納整個模型訓(xùn)練,采用分布式訓(xùn)練是必然。這也同時導(dǎo)致了GPU通信問題,由于卡與卡之間存在的通信開銷,增加一倍卡并不能帶來線性的性能加速。
此外,卡數(shù)量增多后,過熱、故障就會一定比例出現(xiàn),這往往會導(dǎo)致訓(xùn)練中斷、梯度爆炸、算法重跑一遍等,模型訓(xùn)練成本也會居高不下。
鈦媒體注意到,業(yè)內(nèi)出現(xiàn)了諸多專門為大規(guī)模并行計算設(shè)計的高性能分布式訓(xùn)練框架,并伴隨大模型技術(shù)的深化而逐步創(chuàng)新。
有眾所周知的大數(shù)據(jù)開發(fā)引擎Spark,專為深度學(xué)習(xí)開發(fā)的PyTorch,目前Pytorch官方也同樣開發(fā)了分布式訓(xùn)練框架Accelerate供AI人士使用。而UC Berkeley RISELa開源的Ray(據(jù)稱也是ChatGPT背后在使用的框架)和云托管產(chǎn)品AnyScale,微軟開源的深度學(xué)習(xí)庫DeepSpeed也備受歡迎。在從業(yè)者看來,盡管分布式訓(xùn)練框架非常多,但主流方案還是PyTorch+Megatron-LM+DeepSpeed。
目前在國內(nèi)也有類似的分布式訓(xùn)練框架,例如潞晨科技的ColossalAI、一流科技的OneFlow,而對于國內(nèi)在煉大模型的頭部互聯(lián)網(wǎng)廠商,如阿里的EPL(原名Whale)、華為的MindSpore、騰訊的AngelPTM等,市面上已有的框架并不能完全滿足其訴求,也會設(shè)計相應(yīng)的軟件棧用于自身基礎(chǔ)設(shè)施、硬件設(shè)施進(jìn)行進(jìn)一步定制和開發(fā)。
提高資源利用,分布式還能怎么創(chuàng)新?
基于GPU實現(xiàn)并行處理是常見手段。大模型訓(xùn)練中存在幾種經(jīng)典的分布式并行范式,分別為流水線并行(Pipeline Parallelism),數(shù)據(jù)并行(Data Parallelism)和張量并行(Tensor Parallesim)。微軟開源的分布式訓(xùn)練框架FastSpeed就融合了這三種并行范式。
浪潮信息人工智能軟件研發(fā)總監(jiān)吳韶華的主張是,相比于經(jīng)典的三維并用(張量并行+流水線并行+數(shù)據(jù)并行)方法,源2.0在三維并行策略的基礎(chǔ)上提出了非均勻流水并行+優(yōu)化器參數(shù)并行(ZeRO)+數(shù)據(jù)并行+損失計算分塊的分布式計算方法。
這種計算方式能有效降低大模型訓(xùn)練過程中對于節(jié)點內(nèi)AI芯片間通訊帶寬的需求,有更廣的適應(yīng)性。對帶寬的需求更小,同時也能獲得非常高的性能表現(xiàn)。同時結(jié)合優(yōu)化器參數(shù)并行,進(jìn)一步降低內(nèi)存需求,從而降低流水線路數(shù),最大限度地合理利用計算資源,實現(xiàn)存儲和計算的總體最佳性能。
他解釋稱,傳統(tǒng)方式的內(nèi)存分布在各個階段非常不均衡,往往在第一階段,其內(nèi)存已經(jīng)達(dá)到GPU上限,模型訓(xùn)練需要更多的計算設(shè)備和更長的流水并行,性能也不高。而非均勻流水方法,就是在劃分流水時不再采用均勻劃分方式,而是根據(jù)內(nèi)存需求實現(xiàn)比較均勻的分配,以滿足在有限硬件設(shè)備的模型訓(xùn)練。這種方式可有效緩解流水線頭部與尾部的內(nèi)存瓶頸,讓模型在流水并行各階段的內(nèi)存占用量分布更均衡。
2023年,浪潮信息AI團(tuán)隊相繼研發(fā)了OGAI大模型智算軟件棧、源2.0大模型,從軟硬協(xié)同層面去持續(xù)提升基礎(chǔ)大模型的能力,同時通過開放算力發(fā)展生態(tài)去探索可能突破的場景。經(jīng)過驗證,源2.0大模型算力集群的線性擴(kuò)展效率遠(yuǎn)高于同類千億參數(shù)大模型。結(jié)合實踐數(shù)據(jù),浪潮信息協(xié)助客戶將大模型訓(xùn)練的GPU峰值效率從30%提升至54%。
搶購算力,還沒考慮怎么用
參照GenAI的整體走向,無論是提高模型參數(shù)量,還是提高數(shù)據(jù)質(zhì)量規(guī)模,算力依舊是支撐大模型智能水平的核心驅(qū)力。要用足夠大的算力,去支撐起足夠精準(zhǔn)的模型泛化。但摩爾定律放緩在說明某些現(xiàn)實問題:大模型訓(xùn)練所需算力,已經(jīng)遠(yuǎn)超硬件加速器的處理速度,同時帶來的能源問題、數(shù)據(jù)中心的能耗問題,還浮于冰面之下。
而中國市場,相較于美國整體上還是會有一些差距,主流的算力芯片和加速能力基本來自于英偉達(dá),客戶對國產(chǎn)芯片作為備選方案的需求仍然不足。
某靠近底層硬件研發(fā)的AI從業(yè)者在探討中對鈦媒體指出,“適配都存在一定的難度,也就是說想要做這件事就必須有額外的投入。國產(chǎn)GPU廠商也會考慮幾點因素:一是用戶對國產(chǎn)芯片這件事情的必要性,二是業(yè)務(wù)目標(biāo)是否能達(dá)成;三是性能是否會有比較大的提升?!?/p>
這其實就帶來個問題,如果選擇適配國產(chǎn)GPU會做軟件適配或更上層的模型能力,勢必需要一定的時間,有些企業(yè)仍會通過諸多合規(guī)渠道購買芯片?;蛘?,某些使用規(guī)模不大的實驗室也會采用英偉達(dá)的消費級產(chǎn)品RTX 4090,這種方式性價比高,主要用于推理。
不過,這位從業(yè)者還注意到,“有些企業(yè)囤了很多先進(jìn)的高性能芯片,但大家訂購的第一想法其實并沒有考慮到怎么使用,或者說對于怎么用好這個邏輯上多少存在些問題?!?/p>
在新一輪超級周期中,GenAI無疑是企業(yè)競爭的重點。企業(yè)仍需加大硬實力投入,算力資源優(yōu)化的同時,也正時刻關(guān)注算法、數(shù)據(jù)帶給模型增強(qiáng)的突破。
現(xiàn)如今預(yù)訓(xùn)練大模型的算法框架依然是基于Transformer經(jīng)典架構(gòu),Transformer優(yōu)勢在于解決了原有循環(huán)神經(jīng)網(wǎng)絡(luò)無法理解上下文的問題,但Transformer同樣存在局限性或者可優(yōu)化的空間。
正如某AI大模型早期從業(yè)者曾對鈦媒體強(qiáng)調(diào),“從某些具體落地性上,算法比算力可能更為重要,我們會針對場景做很多算法上的創(chuàng)新,而這些問題往往是算力解決不了的。在沒有更好算法的時候,你其實是不知道1000個GPU能帶來多大的效果。”
算力,是最大的幫手,也成為最大的挑戰(zhàn)。