• <delect id="q0tbd"></delect>

    <source id="q0tbd"></source>
  • <dl id="q0tbd"></dl>
    <acronym id="q0tbd"><button id="q0tbd"><sup id="q0tbd"></sup></button></acronym>
    <delect id="q0tbd"></delect>
    <acronym id="q0tbd"></acronym>

    特黄一级毛片卡,亚洲深夜主播在线,黄色边缘调教在线观四虎国产看网站,精品日日躁夜夜躁蜜芽

    KubeCon熱點報告:AIStation調(diào)度平臺實現(xiàn)RoCE網(wǎng)絡下大模型的高效穩(wěn)定訓練

    2023-10-16 15:31 4246

    北京2023年10月16日 /美通社/ -- 近日,在KubeCon + CloudNativeCon + Open Source Summit China 2023大會(簡稱"開源技術峰會")上,浪潮信息分享了"基于Kubernetes+RoCEv2構建大規(guī)模AI基礎設施與大模型訓練實踐"主題報告,介紹了浪潮信息在大模型開發(fā)過程中,尤其在大規(guī)模RoCE網(wǎng)絡的使用場景,如何通過AIStation人工智能算力調(diào)度平臺滿足大模型訓練的穩(wěn)定性和效率要求,實現(xiàn)高效長時間持續(xù)訓練。

    KubeCon + CloudNativeCon + Open Source Summit是Linux基金會、云原生計算基金會(CNCF)主辦的開源和云原生領域的旗艦盛會,在業(yè)界享有極高的聲譽,來自谷歌、亞馬遜、英特爾、Hugging Face等知名企業(yè)的近百位全球技術專家及行業(yè)領袖齊聚本屆大會,帶來最前沿的云原生相關技術成果和技術洞察。

    大模型訓練遇RoCE網(wǎng)絡性能低、斷點難題

    大模型是當前通用人工智能產(chǎn)業(yè)發(fā)展創(chuàng)新的核心技術。但大模型訓練過程非常復雜,面臨諸多挑戰(zhàn)。

    一方面,大模型訓練對通信的要求非常高。為了獲得最優(yōu)的訓練效果,單臺GPU服務器會搭載多張InfiniBand、ROCE等高性能網(wǎng)卡,為節(jié)點間通信提供高吞吐、低時延的服務。但不同的網(wǎng)絡方案各有優(yōu)劣,InfiniBand因性能優(yōu)異已被公認為大模型訓練的首選,但其成本較高;RoCE雖然成本較低,但在大規(guī)模的網(wǎng)絡環(huán)境下,其性能和穩(wěn)定性不如InfiniBand方案。因此要想滿足大模型訓練對通信的要求,就要對集群網(wǎng)絡中的通信設備適配使用和網(wǎng)絡情況進行探索和設計。

    另一方面,大模型訓練周期通常長達數(shù)月,集群計算效力低、故障頻發(fā)且處理復雜,會導致訓練中斷后不能及時恢復,從而降低大模型訓練的成功率,也會使得訓練成本居高不下。Meta在訓練Open Pre-trained Transformer (OPT)-175B大模型時,遇到的一大工程問題就是訓練不穩(wěn)定,Meta訓練日志顯示兩個星期內(nèi)因硬件、基礎設施或實驗穩(wěn)定性問題重新啟動了40多次。

    AIStation實現(xiàn)RoCE網(wǎng)絡下大模型高效穩(wěn)定訓練

    針對大模型研發(fā)和應用各環(huán)節(jié)的諸多挑戰(zhàn),浪潮信息發(fā)布了大模型智算軟件棧OGAI(Open GenAI Infra)——"元腦生智",為大模型業(yè)務提供了全棧全流程的智算軟件棧。OGAI軟件棧由5層架構組成,其中L2層AIStation針對大模型訓練中常見的"RoCE網(wǎng)絡性能和穩(wěn)定性低"、"訓練中斷"難題,提供了性能和兼容性俱佳的網(wǎng)絡方案和斷點續(xù)訓能力,為大模型訓練保駕護航。

    1. 優(yōu)化RoCE網(wǎng)絡下的大模型訓練,提升網(wǎng)絡性能和穩(wěn)定性

    AIStation能夠制定合理的作業(yè)執(zhí)行計劃,以最大限度地利用資源,滿足訓練任務的時延和吞吐需求。AIStation優(yōu)化調(diào)度系統(tǒng)性能,實現(xiàn)了上千POD極速啟動和環(huán)境就緒。尤其AIStation對大規(guī)模RoCE無損網(wǎng)絡下的大模型訓練也做了相應優(yōu)化,實測網(wǎng)絡性能穩(wěn)定性達到了業(yè)界較高水平。

    AIStation通過PFC+ECN構建無損以太網(wǎng)絡,在交換機側控制方面,PFC在數(shù)據(jù)鏈路層基于報文-隊列優(yōu)先級,在交換機入口側進行擁塞控制,ECN在網(wǎng)絡層基于數(shù)據(jù)包頭中的標識位,在交換機出口側進行擁塞控制。主機容器側控制則為Kubernetes的Pod,基于Linux、OFED驅動進行擁塞控制。該方案資源使用靈活,且經(jīng)過多輪次的GPU分配與回收,解決了GPU分布的碎片化問題。

    基于PFC+ECN構建無損以太網(wǎng)絡
    基于PFC+ECN構建無損以太網(wǎng)絡

    在大模型訓練場景,AIStation通過Calico構建元數(shù)據(jù)交換網(wǎng)絡,基于物理RoCE網(wǎng)卡構建RDMA通訊網(wǎng)絡,并通過CNI和虛擬化插件實現(xiàn)IP分配,使POD內(nèi)大模型訓練任務能夠充分利用NCCL的PXN等通信優(yōu)化特性,實現(xiàn)網(wǎng)絡的高效使用。

    借助AIStation平臺,某大型商業(yè)銀行完成了主流大模型訓練框架,如DeepSpeed、Megatron-LM和大語言模型在RoCE網(wǎng)絡環(huán)境下的訓練,快速實現(xiàn)大模型的落地實踐。

    2. 內(nèi)置監(jiān)控系統(tǒng)和智能運維模塊,保障大模型穩(wěn)定訓練

    健壯性與穩(wěn)定性是高效完成大模型訓練的必要條件。利用AIStation內(nèi)置的監(jiān)控全面的監(jiān)控系統(tǒng)和智能運維模塊,可以快速定位芯片、網(wǎng)卡、通訊設備異常或故障。同時對訓練任務進行暫停保持,再從熱備算力中進行自動彈性替換異常節(jié)點,最后利用健康節(jié)點進行快速checkpoint讀取,實現(xiàn)大模型斷點自動續(xù)訓。

    大規(guī)模預訓練任務的異常處理和斷點續(xù)訓流程
    大規(guī)模預訓練任務的異常處理和斷點續(xù)訓流程

    3. 自動配置環(huán)境,快速構建大模型訓練任務

    AIStation實現(xiàn)了計算、存儲、網(wǎng)絡等訓練環(huán)境的自動化配置,同時允許用戶自定義基本的超參數(shù),只需簡單幾步,就能啟動大模型分布式訓練。并且,AIStation還集成了主流的大模型訓練框架,包括Megatron-LM、DeepSpeed、HunggingFace上的諸多開源解決方案,實現(xiàn)了秒級構建運行環(huán)境。能夠幫助開發(fā)者在大規(guī)模集群環(huán)境下便捷地提交分布式任務。調(diào)度系統(tǒng)根據(jù)分布式任務對GPU算力的需求,通過多種親和性調(diào)度策略,大大降低構建分布式訓練任務的技術門檻。

    AIStation平臺在AI開發(fā)、應用部署和大模型工程實踐上積累了寶貴的經(jīng)驗和技術,幫助諸多行業(yè)客戶在資源、開發(fā)、部署層面實現(xiàn)降本增效。在垂直行業(yè)領域,AIStation平臺幫助頭部金融客戶、生物制藥服務公司快速利用密集數(shù)據(jù)訓練、驗證大模型,大大降低大模型業(yè)務成本。某大型商業(yè)銀行基于AIStation打造的并行運算集群,憑借領先的大規(guī)模分布式訓練支撐能力,榮獲2022 IDC"未來數(shù)字基礎架構領軍者"獎項。

    浪潮信息AIStation在大模型方面已經(jīng)取得了諸多業(yè)界領先的經(jīng)驗和積累,實現(xiàn)了端到端的優(yōu)化,是更適合大模型時代的AI算力調(diào)度平臺。未來AIStation進一步通過低代碼、標準化的大模型開發(fā)流程,以及低成本和高效的推理服務部署,幫助客戶快速實現(xiàn)大模型開發(fā)和落地,加速生成式AI發(fā)展。

    消息來源:浪潮信息
    China-PRNewsire-300-300.png
    全球TMT
    微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
    collection
    特黄一级毛片卡,亚洲深夜主播在线,黄色边缘调教在线观四虎国产看网站,精品日日躁夜夜躁蜜芽

  • <delect id="q0tbd"></delect>

    <source id="q0tbd"></source>
  • <dl id="q0tbd"></dl>
    <acronym id="q0tbd"><button id="q0tbd"><sup id="q0tbd"></sup></button></acronym>
    <delect id="q0tbd"></delect>
    <acronym id="q0tbd"></acronym>
    肥西县| 乌拉特前旗| 罗源县| 西林县| 托克托县| 连城县| 韶山市| 平原县| 清镇市| 保德县| 凌云县| 德江县| 普格县| 建平县| 阿荣旗| 兴仁县| 桦甸市| 玉溪市| 台南市| 绥芬河市| 曲麻莱县| 杭锦后旗| 卓尼县| 儋州市| 福州市| 京山县| 苏尼特右旗| 聂拉木县| 英吉沙县| 离岛区| 桃园县| 景德镇市| 土默特左旗| 北碚区| 七台河市| 息烽县| 栾城县| 南通市| 隆德县| 突泉县| 阜城县|