• <delect id="q0tbd"></delect>

    <source id="q0tbd"></source>
  • <dl id="q0tbd"></dl>
    <acronym id="q0tbd"><button id="q0tbd"><sup id="q0tbd"></sup></button></acronym>
    <delect id="q0tbd"></delect>
    <acronym id="q0tbd"></acronym>

    特黄一级毛片卡,亚洲深夜主播在线,黄色边缘调教在线观四虎国产看网站,精品日日躁夜夜躁蜜芽

    源2.0-M32大模型發(fā)布量化版 運(yùn)行顯存僅需23GB 性能可媲美LLaMA3

    2024-08-23 17:51 5336

    北京2024年8月23日 /美通社/ -- 近日,浪潮信息發(fā)布源2.0-M32大模型4bit和8bit量化版,性能比肩700億參數(shù)的LLaMA3開(kāi)源大模型。4bit量化版推理運(yùn)行顯存僅需23.27GB,處理每token所需算力約為1.9 GFLOPs,算力消耗僅為同等當(dāng)量大模型LLaMA3-70B的1/80。而LLaMA3-70B運(yùn)行顯存為160GB,所需算力為140GFLOPs。

    源2.0-M32量化版是"源"大模型團(tuán)隊(duì)為進(jìn)一步提高模算效率,降低大模型部署運(yùn)行的計(jì)算資源要求而推出的版本,通過(guò)采用領(lǐng)先的量化技術(shù),將原模型精度量化至int4和int8級(jí)別,并保持模型性能基本不變。源2.0-M32量化版提高了模型部署加載速度和多線程推理效率,在不同硬件和軟件環(huán)境中均能高效運(yùn)行,降低了模型移植和部署門(mén)檻,讓用戶使用更少的計(jì)算資源,就能獲取源2.0-M32大模型的強(qiáng)大能力。

    源2.0-M32大模型是浪潮信息"源2.0"系列大模型的最新版本,其創(chuàng)新性地提出和采用了"基于注意力機(jī)制的門(mén)控網(wǎng)絡(luò)"技術(shù),構(gòu)建包含32個(gè)專(zhuān)家(Expert)的混合專(zhuān)家模型(MoE),模型運(yùn)行時(shí)激活參數(shù)為37億,在業(yè)界主流基準(zhǔn)評(píng)測(cè)中性能全面對(duì)標(biāo)700億參數(shù)的LLaMA3開(kāi)源大模型,大幅提升了模型算力效率。

    模型量化(Model Quantization)是優(yōu)化大模型推理的一種主流技術(shù),它顯著減少了模型的內(nèi)存占用和計(jì)算資源消耗,從而加速推理過(guò)程。然而,模型量化可能會(huì)影響模型的性能。如何在壓縮模型的同時(shí)維持其精度,是量化技術(shù)面臨的核心挑戰(zhàn)。

    源2.0-M32大模型研發(fā)團(tuán)隊(duì)深入分析當(dāng)前主流的量化方案,綜合評(píng)估模型壓縮效果和精度損失表現(xiàn),最終采用了GPTQ量化方法,并采用AutoGPTQ作為量化框架。為了確保模型精度最大化,一方面定制化適配了適合源2.0-M32結(jié)構(gòu)的算子,提高了模型的部署加載速度和多線程推理效率,實(shí)現(xiàn)高并發(fā)推理;另一方面對(duì)需要量化的中間層(inter_layers)進(jìn)行了嚴(yán)格評(píng)估和篩選,確定了最佳的量化層。從而成功將模型精度量化至int4和int8級(jí)別,在模型精度幾乎無(wú)損的前提下,提升模型壓縮效果、增加推理吞吐量和降低計(jì)算成本,使其更易于部署到移動(dòng)設(shè)備和邊緣設(shè)備上。

    評(píng)測(cè)結(jié)果顯示,源2.0-M32量化版在多個(gè)業(yè)界主流的評(píng)測(cè)任務(wù)中性能表現(xiàn)突出,特別是在MATH(數(shù)學(xué)競(jìng)賽)、ARC-C(科學(xué)推理)任務(wù)中,比肩擁有700億參數(shù)的LLaMA3大模型。


    總之,源2.0-M32大模型量化版在保持推理性能的前提下,顯著降低了計(jì)算資源消耗和內(nèi)存占用,其采用的GPTQ量化方法通過(guò)精細(xì)調(diào)整,成功將模型適配至int4和int8精度級(jí)別。通過(guò)定制化算子優(yōu)化,源2.0-M32量化版實(shí)現(xiàn)了模型結(jié)構(gòu)的深度適配和性能的顯著提升,確保在不同硬件和軟件環(huán)境中均能高效運(yùn)行。未來(lái),隨著量化技術(shù)的進(jìn)一步優(yōu)化和應(yīng)用場(chǎng)景的拓展,源2.0-M32量化版有望在移動(dòng)設(shè)備和邊緣計(jì)算等領(lǐng)域發(fā)揮更廣泛的作用,為用戶提供更高效的智能服務(wù)。

    源2.0-M32量化版已開(kāi)源,下載鏈接如下:

    Hugging Face平臺(tái)下載鏈接:

    https://huggingface.co/IEITYuan/Yuan2-M32-gguf-int4
    https://huggingface.co/IEITYuan/Yuan2-M32-hf-int4
    https://huggingface.co/IEITYuan/Yuan2-M32-hf-int8 

    modelscope平臺(tái)下載鏈接:

    https://modelscope.cn/models/IEITYuan/Yuan2-M32-gguf-int4
    https://modelscope.cn/models/IEITYuan/Yuan2-M32-HF-INT4
    https://modelscope.cn/models/IEITYuan/Yuan2-M32-hf-int8 

     

    消息來(lái)源:浪潮信息
    China-PRNewsire-300-300.png
    全球TMT
    微信公眾號(hào)“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營(yíng)動(dòng)態(tài)、財(cái)報(bào)信息、企業(yè)并購(gòu)消息。掃描二維碼,立即訂閱!
    collection
    特黄一级毛片卡,亚洲深夜主播在线,黄色边缘调教在线观四虎国产看网站,精品日日躁夜夜躁蜜芽

  • <delect id="q0tbd"></delect>

    <source id="q0tbd"></source>
  • <dl id="q0tbd"></dl>
    <acronym id="q0tbd"><button id="q0tbd"><sup id="q0tbd"></sup></button></acronym>
    <delect id="q0tbd"></delect>
    <acronym id="q0tbd"></acronym>
    盐边县| 北票市| 莱州市| 霍林郭勒市| 通辽市| 盐津县| 壶关县| 贵定县| 修文县| 洛阳市| 宜都市| 化德县| 平昌县| 墨竹工卡县| 克拉玛依市| 灵石县| 寿光市| 布尔津县| 镇原县| 乌拉特前旗| 麟游县| 大邑县| 乐陵市| 新竹县| 蓬溪县| 晋宁县| 抚远县| 宁陵县| 海南省| 同江市| 遵化市| 万安县| 田阳县| 沾益县| 鄂托克旗| 襄城县| 思茅市| 时尚| 盐池县| 濮阳县| 陵川县|