一区二区三区在线播放,黄色av免费在线观看,全国最大成人免费视频,日本高清视频色,日韩少妇精品av一区二区,久久久久亚洲精品国产,久久精品在线视频,国产欧美精品一区aⅴ影院

    昆侖萬維開源2千億稀疏大模型天工MoE,全球首創(chuàng)能用4090推理

    2024年6月3日,昆侖萬維宣布開源 2 千億稀疏大模型 Skywork-MoE , 性能強(qiáng)勁, 同時(shí)推理成本更低。Skywork-MoE 基于之前昆侖萬維開源的 Skywork-13B 模型中間 checkpoint 擴(kuò)展而來,是首個(gè)完整將 MoE Upcycling 技術(shù)應(yīng)用并落地的開源千億 MoE大模型,也是首個(gè)支持用單臺 4090 服務(wù)器推理的開源千億 MoE大模型。

    開源地址:

    Skywork-MoE 的模型權(quán)重、技術(shù)報(bào)告完全開源,免費(fèi)商用,無需申請:

    ? 模型權(quán)重下載:

    ? https://huggingface.co/Skywork/Skywork-MoE-base

    ? https://huggingface.co/Skywork/Skywork-MoE-Base-FP8

    ? 模型開源倉庫:https://github.com/SkyworkAI/Skywork-MoE

    ? 模型技術(shù)報(bào)告:https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe-tech-report.pdf

    ? 模型推理代碼:(支持 8x4090 服務(wù)器上 8 bit 量化加載推理) https://github.com/SkyworkAI/vllm

    模型架構(gòu):

    本次開源的 Skywork-MoE 模型隸屬于天工 3.0 的研發(fā)模型系列,是其中的中檔大小模型(Skywork-MoE-Medium),模型的總參數(shù)量為 146B,激活參數(shù)量 22B,共有 16 個(gè) Expert,每個(gè) Expert 大小為 13B,每次激活其中的 2 個(gè) Expert。

    天工 3.0 還訓(xùn)練了 75B (Skywork-MoE-Small) 和 400B (Skywork-MoE-Large)兩檔 MoE 模型,并不在此次開源之列。

    模型能力:

    我們基于目前各大主流模型評測榜單評測了 Skywork-MoE,在相同的激活參數(shù)量 20B(推理計(jì)算量)下,Skywork-MoE 能力在行業(yè)前列,接近 70B 的 Dense 模型。使得模型的推理成本有近 3 倍的下降。同時(shí) Skywork-MoE 的總參數(shù)大小比 DeepSeekV2 的總參數(shù)大小要小 1/3,用更小的參數(shù)規(guī)模做到了相近的能力。

    技術(shù)創(chuàng)新:

    為了解決 MoE 模型訓(xùn)練困難,泛化性能差的問題,相較于 Mixtral-MoE, Skywork-MoE 設(shè)計(jì)了兩種訓(xùn)練優(yōu)化算法:

    1. Gating Logits 歸一化操作

    我們在 Gating Layer 的 token 分發(fā)邏輯處新增了一個(gè) normalization 操作,使得 Gating Layer 的參數(shù)學(xué)習(xí)更加趨向于被選中的 top-2 experts,增加 MoE 模型對于 top-2 的置信度:

    2. 自適應(yīng)的 Aux Loss

    有別于傳統(tǒng)的固定系數(shù)(固定超參)的 aux loss, 我們在 MoE 訓(xùn)練的不同階段讓模型自適應(yīng)的選擇合適的 aux loss 超參系數(shù),從而讓 Drop Token Rate 保持在合適的區(qū)間內(nèi),既能做到 expert 分發(fā)的平衡,又能讓 expert 學(xué)習(xí)具備差異化,從而提升模型整體的性能和泛化水平。在 MoE 訓(xùn)練的前期,由于參數(shù)學(xué)習(xí)不到位,導(dǎo)致 Drop Token Rate 太高(token 分布差異太大),此時(shí)需要較大的 aux loss 幫助 token load balance;在 MoE 訓(xùn)練的后期,我們希望 Expert 之間仍保證一定的區(qū)分度,避免 Gating 傾向?yàn)殡S機(jī)分發(fā) Token,因此需要較低的 aux loss 降低糾偏。

    訓(xùn)練 Infra

    如何對 MoE 模型高效的進(jìn)行大規(guī)模分布式訓(xùn)練是一個(gè)有難度的挑戰(zhàn),目前社區(qū)還沒有一個(gè)最佳實(shí)踐。Skywork-MoE 提出了兩個(gè)重要的并行優(yōu)化設(shè)計(jì),從而在千卡集群上實(shí)現(xiàn)了 MFU 38% 的訓(xùn)練吞吐,其中 MFU 以 22B 的激活參數(shù)計(jì)算理論計(jì)算量。

    1. Expert Data Parallel

    區(qū)別于 Megatron-LM 社區(qū)已有的 EP(Expert Parallel)和 ETP(Expert Tensor Parallel)設(shè)計(jì),我們提出了一種稱之為 Expert Data Parallel 的并行設(shè)計(jì)方案,這種并行方案可以在 Expert 數(shù)量較小時(shí)仍能高效的切分模型,對 Expert 引入的 all2all 通信也可以最大程度的優(yōu)化和掩蓋。相較于 EP 對 GPU 數(shù)量的限制和 ETP 在千卡集群上的低效, EDP 可以較好的解決大規(guī)模分布式訓(xùn)練 MoE 的并行痛點(diǎn),同時(shí) EDP 的設(shè)計(jì)簡單、魯棒、易擴(kuò)展,可以較快的實(shí)現(xiàn)和驗(yàn)證。

    一個(gè)最簡單的 EDP 的例子,兩卡情況下 TP = 2, EP = 2, 其中 Attention 部分采用 Tensor Parallel , Expert 部分采用 Expert Parallel

    2. 非均勻切分流水并行

    由于 first stage 的 Embedding 計(jì)算和 last stage 的 Loss 計(jì)算,以及 Pipeline Buffer 的存在, 流水并行下均勻切分 Layer 時(shí)的各 stage 計(jì)算負(fù)載和顯存負(fù)載均有較明顯的不均衡情況。我們提出了非均勻的流水并行切分和重計(jì)算 Layer 分配方式,使得總體的計(jì)算/顯存負(fù)載更均衡,約有 10% 左右的端到端訓(xùn)練吞吐提升。

    比較均勻切分和非均勻切分下的流水并行氣泡:對于一個(gè) 24 層 Layer 的 LLM, (a) 是均勻切分成 4 個(gè) stage,每個(gè) stage 的 layer 數(shù)量是:[6, 6, 6, 6].(b) 是經(jīng)過優(yōu)化后的非均勻切分方式,切成 5 個(gè) stage, 每個(gè) stage 的 layer 數(shù)量是:[5, 5, 5, 5, 4] , 在中間流水打滿的階段,非均勻切分的氣泡更低。

    MoE Know-how

    此外,Skywork-MoE 還通過一系列基于 Scaling Laws 的實(shí)驗(yàn),探究哪些約束會影響 Upcycling 和 From Scratch 訓(xùn)練 MoE 模型的好壞。

    一個(gè)可以遵循的經(jīng)驗(yàn)規(guī)則是:如果訓(xùn)練 MoE 模型的 FLOPs 是訓(xùn)練 Dense 模型的 2 倍以上,那么選擇 from Scratch 訓(xùn)練 MoE 會更好,否則的話,選擇 Upcycling 訓(xùn)練 MoE 可以明顯減少訓(xùn)練成本。

    4090 推理

    Skywork-MoE 是目前能在 8x4090 服務(wù)器上推理的最大的開源 MoE 模型。8x4090 服務(wù)器一共有 192GB 的 GPU 顯存,在 FP8 量化下(weight 占用 146GB),使用我們首創(chuàng)的非均勻 Tensor Parallel 并行推理方式,Skywork-MoE 可以在合適的 batch size 內(nèi)達(dá)到 2200 tokens/s 的吞吐。天工團(tuán)隊(duì)完整開源了相關(guān)的推理框架代碼和安裝環(huán)境,詳情參見:https://github.com/SkyworkAI/Skywork-MoE

    結(jié)語

    我們希望本次開源的 Skywork-MoE 模型、技術(shù)報(bào)告和相關(guān)的實(shí)驗(yàn)結(jié)果可以給開源社區(qū)貢獻(xiàn)更多的 MoE 訓(xùn)練經(jīng)驗(yàn)和 Know-how,包括模型結(jié)構(gòu)、超參選擇、訓(xùn)練技巧、訓(xùn)練推理加速等各方面, 探索用更低的訓(xùn)練推理成本訓(xùn)更大更強(qiáng)的模型,在通往 AGI 的道路上貢獻(xiàn)一點(diǎn)力量。

    編輯:gloria
    AI 文章概述
    *本回答由 AI 生成,僅供參考,不構(gòu)成任何專業(yè)建議。
      熱門新聞
        24小時(shí)熱榜
        日榜 | 周榜
            主站蜘蛛池模板: 91麻豆精品国产自产欧美一级在线观看| 国产一区二区四区| 不卡在线一区二区| 国产一级片一区| 欧美一区二区三区免费播放视频了| 色妞妞www精品视频| 国产午夜亚洲精品羞羞网站| 69精品久久| 粉嫩久久久久久久极品| 91精品国产九九九久久久亚洲 | 8x8x国产一区二区三区精品推荐| 精品久久久久久中文字幕大豆网 | 日本精品一二区| 一区二区精品在线| xxxxhd欧美| 国产91免费在线| 国产精品天堂网| 国产色午夜婷婷一区二区三区| 男人的天堂一区二区| 国产在线精品二区| 日本一区中文字幕| 国产一区二区三区伦理| 麻豆精品一区二区三区在线观看| 国产精欧美一区二区三区久久| 午夜激情免费电影| 日韩午夜一区| 国产精品人人爽人人做av片| 国产一区二区三区国产| 狠狠色噜噜狠狠狠狠69| 日本二区在线观看| 精品a在线| 91久久精品在线| 丰满岳乱妇bd在线观看k8| 国产欧美视频一区二区三区| 亚洲精品国产久| 免费观看xxxx9999片| 欧美一区二区三区视频在线观看| 亚洲欧美一二三| 午夜电影毛片| 91一区在线观看| 中文无码热在线视频| 亚洲精品国产91| 久久国产精品波多野结衣| 国产一区二区三区黄| 黄色香港三级三级三级| 狠狠躁日日躁狂躁夜夜躁av| 大bbw大bbw超大bbw| 91亚洲欧美日韩精品久久奇米色| 7799国产精品久久99| 久久国产精品欧美| 思思久久96热在精品国产| 性生交大片免费看潘金莲| 欧美精品九九| 国产偷久久一区精品69| 国产免费一区二区三区四区| 亚洲精品少妇一区二区| 久久aⅴ国产欧美74aaa| 精品国产乱码久久久久久免费| 国产欧美一区二区精品久久久| 欧美激情精品久久久久久免费| 国产精品人人爽人人做av片| 国产精品久久久久久久久久久不卡| 久久99国产精品久久99| 欧美极品少妇xx高潮| 国产的欧美一区二区三区| 538在线一区二区精品国产| 日韩精品免费一区二区中文字幕 | 91热国产| 欧美在线视频二区| 久久国产中文字幕| 中文字幕欧美日韩一区| 亚洲欧美日本一区二区三区| 黄色香港三级三级三级| 97欧美精品| 国产精品高潮呻| 激情aⅴ欧美一区二区三区| 久久不卡一区| 狠狠色狠狠综合久久| 久草精品一区| 欧美一级久久久| 国产一区在线视频播放| 亚洲国产精品国自产拍av| 91亚洲欧美日韩精品久久奇米色| 国产欧美日韩一级大片| 538国产精品一区二区| 国产亚洲精品久久久久动| 欧美一级特黄乱妇高清视频| 日韩美一区二区三区| 99久久婷婷国产综合精品草原| 欧美日韩久久一区| 在线播放国产一区| 国产精品一区二区在线观看免费| 国产日韩精品一区二区三区| 国产精品久久人人做人人爽 | 国产精品一区二区av麻豆| 欧美在线观看视频一区二区三区 | 国产午夜精品一区二区三区四区| 精品一区中文字幕| 日韩精品中文字幕在线| 6080日韩午夜伦伦午夜伦| 一二三区欧美| 年轻bbwwbbww高潮| 午夜肉伦伦| 欧美综合在线一区| 日韩精品一区二区三区四区在线观看| 性欧美精品动漫| 视频一区二区国产| 日韩一级免费视频| 国产一区二区极品| 国产乱淫精品一区二区三区毛片| 99国产精品9| 久久精品综合视频| 国产一级一区二区| 国产美女三级无套内谢| 国产亚洲久久| 欧美日韩三区| 国产精品一区久久人人爽| 午夜影院一区| 狠狠色丁香久久综合频道| 久久久久久久亚洲国产精品87| 国产视频精品一区二区三区| 国产品久精国精产拍| 欧美资源一区| 国产日韩欧美综合在线| 国产91丝袜在线播放动漫| 日韩av不卡一区二区| 午夜码电影| 精品a在线| 久久中文一区二区| 91丝袜国产在线播放| 久久99国产视频| 国偷自产中文字幕亚洲手机在线| 国产午夜精品一区二区三区视频| 欧美日韩一区视频| 午夜私人影院在线观看| 欧美乱妇高清无乱码免费| 午夜情所理论片| 一区二区三区日韩精品| 91理论片午午伦夜理片久久| 亚洲国产一区二区久久久777| 97香蕉久久国产超碰青草软件| 狠狠色综合久久婷婷色天使| 中文字幕一区二区三区免费视频| 亚洲一级中文字幕| 又色又爽又大免费区欧美| 国产三级在线视频一区二区三区| 欧美乱战大交xxxxx| 日韩欧美一区二区在线视频| 国产一区二区伦理片| 国产欧美www| 91国偷自产一区二区介绍| 国产一级片子| 日韩精品一区二区免费| 久久五月精品| 国内久久久| 午夜wwww| 国产二区不卡| 中文字幕一级二级三级| 国产日韩一区二区三区| 亚洲欧美一卡| 中文字幕一区2区3区| 91精品丝袜国产高跟在线| 国产国产精品久久久久| 人人澡超碰碰97碰碰碰| 亚洲精华国产欧美| 福利片午夜| 电影91久久久| 欧美精品日韩一区| 狠狠色狠狠色综合久久第一次| 日韩av三区| 国产精品视频免费看人鲁| 一区二区三区国产欧美| 强行挺进女警紧窄湿润| 久久人人精品| 午夜特级片| 国产亚洲精品久久久456| 日韩精品免费播放| 欧美日韩一级在线观看| 精品国产一区二区三区四区vr| 国产大学生呻吟对白精彩在线| 亚洲区在线| 日韩中文字幕在线一区二区| 日韩精品久久久久久久的张开腿让 | 日韩精品一区二区三区在线| 国产农村妇女精品一区二区 | 香蕉久久国产| 久久精品com| 日本一区二区三区免费在线| 99精品一级欧美片免费播放| 日韩av一区二区在线播放| 欧美国产三区| 天天射欧美| 香港三日三级少妇三级99| 在线精品国产一区二区三区88 | 国产精品一区二区在线观看| 中文在线一区二区三区| 青苹果av| 国产欧美一区二区在线| 中文字幕制服丝袜一区二区三区 | 精品国产1区2区3区| 亚洲精品国产主播一区| 手机看片国产一区| 亚洲四区在线观看| 久久夜靖品2区| 69xx国产| 一区精品二区国产| 久久久久久久国产| 精品国产九九| 96国产精品视频| 欧美3级在线| 一二三区欧美| 99国产精品丝袜久久久久久| 一区二区在线精品| 亚洲国产精品区| 精品国产鲁一鲁一区二区三区| 少妇又紧又色又爽又刺激视频网站| 国产91精品高清一区二区三区| xoxoxo亚洲国产精品| 日日夜夜一区二区| 久久精品国产久精国产| 三级午夜片| 手机看片国产一区| 99热久久这里只精品国产www | 国产日韩欧美亚洲综合| 欧美一区二区三区久久久精品| 国产高清在线一区| 国产欧美日韩精品在线| 玖玖玖国产精品| 欧美精品日韩| 99日本精品| 亚洲欧美日本一区二区三区 | 国产91丝袜在线熟| 国产精品高潮呻吟视频| 久久国产欧美日韩精品| 日本精品一区二区三区在线观看视频 | 午夜影院你懂的| 91人人精品| 97精品久久人人爽人人爽| 精品久久二区| 91婷婷精品国产综合久久| 国产精品三级久久久久久电影| 国产在线不卡一区| 日韩电影在线一区二区三区| 中文字幕一级二级三级| 狠狠插影院| 日本伦精品一区二区三区免费|