一区二区三区在线播放,黄色av免费在线观看,全国最大成人免费视频,日本高清视频色,日韩少妇精品av一区二区,久久久久亚洲精品国产,久久精品在线视频,国产欧美精品一区aⅴ影院

    僅32B,昆侖萬維開源“自主代碼智能體模型Skywork-SWE-32B”,拿下代碼開源SOTA

    6月20日,昆侖萬維發布軟件工程(Software Engineering, SWE)自主代碼智能體基座模型Skywork-SWE,在開源32B模型規模下實現了業界最強的倉庫級代碼修復能力。昆侖萬維團隊通過構建超過1萬個可驗證的GitHub倉庫任務實例,打造出目前最大規模的可驗證GitHub倉庫級代碼修復的數據集,并系統性驗證了大模型在軟件工程任務上的數據縮放定律(Scaling Law)。

    Skywork-SWE-32B模型在SWE-bench Verified基準上取得38.0% pass@1準確率,刷新Qwen2.5-Coder-32B系列模型在OpenHands代碼框架下的最佳成績。進一步引入測試時擴展技術后,模型表現提升至47.0%的準確率,不僅超越了現有參數規模在32B以下的開源模型,也顯著地縮小了與閉源模型之間的性能差距。

    2025年被廣泛認為是智能體(Agent)模型的元年,其核心特征包括“超多輪交互”和“超長上下文處理”。在眾多應用方向中,軟件工程SWE任務正成為大語言模型智能體的關鍵應用場景之一。

    相比傳統的代碼生成任務(如代碼編程題解答),SWE任務更加貼近真實的軟件開發流程,涵蓋了從定位BUG、修改源代碼,到驗證修復效果的完整閉環。這類任務通常源自GitHub倉庫中的實際代碼工程問題,具備高度的真實性、復雜性和挑戰性,是評估智能體模型能力的一個重要基準。

    SWE任務的獨特之處在于,它對模型提出了更高要求:不僅需要支持多輪交互和長上下文推理,還需具備處理跨文件依賴、調用工具鏈,以及在復雜環境中持續修復代碼問題的能力。這些能力全面考驗了智能體模型的工程實踐水平與系統性思維能力。

    三階段自動化流程,構建大規模、高質量SWE任務訓練數據集

    盡管當前市面上已有不少工作聚焦于SWE任務并收集了相關的數據集,但當前的主流(訓練)數據集仍存在三大核心問題:

    1. 缺乏可執行環境與驗證機制:已有開源數據(如SWE-bench-extra、SWE-Fixer)通常缺乏環境或單元測試來驗證數據正確性,導致生成的修復難以驗證。

    2. 高質量訓練數據稀缺:盡管某些數據集規模較大(如 SWE-Dev、SWE-Gym),但缺乏經過嚴格驗證的訓練樣本,公開可用的高質量數據極為有限,導致開源模型在SWE任務上長期落后于閉源模型。

    3. 數據規模法則適用性不明確:相較于自然語言領域中的任務,SWE任務現有的公開訓練數據體量較小,尚無法有效驗證數據擴展是否能帶來模型能力的持續增長。

    為打破上述瓶頸,并且打造出具備工程實用性的SWE代碼智能體模型,昆侖萬維團隊首先在訓練階段自行構建了一套自動化、結構化、可復現的SWE數據收集與驗證流程,共分為三個階段、九個步驟(如下圖所示)。最終團隊構建出超1萬條高質量任務實例、8千條多輪交互的軌跡,為模型訓練提供堅實基礎。

    圖丨Skywork-SWE完整數據收集與驗證流程

    Skywork-SWE作為萬級高質量可驗證數據集,驅動智能體模型能力躍遷

    在上述三個階段過程中,團隊實施了嚴格的數據篩選與構建流程。如下圖所示,團隊從最初超過15萬條候選代碼倉庫元數據中,最終篩選出約1萬條高質量實例,構建出當前規模最大、質量最高的可驗證SWE任務(訓練)數據集——Skywork-SWE。

    圖丨數據構建過程中各個階段數據樣本量變化示意

    Skywork-SWE數據集在任務數量與代碼覆蓋廣度方面,遠超現有同類數據集(如SWE-Gym Lite與SWE-bench Verified),為大模型提供了豐富、多樣且貼近實際的軟件工程任務樣本,持續推動智能體模型的能力進化。此外,Skywork-SWE數據集不僅涵蓋如Pydantic、SQLGlot、DVC等主流開源項目,還包含大量中小型倉庫,呈現出高度貼近真實開發生態的任務分布特征。這種貼近真實開發生態的數據構成,有助于提升模型在復雜多樣場景下的問題解決能力。

    圖丨Skywork-SWE數據集的GitHub倉庫詞云

    Skywork-SWE登頂32B開源SOTA

    “Less artifact, more intelligence”(更少的人工約束,更多智能發揮) 是團隊開發軟件工程自主代碼智能體模型的核心理念。我們主張賦予AI更大自主權,由其決定工具使用與任務執行方式,而非人為預先設定規則流程。基于這一理念,最終選用目前最具自主性的開源OpenHands框架。

    基于Skywork-SWE數據集的高質量智能體軌跡,昆侖萬維團隊微調得到Skywork-SWE-32B模型,該模型在SWE-bench Verified測評中取得優異成績。截至目前,Skywork-SWE-32B在SWE-Bench榜單中成為當前性能最強的32B開源代碼智能體大模型,刷新SWE-bench Verified基準上同等規模模型的最佳成績,充分展示了其工程實用價值:

    1.Skywork-SWE-32B測評結果超越相同參數規模的模型。Skywork-SWE-32B基于開源OpenHands代碼Agent框架,實現了38.0% pass@1的準確率,達到了Qwen2.5-Coder-32B系列模型在OpenHands代碼框架下的最優水平。更為關鍵的是,實驗結果進一步表明:隨著訓練數據規模的持續擴展,模型性能持續提升,充分驗證了“數據規模擴展帶來的性能增益”在軟件工程任務中的有效性與適用性。

    2.應用測試時擴展技術之后,Skywork-SWE-32B取得了最優性能。在引入測試時擴展技術(Test-Time Scaling,TTS)后,Skywork-SWE-32B (+ TTS) 的pass@1準確率進一步提升至47.0%,刷新了32B參數規模以下開源模型的SOTA。更值得關注的是,Skywork-SWE-32B在與參數量高達671B的DeepSeek-V3-0324模型對比中仍展現出明顯優勢,領先8.2個百分點。

    3.Skywork-SWE-32B (+ TTS) 的表現接近甚至超越多數主流閉源大模型。Skywork-SWE-32B (+ TTS) 的pass@1準確率顯著超越了GPT-4.1-mini(23.86%)、 Claude 3.5 HaiKu(40.6%)和 OpenAI-o1-preview (41.3%),并且領先于Claude v3.5(46.0%)。

    持續探索更多Agent任務場景

    過去半年多時間,昆侖萬維在獎勵模型、多模態、推理、視頻生成等方向開源了一系列SOTA級別模型,如今又在Agent(SWE任務)方向再下一城。繼5月天工超級智能體(Skywork Super Agents)面向全球發布后,今天我們又發布并開源了自主代碼智能體模型Skywork-SWE-32B模型,這不僅是公司堅定開源策略的重要實踐,更代表了我們對Agent在辦公任務、SWE任務場景中的重要探索。

    通過Skywork-SWE數據集的構建,以及自主代碼智能體模型Skywork-SWE-32B模型的發布,團隊研究表明高質量且可執行驗證的數據是提升代碼智能體模型性能的關鍵瓶頸,系統化的數據擴展策略將在推動開源模型性能突破中發揮關鍵作用。基于此,我們期望Skywork-SWE-32B的開源,能夠助力社區在大語言模型驅動的軟件工程研究中持續演進。

    未來,Skywork-SWE-32B模型將進一步拓展多編程語言支持以覆蓋更廣泛的開發場景,并探索融合運行時測試反饋的強化學習機制,為構建真正具備智能軟件開發能力的大語言模型奠定堅實基礎。同時,昆侖萬維也將積極探索更多Agent任務場景。

    龔斯軒

    編輯:gloria
    AI 文章概述
    *本回答由 AI 生成,僅供參考,不構成任何專業建議。
      熱門新聞
        24小時熱榜
        日榜 | 周榜
            主站蜘蛛池模板: 少妇高潮一区二区三区99小说| 午夜黄色一级电影| 久久aⅴ国产欧美74aaa| 亚洲无人区码一码二码三码| a级片一区| 国产一级片子| 国产精品伦一区二区三区在线观看 | 欧美一区二区三区爽大粗免费| 美国三级日本三级久久99| 国产无遮挡又黄又爽免费网站| 免费的午夜毛片| 国产欧美一区二区三区不卡高清| 国产伦理精品一区二区三区观看体验| 国产伦精品一区二区三区四区| 少妇又紧又色又爽又刺激的视频| 欧美一级久久久| 国产一区二区国产| 午夜特片网| 久久精品国产一区二区三区| 制服丝袜视频一区| 一区二区三区欧美在线| 国产一区二区三区在线电影| 91国内精品白嫩初高生| 激情久久一区| 91久久精品在线| 亚洲精品一区二区三区98年| 国产精品中文字幕一区二区三区 | 午夜伦情电午夜伦情电影| 九九视频69精品视频秋欲浓| 69久久夜色精品国产7777| 久久综合久久自在自线精品自| 欧美日本一二三区| 日韩免费一级视频| 午夜爽爽爽男女免费观看| 97人人模人人爽人人喊38tv| 午夜在线观看av| 97欧美精品| 午夜精品一区二区三区aa毛片| 亚洲精品无吗| 欧美日韩一区二区三区免费| 国产一区二区在线免费| 蜜臀久久99精品久久久| 欧美综合国产精品久久丁香| 国产美女视频一区二区三区| 午夜wwww| 91久久免费| 激情久久久久久| 99久久婷婷国产综合精品草原| 国产精品自拍在线观看| 丰满少妇高潮惨叫久久久一| 精品国产免费一区二区三区| 99久久精品免费看国产交换| yy6080影院旧里番乳色吐息| 99riav3国产精品视频| 午夜少妇性影院免费观看| 国产精品日本一区二区不卡视频| 中文字幕一区二区三区又粗| 国产中文字幕91| 国产乱xxxxx国语对白| 国产精品电影一区| 欧美日韩精品中文字幕| 国产99久久九九精品免费| 久久精品com| 国产精品欧美一区二区视频| 999久久国精品免费观看网站| 亚洲国产美女精品久久久久∴| 精品国产免费久久| 国产乱一乱二乱三| 三级电影中文| 国产999精品视频| 亚洲欧美日韩国产综合精品二区 | 国产精品无码专区在线观看| 91夜夜夜| 99精品欧美一区二区| 国产精品日韩三级| 99久久久久久国产精品| 日韩精品一区二区三区在线| 欧美一区二区三区久久精品视| 久久激情影院| 久久久久亚洲最大xxxx| 国产真实一区二区三区| 一区二区精品在线| 色婷婷噜噜久久国产精品12p| 三级电影中文| 久久96国产精品久久99软件| 91理论片午午伦夜理片久久| 欧洲在线一区| 91看片片| 日韩不卡毛片| 8x8x国产一区二区三区精品推荐| 国产二区三区视频| 97久久超碰国产精品| 日韩av在线播| 日本99精品| 亚洲乱在线| 欧美午夜精品一区二区三区| 亚洲国产美女精品久久久久∴| 国产精品女人精品久久久天天| 欧美精品一卡二卡| 99国产精品一区| 高清人人天天夜夜曰狠狠狠狠| 国产偷自视频区视频一区二区| 一色桃子av大全在线播放| 欧美资源一区| 亚洲精品国产精品国产| 午夜电影院理论片做爰| 免费看性生活片| 91嫩草入口| 精品国精品国产自在久不卡| 蜜臀久久99静品久久久久久| 欧美在线一区二区视频| 日韩精品少妇一区二区在线看| 国产三级欧美三级日产三级99| 亚洲精品无吗| 农村妇女毛片精品久久| 国产一区二区三区色噜噜小说| 欧美一区二区三区激情| 久久99久国产精品黄毛片入口| 日本伦精品一区二区三区免费| 91麻豆精品一区二区三区| 亚洲一二三在线| 亚洲精品国产久| 黄毛片在线观看| 国产精品刺激对白麻豆99| 日韩精品久久一区二区三区| 四虎国产精品永久在线| 国产69精品福利视频| 国产日韩欧美91| 国产亚洲精品久久久456| 国产乱码一区二区三区| 久久激情网站| xxxx在线视频| 国产精品高潮呻| 精品国产一区二区三区忘忧草| 中文字幕一区三区| 亚洲精品乱码久久久久久按摩| 久久国产精品欧美| 黄毛片在线观看| 精品一区中文字幕| 日本边做饭边被躁bd在线看| 国产视频一区二区三区四区| 国产欧美日韩一区二区三区四区 | 国产区二区| 狠狠色噜噜狠狠狠狠色综合久老司机| 91精品国产综合久久国产大片| 亚洲国产欧美一区| 激情aⅴ欧美一区二区三区| 国产视频一区二区视频| 久久国产激情视频| 狠狠色噜噜狠狠狠狠777| 午夜天堂在线| 中文字幕在线一二三区| 国产视频一区二区不卡| 色综合久久精品| 色婷婷综合久久久中文一区二区| 精品国产一区二区三区麻豆免费观看完整版 | 国产伦精品一区二区三区电影| 欧美一区二区三区久久久精品| 久久影视一区二区| 亚洲欧美自拍一区| 久久精品国产亚洲7777| 欧美色图视频一区| 97精品国产97久久久久久粉红| 久久国产精品欧美| 亚洲va国产| 97人人模人人爽人人喊0| 99精品偷拍视频一区二区三区| 粉嫩久久99精品久久久久久夜| 狠狠躁夜夜躁| 精品91av| 福利片午夜| 91狠狠操| 亚洲国产精品日本| 色婷婷噜噜久久国产精品12p| 国产精品久久国产精品99| 亚洲欧洲日韩| 99久久国产综合| 国产不卡一区在线| 日韩av在线播放网址| 国产乱对白刺激视频在线观看| 91午夜在线| 国产偷自视频区视频一区二区| 亚洲v欧美v另类v综合v日韩v| 久久久久久亚洲精品| 午夜影院色| 一区二区国产精品| 亚洲第一区国产精品| 日本午夜精品一区二区三区| 国语对白老女人一级hd| 国产精品黑色丝袜的老师| 男女午夜影院| 国产高潮国产高潮久久久91| 亚洲欧美国产日韩色伦| 91久久精品在线| 精品国产仑片一区二区三区| 国语对白老女人一级hd| 日本一区二区三区免费在线| 69精品久久| 一区二区三区免费高清视频| 国偷自产一区二区三区在线观看| 真实的国产乱xxxx在线91| 久久99国产精品视频| 香蕉av一区| 亚洲国产欧美一区二区三区丁香婷| 国产一级精品在线观看| 91精品一区在线观看| 国产精品久久久久久久久久久杏吧| 日本午夜精品一区二区三区| 欧美系列一区二区| 99久久免费精品国产免费高清| 99精品国产99久久久久久97| 国产精品美女久久久另类人妖| 91一区二区三区在线| 亚洲欧美国产日韩色伦| 亚洲精品丝袜| 久久国产欧美一区二区三区精品| 欧美一区免费| 91热精品| 欧洲国产一区| 欧美亚洲视频二区| 国产一区2区3区| 97人人澡人人爽人人模亚洲| 欧美日韩国产精品一区二区三区| 日韩欧美精品一区二区| 国产大片黄在线观看私人影院| 欧美视屏一区二区| 乱淫免费视频| 国产视频精品一区二区三区| 国产天堂第一区| 88国产精品视频一区二区三区| 狠狠躁狠狠躁视频专区| 欧美髙清性xxxxhdvid| 午夜电影一区二区三区| 国产高清不卡一区| 亚洲精品性| 亚洲精品日本无v一区| 亚洲国产精品日韩av不卡在线| 午夜影院5分钟| 欧美日韩一区视频| 欧洲国产一区| 强制中出し~大桥未久在线播放 | 欧美午夜一区二区三区精美视频| 国产九九九精品视频| 国产精品视频久久久久| 国产一区二区伦理| 一区二区三区国产精品视频|