阿里開源通義DeepResearch,登頂開源Agent模型榜首
9月17日凌晨,阿里開源旗下首個深度研究Agent模型——通義DeepResearch。該模型在HLE、BrowseComp-zh、GAIA等多個權威評測集上取得SOTA成績(State-of-the-art),超越OpenAI Deep Research、DeepSeek-V3.1等Agent模型。目前,通義DeepResearch的模型、框架和方案均已全面開源,用戶可在Github、Hugging Face和魔搭社區下載模型和代碼。

通義DeepResearch登頂開源第一
深度研究是近一年來的研究熱點,谷歌、OpenAI、Anthropic等主流AI企業均在投入相關技術和產品。然而,現有方法普遍采用“單窗口、線性累加”的信息處理模式,所有中間思路和檢索到的信息堆積在單一上下文中。這種模式在處理長周期任務時,Agent會面臨“認知空間窒息”和“不可逆的噪聲污染”的挑戰,導致推理能力下降,最終難以完成真正長程、復雜的研究任務。
為此,通義團隊構建了一套以合成數據驅動、貫穿預訓練與后訓練的完整訓練鏈路。該鏈路以Qwen3-30B-A3B 模型為基座進行優化,為了確保訓練的高效性與模型的魯棒性,團隊創新性地設計了覆蓋真實環境與虛擬環境的RL算法驗證與真實訓練模塊,并結合高效異步強化學習算法及自動化數據策展(Data Curation)流程,顯著提升了模型的迭代速度和泛化能力。
在推理階段,團隊設計了 ReAct 和基于自研的IterResearch的Heavy 兩種模式,前者用于精準考察模型的基礎內在能力,后者則通過 test-time scaling 策略,充分挖掘并展現了模型所能達到的性能上限,即使在長任務中,也能實現高質量的推理。

在Humanity's Last Exam(HLE)、BrowseComp、BrowseComp-ZH、GAIA、xbench-deepsearch、WebWalkerQA以及Frames等權威Agent評測集上,通義DeepResearch模型以3B激活參數,性能超越基于OpenAI o3、DeepSeek V3.1和Claude-4-Sonnet等旗艦模型的ReAct Agent。
今年以來,阿里已連續開源WebWalker、WebDancer和WebSailor等多款檢索和推理智能體,并全部斬獲開源SOTA成績。
- 免責聲明:本文內容與數據僅供參考,不構成投資建議。據此操作,風險自擔。
- 版權聲明:凡文章來源為“大眾證券報”的稿件,均為大眾證券報獨家版權所有,未經許可不得轉載或鏡像;授權轉載必須注明來源為“大眾證券報”。
- 廣告/合作熱線:025-86256149
- 舉報/服務熱線:025-86256144
