阿里開源通義DeepResearch,登頂開源Agent模型榜首
9月17日凌晨,阿里開源旗下首個(gè)深度研究Agent模型——通義DeepResearch。該模型在HLE、BrowseComp-zh、GAIA等多個(gè)權(quán)威評(píng)測(cè)集上取得SOTA成績(jī)(State-of-the-art),超越OpenAI Deep Research、DeepSeek-V3.1等Agent模型。目前,通義DeepResearch的模型、框架和方案均已全面開源,用戶可在Github、Hugging Face和魔搭社區(qū)下載模型和代碼。

通義DeepResearch登頂開源第一
深度研究是近一年來(lái)的研究熱點(diǎn),谷歌、OpenAI、Anthropic等主流AI企業(yè)均在投入相關(guān)技術(shù)和產(chǎn)品。然而,現(xiàn)有方法普遍采用“單窗口、線性累加”的信息處理模式,所有中間思路和檢索到的信息堆積在單一上下文中。這種模式在處理長(zhǎng)周期任務(wù)時(shí),Agent會(huì)面臨“認(rèn)知空間窒息”和“不可逆的噪聲污染”的挑戰(zhàn),導(dǎo)致推理能力下降,最終難以完成真正長(zhǎng)程、復(fù)雜的研究任務(wù)。
為此,通義團(tuán)隊(duì)構(gòu)建了一套以合成數(shù)據(jù)驅(qū)動(dòng)、貫穿預(yù)訓(xùn)練與后訓(xùn)練的完整訓(xùn)練鏈路。該鏈路以Qwen3-30B-A3B 模型為基座進(jìn)行優(yōu)化,為了確保訓(xùn)練的高效性與模型的魯棒性,團(tuán)隊(duì)創(chuàng)新性地設(shè)計(jì)了覆蓋真實(shí)環(huán)境與虛擬環(huán)境的RL算法驗(yàn)證與真實(shí)訓(xùn)練模塊,并結(jié)合高效異步強(qiáng)化學(xué)習(xí)算法及自動(dòng)化數(shù)據(jù)策展(Data Curation)流程,顯著提升了模型的迭代速度和泛化能力。
在推理階段,團(tuán)隊(duì)設(shè)計(jì)了 ReAct 和基于自研的IterResearch的Heavy 兩種模式,前者用于精準(zhǔn)考察模型的基礎(chǔ)內(nèi)在能力,后者則通過(guò) test-time scaling 策略,充分挖掘并展現(xiàn)了模型所能達(dá)到的性能上限,即使在長(zhǎng)任務(wù)中,也能實(shí)現(xiàn)高質(zhì)量的推理。

在Humanity's Last Exam(HLE)、BrowseComp、BrowseComp-ZH、GAIA、xbench-deepsearch、WebWalkerQA以及Frames等權(quán)威Agent評(píng)測(cè)集上,通義DeepResearch模型以3B激活參數(shù),性能超越基于OpenAI o3、DeepSeek V3.1和Claude-4-Sonnet等旗艦?zāi)P偷腞eAct Agent。
今年以來(lái),阿里已連續(xù)開源WebWalker、WebDancer和WebSailor等多款檢索和推理智能體,并全部斬獲開源SOTA成績(jī)。
- 免責(zé)聲明:本文內(nèi)容與數(shù)據(jù)僅供參考,不構(gòu)成投資建議。據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
- 版權(quán)聲明:凡文章來(lái)源為“大眾證券報(bào)”的稿件,均為大眾證券報(bào)獨(dú)家版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載或鏡像;授權(quán)轉(zhuǎn)載必須注明來(lái)源為“大眾證券報(bào)”。
- 廣告/合作熱線:025-86256149
- 舉報(bào)/服務(wù)熱線:025-86256144

