昆侖萬(wàn)維正式發(fā)布Skywork R1V4-Lite,多模態(tài)智能體邁向開放式交互時(shí)代
11月18日,昆侖萬(wàn)維正式發(fā)布Skywork R1V4-Lite,一款集成視覺(jué)操作、推理與規(guī)劃的輕量級(jí)多模態(tài)智能體。它不僅能進(jìn)行深度推理,還在同一模型中統(tǒng)一了主動(dòng)圖像操作、外部工具調(diào)用、多模態(tài)深度研究三大能力。
與傳統(tǒng)只能“看圖回答”的模型不同,Skywork R1V4-Lite能夠在真實(shí)場(chǎng)景中隨手拍照即可完成復(fù)雜任務(wù):自動(dòng)旋轉(zhuǎn)圖像判斷空間位置、多次放大讀取模糊文字、繪制輔助線驗(yàn)證幾何關(guān)系、跨模態(tài)搜索定位真實(shí)地點(diǎn)……這些過(guò)去只有在大型模型或?qū)S肁gent系統(tǒng)中才能實(shí)現(xiàn)的能力,如今在輕量多模態(tài)智能體Skywork R1V4-Lite中即可完成。
這意味著用戶不需要設(shè)計(jì)提示詞,不需要提供額外信息,只需拍一張圖,Skywork R1V4-Lite就能自己觀察、操作、推理并給出答案。從感知到行動(dòng),從推理到驗(yàn)證,Skywork R1V4-Lite讓“即時(shí)多模態(tài)洞察”成為現(xiàn)實(shí),為多模態(tài)智能體從封閉推理邁向開放式交互提供了新的技術(shù)路徑。
在多個(gè)權(quán)威視覺(jué)與感知基準(zhǔn)上,Skywork R1V4-Lite展現(xiàn)出超過(guò)預(yù)期的競(jìng)爭(zhēng)力:在8個(gè)多模態(tài)理解基準(zhǔn)評(píng)測(cè)上整體領(lǐng)先Gemini 2.5 Flash,其中5個(gè)任務(wù)上超過(guò)Gemini 2.5 Pro的水平。


這證實(shí)了“圖像操作×深度推理”訓(xùn)練范式的有效性,并展現(xiàn)出極強(qiáng)的scaling潛力:即便是小模型,也能逼近頂級(jí)閉源模型的表現(xiàn)。
01核心優(yōu)勢(shì)一:隨手拍解題,即時(shí)理解的主動(dòng)視覺(jué)操作
Skywork R1V4-Lite在推理過(guò)程中并非被動(dòng)“看圖回答”,而是具備主動(dòng)式圖像操作能力:在遇到視角受限或信息不足的場(chǎng)景時(shí),模型會(huì)自動(dòng)執(zhí)行裁切(Crop)、放大(Zoom)、旋轉(zhuǎn)(Rotate)、區(qū)域定位等操作,構(gòu)建一條透明且可回溯的“視覺(jué)行動(dòng)鏈”。
R1V4-Lite展現(xiàn)出物理邏輯理解力:它先對(duì)圖像進(jìn)行幾何校正,再基于正確視角進(jìn)行空間關(guān)系推理。
當(dāng)任務(wù)要求極高精度時(shí),R1V4-Lite會(huì)進(jìn)一步主動(dòng)進(jìn)行微觀級(jí)操作:放大區(qū)域、生成參考線、構(gòu)建輔助判斷策略。對(duì)于需要“精密判斷”的任務(wù),模型不會(huì)直接給答案,而是會(huì)先構(gòu)建輔助工具來(lái)確保結(jié)果嚴(yán)謹(jǐn)可靠。
在需要主動(dòng)式圖像操作能力的任務(wù)中,模型會(huì)主動(dòng)進(jìn)行多步裁剪放大的圖像操作,找到對(duì)應(yīng)的圖片區(qū)域,使推理結(jié)果具備可解釋性與嚴(yán)謹(jǐn)性。這一過(guò)程完整展示了R1V4-Lite的視覺(jué)行動(dòng)力:模型不再“被動(dòng)看圖”,而是在復(fù)雜場(chǎng)景中主動(dòng)探索、驗(yàn)證、修正與整合,實(shí)現(xiàn)真正意義上的“邊觀察、邊思考、邊行動(dòng)”。
02核心優(yōu)勢(shì)二:多模態(tài)深度研究,領(lǐng)先的輕量級(jí)搜索增強(qiáng)能力
Skywork R1V4-Lite也支持接入聯(lián)網(wǎng)搜索功能,在聯(lián)網(wǎng)搜索下會(huì)自動(dòng)觸發(fā)深度研究能力:
通過(guò)構(gòu)建推理腳手架,與外部世界進(jìn)行搜索、檢索、比對(duì)等主動(dòng)交互。觸發(fā)搜索、檢索、比對(duì)等多種外部資源交互,將搜索結(jié)果與視覺(jué)推理深度融合,形成“搜索—推理—驗(yàn)證”的閉環(huán)。模型由此獲得跨模態(tài)、跨資源的知識(shí)擴(kuò)展能力,推理邊界顯著拉寬。

從結(jié)果上看,R1V4-Lite在多模態(tài)DeepResearch類任務(wù)中展現(xiàn)出了領(lǐng)先趨勢(shì):在mm-search上以66分超過(guò)Gemini 2.5 Flash的64.9分,在FVQA上以67分顯著領(lǐng)先Gemini 2.5 Flash的60.8分。這一系列結(jié)果強(qiáng)有力地驗(yàn)證了“圖像操作×深度推理交織訓(xùn)練”范式的有效性。
面對(duì)復(fù)雜問(wèn)題,R1V4-Lite能夠進(jìn)行多輪推理與信息整合。
R1V4-Lite不僅在學(xué)術(shù)、法律、生態(tài)與醫(yī)學(xué)場(chǎng)景中展現(xiàn)出強(qiáng)大的多模態(tài)深度推理能力,在電商智能與內(nèi)容理解方面同樣表現(xiàn)卓越。R1v4-Lite在復(fù)雜的圖片輸入下,找到了商品來(lái)源并給出了詳細(xì)的商品介紹。這種能力可直接應(yīng)用于智能導(dǎo)購(gòu)、圖搜找同款、跨平臺(tái)商品比價(jià)等典型電商場(chǎng)景。
03核心優(yōu)勢(shì)三:看圖即可規(guī)劃,主動(dòng)式多模態(tài)任務(wù)規(guī)劃
R1V4-planner-Lite可以支持真正意義上的主動(dòng)式多模態(tài)Agentic規(guī)劃,首次讓視覺(jué)輸入能夠直接驅(qū)動(dòng)任務(wù)鏈規(guī)劃,將推理鏈擴(kuò)展為可執(zhí)行鏈。
從一張圖像出發(fā),Planner能夠自動(dòng)構(gòu)建一條可執(zhí)行的多輪任務(wù)鏈(task chain),并完成:
?任務(wù)分解(Task Decomposition)
?工具選擇(Tool Selection)
?參數(shù)生成(Parameter Generation)
?執(zhí)行順序規(guī)劃(Execution Ordering)
這意味著模型首次從傳統(tǒng)的“看圖回答”→“看圖行動(dòng)”,具備了由視覺(jué)驅(qū)動(dòng)的行動(dòng)規(guī)劃能力。
在此基礎(chǔ)上,R1V4-Planner-Lite將規(guī)劃能力擴(kuò)展到系統(tǒng)級(jí)(system-level planning):模型會(huì)綜合用戶意圖、上下文、可用工具與任務(wù)依賴關(guān)系(dependency graph),自動(dòng)生成結(jié)構(gòu)化的執(zhí)行方案,并以高度可解釋的形式給出每一步的工具、參數(shù)與目的。這為Agentic智能提供了可控性、透明度和穩(wěn)定性。
Skywork R1V4-Lite并非傳統(tǒng)意義上的“小模型”。它是業(yè)界首個(gè)在輕量級(jí)架構(gòu)下同時(shí)實(shí)現(xiàn):圖像操作(Crop/Zoom/Rotate)、深度推理(Long-form Reasoning)和任務(wù)規(guī)劃(Agentic Planning)三能力統(tǒng)一的多模態(tài)智能體。
在極小參數(shù)規(guī)模下,Skywork R1V4-Lite依然能進(jìn)行端到端的深度思考與主動(dòng)執(zhí)行,實(shí)現(xiàn)從“視覺(jué)輸入”一直推到“任務(wù)完成”的完整能力鏈。
04核心優(yōu)勢(shì)四:小尺寸、快響應(yīng)、低成本
Skywork R1V4-Lite在模型規(guī)模、推理速度與吞吐效率之間實(shí)現(xiàn)了極佳工程平衡。這意味著它不僅適合工程落地,也能支撐極高的并發(fā)和實(shí)時(shí)性要求,是移動(dòng)端、應(yīng)用內(nèi)推理和高QPS產(chǎn)品的更優(yōu)選項(xiàng)。
通過(guò)更高效的模型優(yōu)化與基于Qwen3 A3B輕量架構(gòu)設(shè)計(jì),它在真實(shí)生產(chǎn)環(huán)境中展現(xiàn)出遠(yuǎn)超同體量模型的性能表現(xiàn):
1.響應(yīng)速度(Latency)
-約為Gemini 2.5 Pro的1/19
-約為Gemini 2.5 Flash的1/5
2.Token吞吐(TPS)
-為Gemini 2.5 Pro/Flash的約2倍
3.端到端完成速度:依托更強(qiáng)的推理壓縮能力與極低的工具調(diào)用輪次,在工具調(diào)用與長(zhǎng)推理任務(wù)(端到端使用工具),R1V4-Lite實(shí)現(xiàn)了:
-比Gemini 2.5 Pro快2.9×
-比Gemini 2.5 Flash快1.7×
憑借低延遲×高吞吐×極低成本的組合優(yōu)勢(shì),R1V4-Lite完美適用于:
?實(shí)時(shí)問(wèn)答
?視覺(jué)檢索
?智能助手
?多模態(tài)工具調(diào)用
?高并發(fā)的在線生產(chǎn)場(chǎng)景
R1V4-Lite的發(fā)布證明了——小模型也能很強(qiáng),小模型也能很快,小模型也能多模態(tài)。
05展望
R1V4-Lite的成功不僅來(lái)自工程優(yōu)化,更源自其背后的多模態(tài)新范式:圖像操作×深度推理交織訓(xùn)練。這一訓(xùn)練路線讓輕量模型具備跨模態(tài)推理、主動(dòng)圖像操作、任務(wù)規(guī)劃與搜索增強(qiáng)的統(tǒng)一能力,展示了輕量多模態(tài)智能體的全新可能性。
這一結(jié)果進(jìn)一步說(shuō)明:能力密度比參數(shù)規(guī)模更重要,小模型也能逼近閉源模型的真實(shí)表現(xiàn)。隨著更大容量與更強(qiáng)結(jié)構(gòu)進(jìn)一步加入該范式,其scaling潛力將持續(xù)釋放。目前,Skywork R1V4-Pro也即將發(fā)布。
未來(lái),昆侖萬(wàn)維旗下Skywork將沿著“Multimodal Reasoning×Agentic Intelligence×Tool Augmentation”路線繼續(xù)前進(jìn),讓模型不僅理解世界,還能更有效地與世界信息交互,并在真實(shí)任務(wù)中產(chǎn)生實(shí)際價(jià)值。
龔斯軒
- 免責(zé)聲明:本文內(nèi)容與數(shù)據(jù)僅供參考,不構(gòu)成投資建議。據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
- 版權(quán)聲明:凡文章來(lái)源為“大眾證券報(bào)”的稿件,均為大眾證券報(bào)獨(dú)家版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載或鏡像;授權(quán)轉(zhuǎn)載必須注明來(lái)源為“大眾證券報(bào)”。
- 廣告/合作熱線:025-86256149
- 舉報(bào)/服務(wù)熱線:025-86256144

