日韩天堂一区,操人视频免费看,欧美成人精品在线观看,av一区二区三区在线播放,久久伊人影院

昆侖萬維正式發布Skywork R1V4-Lite，多模態智能體邁向開放式交互時代

大眾證券報公司新聞 ·2025-11-18 10:37

11月18日，昆侖萬維正式發布Skywork R1V4-Lite，一款集成視覺操作、推理與規劃的輕量級多模態智能體。它不僅能進行深度推理，還在同一模型中統一了主動圖像操作、外部工具調用、多模態深度研究三大能力。

與傳統只能“看圖回答”的模型不同，Skywork R1V4-Lite能夠在真實場景中隨手拍照即可完成復雜任務：自動旋轉圖像判斷空間位置、多次放大讀取模糊文字、繪制輔助線驗證幾何關系、跨模態搜索定位真實地點……這些過去只有在大型模型或專用Agent系統中才能實現的能力，如今在輕量多模態智能體Skywork R1V4-Lite中即可完成。

這意味著用戶不需要設計提示詞，不需要提供額外信息，只需拍一張圖，Skywork R1V4-Lite就能自己觀察、操作、推理并給出答案。從感知到行動，從推理到驗證，Skywork R1V4-Lite讓“即時多模態洞察”成為現實，為多模態智能體從封閉推理邁向開放式交互提供了新的技術路徑。

在多個權威視覺與感知基準上，Skywork R1V4-Lite展現出超過預期的競爭力：在8個多模態理解基準評測上整體領先Gemini 2.5 Flash，其中5個任務上超過Gemini 2.5 Pro的水平。

這證實了“圖像操作×深度推理”訓練范式的有效性，并展現出極強的scaling潛力：即便是小模型，也能逼近頂級閉源模型的表現。

01核心優勢一：隨手拍解題，即時理解的主動視覺操作

Skywork R1V4-Lite在推理過程中并非被動“看圖回答”，而是具備主動式圖像操作能力：在遇到視角受限或信息不足的場景時，模型會自動執行裁切（Crop）、放大（Zoom）、旋轉（Rotate）、區域定位等操作，構建一條透明且可回溯的“視覺行動鏈”。

R1V4-Lite展現出物理邏輯理解力：它先對圖像進行幾何校正，再基于正確視角進行空間關系推理。

當任務要求極高精度時，R1V4-Lite會進一步主動進行微觀級操作：放大區域、生成參考線、構建輔助判斷策略。對于需要“精密判斷”的任務，模型不會直接給答案，而是會先構建輔助工具來確保結果嚴謹可靠。

在需要主動式圖像操作能力的任務中，模型會主動進行多步裁剪放大的圖像操作，找到對應的圖片區域，使推理結果具備可解釋性與嚴謹性。這一過程完整展示了R1V4-Lite的視覺行動力：模型不再“被動看圖”，而是在復雜場景中主動探索、驗證、修正與整合，實現真正意義上的“邊觀察、邊思考、邊行動”。

02核心優勢二：多模態深度研究，領先的輕量級搜索增強能力

Skywork R1V4-Lite也支持接入聯網搜索功能，在聯網搜索下會自動觸發深度研究能力：

通過構建推理腳手架，與外部世界進行搜索、檢索、比對等主動交互。觸發搜索、檢索、比對等多種外部資源交互，將搜索結果與視覺推理深度融合，形成“搜索—推理—驗證”的閉環。模型由此獲得跨模態、跨資源的知識擴展能力，推理邊界顯著拉寬。

從結果上看，R1V4-Lite在多模態DeepResearch類任務中展現出了領先趨勢：在mm-search上以66分超過Gemini 2.5 Flash的64.9分，在FVQA上以67分顯著領先Gemini 2.5 Flash的60.8分。這一系列結果強有力地驗證了“圖像操作×深度推理交織訓練”范式的有效性。

面對復雜問題，R1V4-Lite能夠進行多輪推理與信息整合。

R1V4-Lite不僅在學術、法律、生態與醫學場景中展現出強大的多模態深度推理能力，在電商智能與內容理解方面同樣表現卓越。R1v4-Lite在復雜的圖片輸入下，找到了商品來源并給出了詳細的商品介紹。這種能力可直接應用于智能導購、圖搜找同款、跨平臺商品比價等典型電商場景。

03核心優勢三：看圖即可規劃，主動式多模態任務規劃

R1V4-planner-Lite可以支持真正意義上的主動式多模態Agentic規劃，首次讓視覺輸入能夠直接驅動任務鏈規劃，將推理鏈擴展為可執行鏈。

從一張圖像出發，Planner能夠自動構建一條可執行的多輪任務鏈（task chain），并完成：

?任務分解（Task Decomposition）

?工具選擇（Tool Selection）

?參數生成（Parameter Generation）

?執行順序規劃（Execution Ordering）

這意味著模型首次從傳統的“看圖回答”→“看圖行動”，具備了由視覺驅動的行動規劃能力。

在此基礎上，R1V4-Planner-Lite將規劃能力擴展到系統級（system-level planning）：模型會綜合用戶意圖、上下文、可用工具與任務依賴關系（dependency graph），自動生成結構化的執行方案，并以高度可解釋的形式給出每一步的工具、參數與目的。這為Agentic智能提供了可控性、透明度和穩定性。

Skywork R1V4-Lite并非傳統意義上的“小模型”。它是業界首個在輕量級架構下同時實現：圖像操作（Crop/Zoom/Rotate）、深度推理（Long-form Reasoning）和任務規劃（Agentic Planning）三能力統一的多模態智能體。

在極小參數規模下，Skywork R1V4-Lite依然能進行端到端的深度思考與主動執行，實現從“視覺輸入”一直推到“任務完成”的完整能力鏈。

04核心優勢四：小尺寸、快響應、低成本

Skywork R1V4-Lite在模型規模、推理速度與吞吐效率之間實現了極佳工程平衡。這意味著它不僅適合工程落地，也能支撐極高的并發和實時性要求，是移動端、應用內推理和高QPS產品的更優選項。

通過更高效的模型優化與基于Qwen3 A3B輕量架構設計，它在真實生產環境中展現出遠超同體量模型的性能表現：

1.響應速度（Latency）

-約為Gemini 2.5 Pro的1/19

-約為Gemini 2.5 Flash的1/5

2.Token吞吐（TPS）

-為Gemini 2.5 Pro/Flash的約2倍

3.端到端完成速度：依托更強的推理壓縮能力與極低的工具調用輪次，在工具調用與長推理任務（端到端使用工具），R1V4-Lite實現了：

-比Gemini 2.5 Pro快2.9×

-比Gemini 2.5 Flash快1.7×

憑借低延遲×高吞吐×極低成本的組合優勢，R1V4-Lite完美適用于：

?實時問答

?視覺檢索

?智能助手

?多模態工具調用

?高并發的在線生產場景

R1V4-Lite的發布證明了——小模型也能很強，小模型也能很快，小模型也能多模態。

05展望

R1V4-Lite的成功不僅來自工程優化，更源自其背后的多模態新范式：圖像操作×深度推理交織訓練。這一訓練路線讓輕量模型具備跨模態推理、主動圖像操作、任務規劃與搜索增強的統一能力，展示了輕量多模態智能體的全新可能性。

這一結果進一步說明：能力密度比參數規模更重要，小模型也能逼近閉源模型的真實表現。隨著更大容量與更強結構進一步加入該范式，其scaling潛力將持續釋放。目前，Skywork R1V4-Pro也即將發布。

未來，昆侖萬維旗下Skywork將沿著“Multimodal Reasoning×Agentic Intelligence×Tool Augmentation”路線繼續前進，讓模型不僅理解世界，還能更有效地與世界信息交互，并在真實任務中產生實際價值。

龔斯軒

編輯：iepdcvke

免責聲明：本文內容與數據僅供參考，不構成投資建議。據此操作，風險自擔。
廣告/合作熱線：025-86256149
舉報/服務熱線：025-86256144

*登陸名：
*密碼：

*登陸名：
*密碼：
*密碼確認：
*聯系電話：
	我已閱讀并同意《用戶協議》

*登陸名：
*密碼重置：
*密碼確認：