一区二区三区在线播放,黄色av免费在线观看,全国最大成人免费视频,日本高清视频色,日韩少妇精品av一区二区,久久久久亚洲精品国产,久久精品在线视频,国产欧美精品一区aⅴ影院

    顏水成掛帥,昆侖萬維2050全球研究院發(fā)布Vitron多模態(tài)大模型

    近日,由顏水成教授帶隊,昆侖萬維2050全球研究院、新加坡國立大學(xué)、新加坡南洋理工大學(xué)團隊聯(lián)合發(fā)布并開源了Vitron通用像素級視覺多模態(tài)大語言模型。

    這是一款重磅的通用視覺多模態(tài)大模型,支持從視覺理解到視覺生成、從低層次到高層次的一系列視覺任務(wù),解決了困擾大語言模型產(chǎn)業(yè)已久的圖像/視頻模型割裂問題,提供了一個全面統(tǒng)一靜態(tài)圖像與動態(tài)視頻內(nèi)容的理解、生成、分割、編輯等任務(wù)的像素級通用視覺多模態(tài)大模型,為下一代通用視覺大模型的終極形態(tài)奠定了基礎(chǔ),也標(biāo)志著大模型邁向通用人工智能(AGI)的又一大步。

    Vitron作為一個統(tǒng)一的像素級視覺多模態(tài)大語言模型,實現(xiàn)了從低層次到高層次的視覺任務(wù)的全面支持,能夠處理復(fù)雜的視覺任務(wù),并理解和生成圖像和視頻內(nèi)容,提供了強大的視覺理解和任務(wù)執(zhí)行能力。同時,Vitron支持與用戶的連續(xù)操作,實現(xiàn)了靈活的人機互動,展示了通向更統(tǒng)一的視覺多模態(tài)通用模型的巨大潛力。

    Vitron相關(guān)的論文、代碼和Demo已全部公開,其在綜合性、技術(shù)創(chuàng)新、人機交互和應(yīng)用潛力等方面展現(xiàn)出的獨特優(yōu)勢和潛力,不僅推動了多模態(tài)大模型的發(fā)展,還為未來的視覺大模型研究提供了一個新的方向。

    一直以來,昆侖萬維2050全球研究院都致力于打造一家面向未來世界的卓越科學(xué)研究機構(gòu),與科學(xué)社區(qū)共同跨越“奇點”,探索未知世界,創(chuàng)造美好未來。此前,昆侖萬維2050全球研究院已經(jīng)發(fā)布并開源了數(shù)字智能體研發(fā)工具包AgentStudio,未來,研究院還將不斷推動人工智能技術(shù)突破,為中國人工智能生態(tài)建設(shè)貢獻力量。

    當(dāng)前視覺大語言模型(LLMs)的發(fā)展取得了喜人進展。社區(qū)越來越相信,構(gòu)建更通用、更強大的多模態(tài)大模型(MLLMs)將會是通向通用人工智能(AGI)的必經(jīng)之路。但在向多模態(tài)通用大模型(Generalist)的邁進過程中,目前仍存在一些關(guān)鍵挑戰(zhàn)。比如很大一部分工作都沒有實現(xiàn)細(xì)粒度像素級別的視覺理解,或者缺乏對圖像和視頻的統(tǒng)一支持。抑或?qū)τ诟鞣N視覺任務(wù)的支持不充分,離通用大模型相差甚遠(yuǎn)。

    為了填補這個空白,近日,昆侖萬維2050全球研究院、新加坡國立大學(xué)、新加坡南洋理工大學(xué)團隊聯(lián)合發(fā)布開源了Vitron通用像素級視覺多模態(tài)大語言模型。Vitron支持從視覺理解到視覺生成、從低層次到高層次的一系列視覺任務(wù),包括靜態(tài)圖像和動態(tài)視頻內(nèi)容進行全面的理解、生成、分割和編輯等任務(wù)。

    上圖綜合描繪了Vitron在四大視覺相關(guān)任務(wù)的功能支持,以及其關(guān)鍵優(yōu)勢。Vitron還支持與用戶的連續(xù)操作,實現(xiàn)靈活的人機互動。該項目展示了面向更統(tǒng)一的視覺多模態(tài)通用模型的巨大潛力,為下一代通用視覺大模型的終極形態(tài)奠定了基礎(chǔ)。

    Vitron相關(guān)論文、代碼、Demo目前已全部公開。

    l 論文標(biāo)題:Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing

    l 項目主頁&Demo:https://vitron-llm.github.io/

    l 論文鏈接:https://is.gd/aGu0VV

    l 開源代碼:https://github.com/SkyworkAI/Vitron

    大一統(tǒng)的終極多模態(tài)大語言模型

    近年來,大語言模型(LLMs)展現(xiàn)出了前所未有的強大能力,其被逐漸驗證為乃是通向AGI的技術(shù)路線。而多模態(tài)大語言模型(MLLMs)在多個社區(qū)火爆發(fā)展且迅速出圈,通過引入能進行視覺感知的模塊,擴展純語言基礎(chǔ)LLMs至MLLMs,眾多在圖像理解方面強大卓越的MLLMs被研發(fā)問世,例如BLIP-2、LLaVA、MiniGPT-4等等。與此同時,專注于視頻理解的MLLMs也陸續(xù)面世,如VideoChat、Video-LLaMA和Video-LLaVA等等。

    隨后,研究人員主要從兩個維度試圖進一步擴展MLLMs的能力。一方面,研究人員嘗試深化MLLMs對視覺的理解,從粗略的實例級理解過渡到對圖像的像素級細(xì)粒度理解,從而實現(xiàn)視覺區(qū)域定位(Regional Grounding)能力,如GLaMM、PixelLM、NExT-Chat和MiniGPT-v2等。另一方面,研究人員嘗試擴展MLLMs可以支持的視覺功能。部分研究已經(jīng)開始研究讓MLLMs不僅理解輸入視覺信號,還能支持生成輸出視覺內(nèi)容。比如,GILL、Emu等MLLMs能夠靈活生成圖像內(nèi)容,以及GPT4Video和NExT-GPT實現(xiàn)視頻生成。

    目前人工智能社區(qū)已逐漸達成一致,認(rèn)為視覺MLLMs的未來趨勢必然會朝著高度統(tǒng)一、能力更強的方向發(fā)展。然而,盡管社區(qū)開發(fā)了眾多的MLLMs,但仍然存在明顯的鴻溝。

    l 首先,幾乎所有現(xiàn)有的視覺LLMs將圖像和視頻視為不同的實體,要么僅支持圖像,要么僅支持視頻。研究人員主張,視覺應(yīng)該同時包含了靜態(tài)圖像和動態(tài)視頻兩個方面的內(nèi)涵——這兩者都是視覺世界的核心組成,在大多數(shù)場景中甚至可以互換。所以,需要構(gòu)建一個統(tǒng)一的MLLM框架能夠同時支持圖像和視頻模態(tài)。

    l 其次,目前MLLMs對視覺功能的支持還有所不足。大多數(shù)模型僅能進行理解,或者最多生成圖像或視頻。研究人員認(rèn)為,未來的MLLMs應(yīng)該是一個通用大語言模型,能覆蓋更廣泛的視覺任務(wù)和操作范圍,實現(xiàn)對所有視覺相關(guān)任務(wù)的統(tǒng)一支持,達到“one for all”的能力。這點對實際應(yīng)用尤其是在經(jīng)常涉及一系列迭代和交互操作的視覺創(chuàng)作中至關(guān)重要。例如,用戶通常首先從文本開始,通過文生圖,將一個想法轉(zhuǎn)化為視覺內(nèi)容;然后通過進一步的細(xì)粒度圖像編輯來完善初始想法,添加更多細(xì)節(jié);接著,通過圖像生成視頻來創(chuàng)建動態(tài)內(nèi)容;最后,進行幾輪迭代交互,如視頻編輯,完善創(chuàng)作。

    上表簡單地歸納了現(xiàn)有的視覺MLLM的能力(只代表性地囊括了部分模型,覆蓋不完整)。為了彌補這些差距,該團隊提出一種通用的像素級視覺MLLM——Vitron。

    Vitron系統(tǒng)架構(gòu):三大關(guān)鍵模塊

    Vitron整體框架如下圖所示。Vitron采用了與現(xiàn)有相關(guān)MLLMs相似的架構(gòu),包括三個關(guān)鍵部分:1) 前端視覺&語言編碼模塊,2) 中心LLM理解和文本生成模塊,以及3) 后端用戶響應(yīng)和模塊調(diào)用以進行視覺操控模塊。

    l 前端模塊:視覺-語言編碼。為了感知圖像和視頻模態(tài)信號,并支持細(xì)粒度用戶視覺輸入,Vitron集成了圖像編碼器、視頻編碼器、區(qū)域框/草圖編碼器。

    l 中心模塊:核心LLM。Vitron使用的是Vicuna(7B,1.5),來實現(xiàn)理解、推理、決策制定和多輪用戶交互。

    l 后端模塊:用戶響應(yīng)與模塊調(diào)用。Vitron采用以文本為中心的調(diào)用策略,整合現(xiàn)成的幾個強大先進(SoTA)的圖像和視頻處理模塊,用于解碼和執(zhí)行從低層到高層的一系列視覺終端任務(wù)。通過采用以文本為中心的模塊集成調(diào)用方法,Vitron不僅實現(xiàn)了系統(tǒng)統(tǒng)一,還確保了對齊效率和系統(tǒng)可擴展性。

    Vitron模型訓(xùn)練三大階段

    基于上述架構(gòu),再對Vitron進行訓(xùn)練微調(diào),以賦予其強大的視覺理解和任務(wù)執(zhí)行能力。模型訓(xùn)練主要囊括三個不同的階段。

    l 步驟一:視覺-語言整體對齊學(xué)習(xí)。將輸入的視覺語言特征映射到一個統(tǒng)一的特征空間中,從而使其能夠有效理解輸入的多模態(tài)信號。這是一種粗粒度的視覺-語言對齊學(xué)習(xí),可以讓系統(tǒng)具備整體上有效處理傳入的視覺信號。研究人員采用了現(xiàn)存的圖像-標(biāo)題對(CC3M)、視頻-標(biāo)題對(Webvid)和區(qū)域-標(biāo)題對(RefCOCO)的數(shù)據(jù)集進行訓(xùn)練。

    l 步驟二:細(xì)粒度的時空視覺定位指令微調(diào)。系統(tǒng)采用了調(diào)用外部模塊方式來執(zhí)行各種像素級視覺任務(wù),但LLM本身并未經(jīng)過任何細(xì)粒度的視覺訓(xùn)練,這將會阻礙了系統(tǒng)實現(xiàn)真正的像素級視覺理解。為此,研究人員提出了一種細(xì)粒度的時空視覺定位指令微調(diào)訓(xùn)練,核心思想是使LLM能夠定位圖像的細(xì)粒度空間性和視頻的具體時序特性。

    l 步驟三:輸出端面向命令調(diào)用的指令微調(diào)。上述第二階段的訓(xùn)練賦予了LLM和前端編碼器在像素級別理解視覺的能力。這最后一步,面向命令調(diào)用的指令微調(diào),旨在讓系統(tǒng)具備精確執(zhí)行命令的能力,允許LLM生成適當(dāng)且正確的調(diào)用文本。由于不同的終端視覺任務(wù)可能需要不同的調(diào)用命令,為了統(tǒng)一這一點,研究人員提出將LLM的響應(yīng)輸出標(biāo)準(zhǔn)化為結(jié)構(gòu)化文本格式,其中包括:

    1) 用戶響應(yīng)輸出,直接回復(fù)用戶的輸入。

    2) 模塊名稱,指示將要執(zhí)行的功能或任務(wù)。

    3) 調(diào)用命令,觸發(fā)任務(wù)模塊的元指令。

    4) 區(qū)域(可選輸出),指定某些任務(wù)所需的細(xì)粒度視覺特征,例如在視頻跟蹤或視覺編輯中,后端模塊需要這些信息。對于區(qū)域,基于LLM的像素級理解,將輸出由坐標(biāo)描述的邊界框。

    評估實驗

    研究人員基于Vitron在22個常見的基準(zhǔn)數(shù)據(jù)集、12個圖像/視頻視覺任務(wù)上進行了廣泛的實驗評估。Vitron展現(xiàn)出在四大主要視覺任務(wù)群組(分割、理解、內(nèi)容生成和編輯)中的強大能力,與此同時其具備靈活的人機交互能力。以下代表性地展示了一些定性比較結(jié)果:

    l Vision Segmentation

    Results of image referring image segmentation

    l Fine-grained Vision Understanding

    Results of image referring expression comprehension.

    Results on video QA.

    l Vision Generation

    Text-to-Image Generation Text-to-Video generation Image-to-Video generation

    l Vision Editing

    Image editing results

    具體更多詳細(xì)實驗內(nèi)容和細(xì)節(jié)請移步論文。

    未來方向展望

    總體上,這項工作展示了研發(fā)大一統(tǒng)的視覺多模態(tài)通用大模型的巨大潛力,為下一代視覺大模型的研究奠定了一個新的形態(tài),邁出了這個方向的第一步。盡管團隊所提出的Vitron系統(tǒng)表現(xiàn)出強大的通用能力,但依然存在自身的局限性。以下研究人員列出一些未來可進一步探索的方向。

    l 系統(tǒng)架構(gòu)

    Vitron系統(tǒng)仍采用半聯(lián)合、半代理的方式來調(diào)用外部工具。雖然這種基于調(diào)用的方法便于擴展和替換潛在模塊,但這也意味著這種流水線結(jié)構(gòu)的后端模塊不參與到前端與LLM核心模塊的聯(lián)合學(xué)習(xí)。這一限制不利于系統(tǒng)的整體學(xué)習(xí),這意味著不同視覺任務(wù)的性能上限將受到后端模塊的限制。未來的工作應(yīng)將各種視覺任務(wù)模塊整合成一個統(tǒng)一的單元。實現(xiàn)對圖像和視頻的統(tǒng)一理解和輸出,同時通過單一生成范式支持生成和編輯能力,仍然是一個挑戰(zhàn)。目前一種有希望的方式是結(jié)合modality-persistent的tokenization, 提升系統(tǒng)在不同輸入和輸出以及各種任務(wù)上的統(tǒng)一化。

    l 用戶交互性

    與之前專注于單一視覺任務(wù)的模型(例如,Stable Diffusion和SEEM)不同,Vitron旨在促進LLM和用戶之間的深度交互,類似于行業(yè)內(nèi)的OpenAI的DALL-E系列,Midjourney等。實現(xiàn)最佳的用戶交互性是本項工作的核心目標(biāo)之一。Vitron利用現(xiàn)有的基于語言的LLM,結(jié)合適當(dāng)?shù)闹噶钫{(diào)整,以實現(xiàn)一定程度的交互。例如,系統(tǒng)可以靈活地響應(yīng)用戶輸入的任何預(yù)期消息,產(chǎn)生相應(yīng)的視覺操作結(jié)果,而不要求用戶輸入精確匹配后端模塊條件。然而,該工作在增強交互性方面仍有很大的提升空間。例如,從閉源的Midjourney系統(tǒng)汲取靈感,不論LLM在每一步做出何種決定,系統(tǒng)都應(yīng)積極向用戶提供反饋,以確保其行動和決策與用戶意圖一致。

    l 模態(tài)能力

    當(dāng)前,Vitron集成了一個7B的Vicuna模型,其可能對其理解語言、圖像和視頻的能力會產(chǎn)生某些限制。未來的探索方向可以發(fā)展一個全面的端到端系統(tǒng),比如擴大模型的規(guī)模,以實現(xiàn)對視覺的更徹底和全面的理解。此外,應(yīng)該努力使LLM能夠完全統(tǒng)一圖像和視頻模態(tài)的理解。

    編輯:gloria
    AI 文章概述
    *本回答由 AI 生成,僅供參考,不構(gòu)成任何專業(yè)建議。
      熱門新聞
        24小時熱榜
        日榜 | 周榜
            主站蜘蛛池模板: 99国产精品9| 精品国产一区在线| 午夜精品一区二区三区在线播放| 国产伦精品一区二区三区免费观看| 狠狠插影院| 国产足控福利视频一区| 91精品一区| 亚洲午夜精品一区二区三区电影院| 欧美一区二区三区爽大粗免费 | 亚洲国产精品日本| 国产精品麻豆99久久久久久| 午夜特片网| 国产精品九九九九九| 国产午夜精品一区二区三区四区| 91精品第一页| 日日狠狠久久8888偷色| 国产精品亚洲а∨天堂123bt| 女人被爽到高潮呻吟免费看| 狠狠躁日日躁狂躁夜夜躁| 国产亚洲精品久久久久久久久动漫| 日本精品一区二区三区在线观看视频| 国产日韩欧美在线影视| 精品国产亚洲一区二区三区| 国产一区二区三区网站| 超碰97国产精品人人cao| xxxxhd欧美| 狠狠色狠狠色合久久伊人| 欧美69精品久久久久久不卡| 日韩欧美一区二区久久婷婷| 狠狠色噜噜狠狠狠狠2021天天| 亚洲一卡二卡在线| 亚洲欧美另类国产| 欧美精品综合视频| 久久久999精品视频| 亚洲久久在线| 国产超碰人人模人人爽人人添| 欧美日韩激情一区二区| 欧美69精品久久久久久不卡| 欧美一区二区三区艳史| 国产aⅴ一区二区| 午夜av电影院| 农村妇女精品一区二区| 国产精品一二二区| 国产69精品久久| 精品91av| 国产色婷婷精品综合在线手机播放| 日韩中文字幕在线一区| 99欧美精品| 国产99久久久久久免费看| 国产欧美亚洲一区二区| 国产69精品久久久久男男系列| 亚洲免费精品一区二区| 午夜剧场一区| 国产一区二三| 91精品国产高清一区二区三区| 免费看欧美中韩毛片影院| 狠狠色噜噜狼狼狼色综合久| 国产精品5区| 久久一区二| 国产精品久久91| 国产精品伦一区二区三区在线观看| 欧美精品一区二区三区久久久竹菊| 91精品综合| 久久人91精品久久久久久不卡| 在线观看黄色91| 国产精品一区二区在线看| 国产精品综合在线| 88888888国产一区二区| 国产不卡一二三区| 国产欧美一区二区精品久久| 欧美色综合天天久久综合精品| 99精品小视频| 午夜社区在线观看| 少妇高潮一区二区三区99小说| 国产精品亚洲二区| 国产综合久久精品| 亚洲麻豆一区| 午夜电影一区| 欧美一区二三区| 国产亚洲精品久久19p| 99国产超薄丝袜足j在线观看| 久久精品国语| 在线观看v国产乱人精品一区二区| 一区二区不卡在线| 国产视频精品久久| 国产精品第56页| 午夜av片| 国产精品区一区二区三| 农村妇女毛片精品久久| 欧美日韩国产精品综合| 激情久久综合网| 91精品久久久久久| 亚洲欧洲日韩在线| 国产精品久久久久久久久久久久久久不卡 | 国v精品久久久网| 欧美一区二区三区另类| 丰满岳妇伦4在线观看| 国产伦精品一区二区三区无广告| 欧美日韩一区在线视频| 亚洲欧洲日韩在线| 久久一区欧美| 国产乱码精品一区二区三区介绍| 国产欧美一区二区三区精品观看| 国产一区二区三区伦理| 李采潭无删减版大尺度| 欧美一区二区三区久久久| 99久久精品国| 国产品久久久久久噜噜噜狼狼| 久久噜噜少妇网站| 国产欧美一区二区三区精品观看| 久久99久国产精品黄毛片入口| 亚洲精品少妇久久久久| 欧美日韩精品在线播放| 国产99久久九九精品免费| 午夜大片男女免费观看爽爽爽尤物 | 久久九精品| 右手影院av| 亚洲欧洲国产伦综合| 天摸夜夜添久久精品亚洲人成| 99久久国产综合精品色伊| 欧美日韩精品在线播放| 国产一区在线精品| 国产伦高清一区二区三区| 国产97在线播放| 欧美日韩一区电影| 97视频久久久| 亚洲精品乱码久久久久久高潮| 亚洲日韩欧美综合| 日韩欧美中文字幕精品| 亚洲国产另类久久久精品性| 国产精品视频一区二区在线观看| 自偷自拍亚洲| 国产麻豆精品一区二区| 久久天天躁夜夜躁狠狠躁2022| 亚洲欧美一区二区三区三高潮| 中文字幕一区三区| 91精品综合| 香蕉视频在线观看一区二区| 97香蕉久久国产超碰青草软件 | 日本午夜一区二区| 精品一区二区超碰久久久| 亚洲三区在线| 亚洲欧美一区二区三区1000| aaaaa国产欧美一区二区| 精品国产二区三区| 久久久精品欧美一区二区| 91一区二区三区视频| 玖玖精品国产| 亚洲一卡二卡在线| 国产视频二区| 欧美在线视频三区| 国产一区二区三区小说| 中文字幕一区二区在线播放| 国产不卡一区在线| 91精品久久天干天天天按摩| 国产一区二区91| 国产精品久久久久久久久久软件| 亚洲精品国产精品国自| 精品久久香蕉国产线看观看gif| 男女视频一区二区三区| 欧美日韩国产在线一区| 国产精品一区二区三区在线看| 久久久精品免费看| 激情久久精品| 7799国产精品久久99| 久久91精品国产91久久久| 亚洲午夜天堂吃瓜在线| 国产精品欧美一区乱破| 狠狠插狠狠插| 99国产超薄丝袜足j在线观看| 久久夜色精品国产噜噜麻豆| 国产精品无码专区在线观看| 欧美久久精品一级c片| 性色av香蕉一区二区| 91精品视频免费在线观看| 欧美日韩国产一二| 玖玖国产精品视频| 亚洲网久久| 99久久婷婷国产精品综合| 国产精品美女久久久另类人妖| 欧美日韩久久一区| 黄色av免费| 日韩一区高清| 少妇高潮ⅴideosex| 精品99在线视频| 狠狠色噜噜狠狠狠合久| 97久久精品人人做人人爽| 国产精品免费自拍| 欧美3p激情一区二区三区猛视频 | 性欧美1819sex性高播放| 午夜av网址| 国产一区二区中文字幕| 免费a级毛片18以上观看精品| 精品欧美一区二区精品久久小说| 久久99精品国产麻豆婷婷洗澡| 国产原创一区二区 | 欧美日韩激情一区| 中文字幕一区二区三区又粗| 欧美一区二区三区免费看| 国产精品偷拍| 日本一区二区三区中文字幕| 中文字幕日本精品一区二区三区| 国产精品麻豆99久久久久久| 99久久精品国产系列| 国产一区二区极品| 日日狠狠久久8888偷色| 久久综合伊人77777麻豆| 91精品丝袜国产高跟在线| 日本一区二区三区电影免费观看| 国产一区二区精华| 欧美精品一区二区性色| 欧美亚洲视频一区二区| 国产91高清| 国产在线不卡一区| 日韩区欧美久久久无人区| 亚洲欧美一区二区精品久久久| 日韩av中文字幕在线| 少妇厨房与子伦在线观看| 91精品一区| 久久一级精品视频| 91精品一区二区在线观看| 国产精品三级久久久久久电影| 午夜av资源| 久久精品入口九色| 午夜av免费观看| 99精品国产一区二区三区不卡| 午夜影院激情| 午夜看大片| 狠狠插狠狠干| 国产女人好紧好爽| 国产欧美一区二区精品久久| 久久精品国产色蜜蜜麻豆| 午夜特片网| 扒丝袜网www午夜一区二区三区| 欧美在线视频精品| 国产二区三区视频| 精品一区二区三区影院| 2023国产精品久久久精品双| 色狠狠色狠狠综合| 亚洲精品国产精品国自| 狠狠色综合久久婷婷色天使| 91精品国产高清一区二区三区| 日韩欧美中文字幕一区| 91久久精品久久国产性色也91| 99三级视频| 91视频一区二区三区|