Day1/5: SkyReels-A3——形隨聲動,讓數字人“說話”的魔法
8月11日,昆侖萬維正式發布SkyReels-A3模型,基于“DiT(Diffusion Transformer)視頻擴散模型+插幀模型進行視頻延展+基于強化學習的動作優化+運鏡可控”,其能實現任意時長的全模態音頻驅動數字人創作。

當前SkyReels-A3模型已上線,歡迎登錄SkyReels官網體驗:
地址
SkyReels-A3項目主頁:
https://skyworkai.github.io/skyreels-a3.github.io/
SkyReels 官網地址(登錄后在左側導航欄中選擇Talking Avatar工具):
https://www.skyreels.ai/home
SkyReels系列開源模型地址:
https://huggingface.co/Skywork
作為音頻驅動(audio-driven)人像視頻生成模型,SkyReels-A3就像給任意照片或視頻裝上“AI聲帶”:
· 讓一張照片“活”起來:上傳一張人像圖片,再配段語音,照片里的人就能按這段語音開口說話或唱歌;
· 創作一段新的視頻:上傳一張人像圖片、配段語音,再給出文字prompt,照片里的人就能按照要求的狀態進行表演;
· 給現有視頻“改臺詞”:可以將原視頻的音頻換掉,人物會自動對上新的口型、表情和表演,畫面依舊連貫。
SkyReels-A3模型在以下四個方向上為用戶帶來新體驗:
1. Text Prompt(文本提示詞輸入)支持畫面變化;
2. 更自然的動作交互,包括和商品的交互、說話時的手部動作等;
3. 運鏡的運用和控制更高級,讓藝術場景如音樂/MV等擁有更高的藝術美感;
4. 可以生成單分鏡分鐘級別視頻,支持長達60秒的輸出;多分鏡可以支持無限時長。
同時,基于對實際應用場景(如廣告、直播帶貨等)的分析,我們發現這些場景不僅需要更長的一致性視頻,在特定交互動作上的自然度和清晰度也有待加強。因此,我們構造了針對線上直播等場景的數據,對于此類場景中的視頻生成進行了特定優化。
此外,在對藝術美感要求更高的場景——如音樂MV、電影片段或演講視頻中——傳統數字人只能輸出“固定鏡頭”,畫面顯得呆板乏味。為了讓鏡頭語言更加靈動,我們構造了一種基于ControlNet結構的鏡頭控制模塊,通過精細化鏡頭參數的輸入,實現幀級別精準運鏡控制。具體來說,鏡頭控制模塊提取參考圖的深度信息,配合相機參數,渲染目標運鏡軌跡的參考視頻,該參考視頻隨后作為顯式運動先驗,引導模型逐幀復現精準的運鏡效果,生成帶有運鏡效果的數字人視頻。
當前我們預設了8種常見的運鏡參數:包含固定鏡頭 (static)、推鏡 (push in)、拉鏡 (push out)、左搖(pan left)、右搖(pan right)、抬升(crane up)、下降(crane down)和手持鏡頭 (swing),用戶可以根據需要選擇相應運鏡,并且每個運鏡的強度可0–100%連續調節,滿足不同需求,生成專業的運鏡效果。
SkyReels-A3基于DiT(Diffusion Transformer)視頻擴散模型為基礎。
DiT模型因其在圖像和視頻生成方面的卓越性能而備受關注,它用Transformer結構替代了傳統的U-Net,能夠更好地捕捉長距離依賴關系。為了高效處理視頻數據,SkyReels-A3采用了3D變分自編碼器(3D-VAE)來取得隱空間的表征,并后續在隱空間進行生成。3D-VAE能夠對視頻數據在空間和時間維度上進行壓縮,將高維原始視頻數據編碼成更緊湊的潛在表示。在隱空間處理,大大降低了后續擴散模型的計算負擔,同時保留了關鍵的視覺信息。
SkyReels-A3的性能通過廣泛的實驗進行了驗證,包括現有最先進模型(開源和閉源)的定量和定性比較,充分展示了其在音頻驅動視頻生成方面的能力。
在定量評估中,SkyReels-A3在不同的音頻驅動場景,與先進的開源模型OmniAvatar和閉源模型OmniHuman等方法進行了對比。結果顯示,SkyReels-A3在大多數指標上超越了這些方法,尤其是在唇形同步(sync-c和sync-d)方面表現出卓越的性能。同時,我們引入了step蒸餾,采用了更少的步數 (40步減少為4步),效果幾乎沒有損失。

圖丨Skyreels-A3在不同音頻驅動場景的定量評測得分
此外,我們采取了人工評測來更充分地反映模型生成的效果。對于不同模型的生成結果進行盲測,每個評測者都要求對結果進行某個維度的打分,1-3分,分數越高越好。
從下圖(左)可以看到,SkyReels-A3對于面部和主體的穩定性、動作自然性都取得了最好的效果。同時,口型同步與人臉(處理/生成)的結果均達到較為接近的最佳狀態。右圖則是對于retalking進行了評測,結果顯示SkyReels-A3在音畫同步和視頻質量上都有明顯的優勢。

圖左丨音頻驅動圖像生成人工評測結果;圖右丨音頻驅動視頻生成人工評測結果
從膠片到數碼,從2D到3D,影像技術每一次躍遷都帶來內容產業的洗牌。
SkyReels-A3正在把“讓影像隨聲而動”這件事變成人人可上手操作的工具:不需要專業影棚、不需要昂貴設備,只要一段聲音和一張照片,人人都能創造無限時長、無限可能的數字內容。
讓靜態照片開口說話、讓現有視頻改詞不換臉、讓數字人直播永不掉幀,SkyReels-A3為電影制作、虛擬直播、游戲開發與教育內容創作溝通提供了低門檻、低成本、高保真的AI技術制作方案,讓個性化、交互式內容的創作前所未有的高效與便捷。
SkyReels-A3,代表聲音即影像的可能性,也許下一個刷屏的爆款視頻就來自你的靈感。
龔斯軒
- 免責聲明:本文內容與數據僅供參考,不構成投資建議。據此操作,風險自擔。
- 版權聲明:凡文章來源為“大眾證券報”的稿件,均為大眾證券報獨家版權所有,未經許可不得轉載或鏡像;授權轉載必須注明來源為“大眾證券報”。
- 廣告/合作熱線:025-86256149
- 舉報/服務熱線:025-86256144
