日本欧美高清视频,国产精品亚洲一区二区三区在线观看 ,久久日本精品字幕区二区,蜜桃aaa,国产伦精品一区二区免费

Day1/5: SkyReels-A3——形隨聲動，讓數字人“說話”的魔法

大眾證券報公司新聞 · 2025-08-11 13:52

8月11日，昆侖萬維正式發布SkyReels-A3模型，基于“DiT(Diffusion Transformer)視頻擴散模型+插幀模型進行視頻延展+基于強化學習的動作優化+運鏡可控”，其能實現任意時長的全模態音頻驅動數字人創作。

當前SkyReels-A3模型已上線，歡迎登錄SkyReels官網體驗：

地址

SkyReels-A3項目主頁：

https://skyworkai.github.io/skyreels-a3.github.io/

SkyReels 官網地址(登錄后在左側導航欄中選擇Talking Avatar工具)：

https://www.skyreels.ai/home

SkyReels系列開源模型地址：

https://huggingface.co/Skywork

作為音頻驅動(audio-driven)人像視頻生成模型，SkyReels-A3就像給任意照片或視頻裝上“AI聲帶”：

· 讓一張照片“活”起來：上傳一張人像圖片，再配段語音，照片里的人就能按這段語音開口說話或唱歌;

· 創作一段新的視頻：上傳一張人像圖片、配段語音，再給出文字prompt，照片里的人就能按照要求的狀態進行表演;

· 給現有視頻“改臺詞”：可以將原視頻的音頻換掉，人物會自動對上新的口型、表情和表演，畫面依舊連貫。

SkyReels-A3模型在以下四個方向上為用戶帶來新體驗：

1. Text Prompt(文本提示詞輸入)支持畫面變化;

2. 更自然的動作交互，包括和商品的交互、說話時的手部動作等;

3. 運鏡的運用和控制更高級，讓藝術場景如音樂/MV等擁有更高的藝術美感;

4. 可以生成單分鏡分鐘級別視頻，支持長達60秒的輸出;多分鏡可以支持無限時長。

同時，基于對實際應用場景(如廣告、直播帶貨等)的分析，我們發現這些場景不僅需要更長的一致性視頻，在特定交互動作上的自然度和清晰度也有待加強。因此，我們構造了針對線上直播等場景的數據，對于此類場景中的視頻生成進行了特定優化。

此外，在對藝術美感要求更高的場景——如音樂MV、電影片段或演講視頻中——傳統數字人只能輸出“固定鏡頭”，畫面顯得呆板乏味。為了讓鏡頭語言更加靈動，我們構造了一種基于ControlNet結構的鏡頭控制模塊，通過精細化鏡頭參數的輸入，實現幀級別精準運鏡控制。具體來說，鏡頭控制模塊提取參考圖的深度信息，配合相機參數，渲染目標運鏡軌跡的參考視頻，該參考視頻隨后作為顯式運動先驗，引導模型逐幀復現精準的運鏡效果，生成帶有運鏡效果的數字人視頻。

當前我們預設了8種常見的運鏡參數：包含固定鏡頭 (static)、推鏡 (push in)、拉鏡 (push out)、左搖(pan left)、右搖(pan right)、抬升(crane up)、下降(crane down)和手持鏡頭 (swing)，用戶可以根據需要選擇相應運鏡，并且每個運鏡的強度可0–100%連續調節，滿足不同需求，生成專業的運鏡效果。

SkyReels-A3基于DiT(Diffusion Transformer)視頻擴散模型為基礎。

DiT模型因其在圖像和視頻生成方面的卓越性能而備受關注，它用Transformer結構替代了傳統的U-Net，能夠更好地捕捉長距離依賴關系。為了高效處理視頻數據，SkyReels-A3采用了3D變分自編碼器(3D-VAE)來取得隱空間的表征，并后續在隱空間進行生成。3D-VAE能夠對視頻數據在空間和時間維度上進行壓縮，將高維原始視頻數據編碼成更緊湊的潛在表示。在隱空間處理，大大降低了后續擴散模型的計算負擔，同時保留了關鍵的視覺信息。

SkyReels-A3的性能通過廣泛的實驗進行了驗證，包括現有最先進模型(開源和閉源)的定量和定性比較，充分展示了其在音頻驅動視頻生成方面的能力。

在定量評估中，SkyReels-A3在不同的音頻驅動場景，與先進的開源模型OmniAvatar和閉源模型OmniHuman等方法進行了對比。結果顯示，SkyReels-A3在大多數指標上超越了這些方法，尤其是在唇形同步(sync-c和sync-d)方面表現出卓越的性能。同時，我們引入了step蒸餾，采用了更少的步數 (40步減少為4步)，效果幾乎沒有損失。

圖丨Skyreels-A3在不同音頻驅動場景的定量評測得分

此外，我們采取了人工評測來更充分地反映模型生成的效果。對于不同模型的生成結果進行盲測，每個評測者都要求對結果進行某個維度的打分，1-3分，分數越高越好。

從下圖(左)可以看到，SkyReels-A3對于面部和主體的穩定性、動作自然性都取得了最好的效果。同時，口型同步與人臉(處理/生成)的結果均達到較為接近的最佳狀態。右圖則是對于retalking進行了評測，結果顯示SkyReels-A3在音畫同步和視頻質量上都有明顯的優勢。

圖左丨音頻驅動圖像生成人工評測結果;圖右丨音頻驅動視頻生成人工評測結果

從膠片到數碼，從2D到3D，影像技術每一次躍遷都帶來內容產業的洗牌。

SkyReels-A3正在把“讓影像隨聲而動”這件事變成人人可上手操作的工具：不需要專業影棚、不需要昂貴設備，只要一段聲音和一張照片，人人都能創造無限時長、無限可能的數字內容。

讓靜態照片開口說話、讓現有視頻改詞不換臉、讓數字人直播永不掉幀，SkyReels-A3為電影制作、虛擬直播、游戲開發與教育內容創作溝通提供了低門檻、低成本、高保真的AI技術制作方案，讓個性化、交互式內容的創作前所未有的高效與便捷。

SkyReels-A3，代表聲音即影像的可能性，也許下一個刷屏的爆款視頻就來自你的靈感。

龔斯軒

編輯：gloria

免責聲明：本文內容與數據僅供參考，不構成投資建議。據此操作，風險自擔。
廣告/合作熱線：025-86256149
舉報/服務熱線：025-86256144

* 登陸名：
* 密碼：

* 登陸名：
* 密碼：
* 密碼確認：
*聯系電話：
	我已閱讀并同意《用戶協議》

* 登陸名：
* 密碼重置：
* 密碼確認：