下載客戶端

登錄

最懂表演的視頻大模型開(kāi)源，AI短劇迎來(lái)“DeepSeek時(shí)刻”

2025-02-19 16:42

來(lái)源：澎湃新聞·澎湃號(hào)·湃客

原創(chuàng) 趙健甲子光年

昆侖萬(wàn)維發(fā)布國(guó)內(nèi)首個(gè)面向AI短劇的開(kāi)源視頻大模型。

作者｜趙健

編輯｜栗子

做通用場(chǎng)景還是垂直場(chǎng)景，這是AI大模型最基本的選擇題。

現(xiàn)在市面上的視頻大模型基本都是通用模型，可以根據(jù)提示詞生成任意場(chǎng)景的視頻。但也有一些視頻大模型從離應(yīng)用場(chǎng)景更近的垂直領(lǐng)域切入，比如字節(jié)跳動(dòng)近期發(fā)布Goku，聚焦在數(shù)字人直播帶貨。

而今天昆侖萬(wàn)維剛剛發(fā)布的SkyReels-V1，則是中國(guó)首個(gè)面向AI短劇創(chuàng)作的視頻生成大模型。昆侖萬(wàn)維在去年12月上線AI短劇平臺(tái)SkyReels，SkyReels-V1將為該平臺(tái)提供大模型能力。

根據(jù)「甲子光年」的實(shí)際觀察和體驗(yàn)，不夸張的說(shuō)，SkyReels-V1是市面上“最懂表演”的視頻大模型，在人物微表情、動(dòng)作細(xì)節(jié)、場(chǎng)景、畫(huà)面構(gòu)圖、運(yùn)鏡等影視級(jí)要求的表現(xiàn)效果上獨(dú)樹(shù)一幟，能夠生成媲美“影帝影后級(jí)別”的表演鏡頭。

與SkyReels-V1一同發(fā)布的還有SkyReels-A1，是昆侖萬(wàn)維自研的首個(gè)SOTA級(jí)別的基于視頻基座模型的表情動(dòng)作可控算法。

更為重要的是，SkyReels-V1與SkyReels-A1都是開(kāi)源模型，任何用戶都可以按照開(kāi)源協(xié)議下載使用。開(kāi)源地址：

https://github.com/SkyworkAI/SkyReels-V1

https://github.com/SkyworkAI/SkyReels-A1

https://skyworkai.github.io/skyreels-a1.github.io/report.pdf

如果說(shuō)DeepSeek R1是給文本大模型，尤其是推理模型樹(shù)立了開(kāi)源模型新標(biāo)桿，那么昆侖萬(wàn)維的SkyReels-V1和SkyReels-A1就是在蓬勃發(fā)展的AI短劇市場(chǎng)樹(shù)立了開(kāi)源模型新標(biāo)桿。在SkyReels-V1和SkyReels-A1的加持下，AI短劇市場(chǎng)有望迎來(lái)DeepSeek時(shí)刻。

1.“最懂表演”的視頻大模型

SkyReels-V1是受益于開(kāi)源社區(qū)并回饋開(kāi)源社區(qū)的大模型，它是在騰訊去年12月開(kāi)源的混元視頻大模型HunYuan-Video的基礎(chǔ)上訓(xùn)練而來(lái)。

開(kāi)源模型雖然在通用任務(wù)上表現(xiàn)出色，但并非拿來(lái)即用，尤其是在特定領(lǐng)域或細(xì)分任務(wù)上的表現(xiàn)可能無(wú)法達(dá)到最佳效果。因此，模型廠商在實(shí)際的模型訓(xùn)練中還涉及大量的微調(diào)、推理優(yōu)化、安全對(duì)齊等相關(guān)工作。

目前AI短劇市場(chǎng)中的視頻大模型普遍存在一些不足，最典型的就是人物生成表情空洞，甚至宛如智障。昆侖萬(wàn)維希望突破這些痛點(diǎn)。

模型訓(xùn)練是讓大模型學(xué)會(huì)知識(shí)與能力的核心環(huán)節(jié)。在訓(xùn)練過(guò)程中，昆侖萬(wàn)維需要教會(huì)SkyReels-V1“如何學(xué)會(huì)表演”。這其中最核心的技術(shù)貢獻(xiàn)有兩點(diǎn)：

首先是數(shù)據(jù)清洗與標(biāo)注，這是模型微調(diào)的關(guān)鍵所在。就像教師教學(xué)時(shí)需要用到的教材一樣，昆侖萬(wàn)維基于自研的高質(zhì)量數(shù)據(jù)清洗和人工標(biāo)注管線，構(gòu)建了千萬(wàn)級(jí)的高質(zhì)量電影、電視劇、紀(jì)錄片數(shù)據(jù)，這是模型要學(xué)習(xí)的“教材”。

但光有“教材”還不夠，還要對(duì)模型做進(jìn)一步的指導(dǎo)。為此，昆侖萬(wàn)維自研了Human-Centric（以人物為中心的）視頻理解多模態(tài)大模型，大幅提升視頻中人物相關(guān)的理解能力。

這套基于視頻理解多模態(tài)大模型所構(gòu)建的人物智能解析系統(tǒng)，在影視化的表情識(shí)別、人物空間位置感知、行為意圖理解、表演場(chǎng)景理解等不同層次的表演上，都能達(dá)到“影帝級(jí)別”的人物表演。

什么是“影帝級(jí)別”？

比如，SkyReels-V1可以生成影視級(jí)人物微表情表演，支持33種細(xì)膩人物表情與400+種自然動(dòng)作組合，高度還原真人情感表達(dá)。

再比如，SkyReels-V1還學(xué)會(huì)了電影級(jí)光影美學(xué)?；诤萌R塢級(jí)的高質(zhì)量影視數(shù)據(jù)訓(xùn)練，生成的每一幀畫(huà)面，在構(gòu)圖、演員站位、相機(jī)角度等都具備電影級(jí)的質(zhì)感。

盡管SkyReels-V1是一個(gè)開(kāi)源模型，但卻有媲美海螺AI、可靈AI等閉源模型的效果。給出同樣的提示詞，SkyReels-V1、海螺AI、可靈AI的生成效果分別如下：

提示詞：一張棕色頭發(fā)女性的照片，華麗的紅色染色眼鏡和深紅色口紅。她朝著前方揮了揮手，先是微笑，然后大笑。

SkyReels-V1：

海螺AI：

可靈AI：

提示詞：戲劇性的正面特寫(xiě)鏡頭揭示了一位深海潛水員戴著老式銅制潛水頭盔的面容。頭盔厚厚的圓形玻璃提供了清晰視野，可以看到他平靜的表情。微小的氣泡在頭盔內(nèi)向上飄浮，水滴附著在內(nèi)壁上。他小心翼翼地捧著一本敞開(kāi)的書(shū)，書(shū)頁(yè)在海底水流中輕輕飄動(dòng)。這本書(shū)看起來(lái)干燥完好，與周圍的水環(huán)境形成鮮明對(duì)比。柔和的陽(yáng)光束穿透水面，照亮了他的臉龐，并在書(shū)頁(yè)上灑下金色光芒。魚(yú)兒在周圍游動(dòng)，顏色因深度而變得柔和，但在藍(lán)綠色背景前依然生動(dòng)。潛水員專注地閱讀著文本，盡管身處水下，卻完全沉浸在閱讀中。文學(xué)與海洋深處的超現(xiàn)實(shí)結(jié)合營(yíng)造出夢(mèng)幻般的氛圍，突出了在最意想不到的地方追求知識(shí)的追求。

SkyReels-V1：

海螺AI：

可靈AI：

從實(shí)際效果不難發(fā)現(xiàn)，無(wú)論是在畫(huà)面清晰度與人物表演方面，SkyReels-V1都有媲美閉源模型的能力。甚至在一些細(xì)節(jié)處理效果上（例如頭發(fā)絲的動(dòng)態(tài)）要比閉源模型更強(qiáng)。

SkyReels-V1文生視頻指標(biāo)對(duì)比（來(lái)源：昆侖萬(wàn)維SkyReels）

此外，SkyReels-V1不僅支持文生視頻，也支持圖生視頻的能力，是開(kāi)源模型中最大的支持圖生視頻的模型。

我們將春節(jié)檔最熱電影《哪吒之魔童鬧?！分猩钊肴诵牡耐翐苁髣≌瞻l(fā)給SkyReels-V1，并給定提示詞：土撥鼠抬起頭停頓了一秒，然后大吼大叫。生成的效果讓人驚艷：

可以說(shuō)，SkyReels-V1就是當(dāng)前市場(chǎng)上最懂表演的視頻大模型。

2.自研推理框架

做人人用得起的開(kāi)源模型

更為難得的是，SkyReels-V1作為一款開(kāi)源模型，不但在生成效果層面實(shí)現(xiàn)了大幅突破，而且有非常高的推理效率。這來(lái)源于昆侖萬(wàn)維自研的推理框架SkyReels-Infer。

自研推理框架有什么意義？

通常來(lái)說(shuō)，開(kāi)源模型不會(huì)針對(duì)推理框架做優(yōu)化，尤其是在大規(guī)模應(yīng)用場(chǎng)景中。但如果不針對(duì)推理框架做優(yōu)化，無(wú)論是推理效率還是推理成本，對(duì)于用戶體驗(yàn)來(lái)說(shuō)都并不友好。

最典型的案例是，2024年初OpenAI剛發(fā)布Sora時(shí)，有用戶爆料Sora生成一分鐘視頻需要一小時(shí)，這也是Sora在發(fā)布后時(shí)隔近一年才正式上線的重要原因之一。時(shí)至今日，仍然有很多視頻大模型存在排隊(duì)等待時(shí)間過(guò)長(zhǎng)的問(wèn)題。

但昆侖萬(wàn)維的自研推理框架SkyReels-Infer不僅保持了高性能，還特別注重效率和易用性。

SkyReels-Infer的推理速度之快，堪稱一絕。在單臺(tái)RTX4090顯卡上生成一個(gè)544P分辨率的視頻，僅需80秒。你可能走了個(gè)神，或者看了一眼手機(jī)，視頻就完成了。

SkyReels-Infer支持分布式多卡并行計(jì)算。這是一項(xiàng)非常強(qiáng)大的技術(shù)。簡(jiǎn)單來(lái)說(shuō)，就是可以讓多張顯卡一起協(xié)同工作，共同完成視頻生成任務(wù)。

通過(guò)Context Parallel（上下文并行）、CFG Parallel（分類器自由引導(dǎo)并行）和VAE Parallel（變分自編碼器并行）等技術(shù)，這些顯卡能夠像一個(gè)團(tuán)隊(duì)一樣，各自分工合作，從而進(jìn)一步提升處理速度。這種技術(shù)特別適合需要大規(guī)模計(jì)算的場(chǎng)景，比如制作復(fù)雜的動(dòng)畫(huà)、特效視頻等。

SkyReels-Infer在低顯存優(yōu)化方面也表現(xiàn)出色。它采用了 fp8 量化和參數(shù)級(jí)卸載技術(shù)，這使得即使顯存較小的普通顯卡也能流暢運(yùn)行。

顯存是顯卡的一個(gè)重要參數(shù)，它決定了顯卡能夠同時(shí)處理的數(shù)據(jù)量。以往，很多視頻生成模型對(duì)顯存要求較高，普通用戶可能因?yàn)轱@卡性能不足而無(wú)法使用。但SkyReels-Infer的低顯存優(yōu)化改變了這一現(xiàn)狀。換句話說(shuō)，用戶不再需要購(gòu)買高端顯卡，也能輕松使用視頻生成模型。這大大降低了使用門檻，讓更多人能夠享受到AI視頻生成的樂(lè)趣。

最后，SkyReels-Infer基于開(kāi)源的Diffuser庫(kù)開(kāi)發(fā)。Diffuser庫(kù)是一個(gè)非常優(yōu)秀的開(kāi)源庫(kù)，它提供了許多強(qiáng)大的功能和工具。SkyReels-Infer基于這個(gè)庫(kù)開(kāi)發(fā)，繼承了它的優(yōu)點(diǎn)。對(duì)于開(kāi)發(fā)者來(lái)說(shuō)，這意味著他們可以快速上手，輕松地將SkyReels-Infer集成到自己的項(xiàng)目中。

具體表現(xiàn)如何？昆侖萬(wàn)維用SkyReels-Infer推理框架版本的SkyReels-V1與騰訊官方開(kāi)源版的HunYuan-Video做了一次性能測(cè)試對(duì)比。測(cè)試結(jié)果顯示，SkyReels-V1在生成544p視頻時(shí)，速度比HunYuan-Video速度更快，延遲更低。

不僅如此，SkyReels-V1支持多卡部署策略，可以同時(shí)使用8張顯卡來(lái)加速任務(wù)，而且同時(shí)支持A800這樣的高端顯卡以及RTX4090這樣的普通顯卡，同時(shí)滿足了專業(yè)用戶與普通用戶的需求。

借助SkyReels-Infer的能力，昆侖萬(wàn)維進(jìn)一步降低了視頻大模型的推理成本和使用體驗(yàn)，真正實(shí)現(xiàn)了人人都能用得起、用得好的AI視頻模型。AI短劇市場(chǎng)的發(fā)展也必然會(huì)被推向新一波高潮。

3.算法開(kāi)源，業(yè)內(nèi)最優(yōu)的“AI換臉”玩法

值得一提的是，在訓(xùn)練、推理環(huán)節(jié)之后，為了實(shí)現(xiàn)更加精準(zhǔn)可控的人物視頻生成，昆侖萬(wàn)維還進(jìn)一步開(kāi)源了基于視頻基座模型的表情動(dòng)作可控算法SkyReels-A1。

SkyReels-A1是一個(gè)在訓(xùn)練、推理底層技術(shù)之上的應(yīng)用層算法，對(duì)標(biāo)Runway的Act-One，能夠?qū)崿F(xiàn)電影級(jí)別的表情捕捉。

Runway的Act-One與昆侖萬(wàn)維的SkyReels-A1的基本玩法就是“AI換臉”：準(zhǔn)備一張人物A的照片和人物B的視頻，然后將人物B的表情、動(dòng)作、臺(tái)詞等直接移植到人物A上。

在ID Similarity（身份相似度）、Image Quality（圖像質(zhì)量）、Expression（表情）和Pose（姿勢(shì)）等表現(xiàn)效果上，SkyReels-A1相比于業(yè)內(nèi)同類型的開(kāi)源算法取得了SOTA（State of the Art，最前沿）級(jí)別的效果，同時(shí)與閉源的Act-One接近，且生成質(zhì)量更好。

當(dāng)然，數(shù)值上的對(duì)比顯然不如視頻畫(huà)面來(lái)的直觀。我們依然用視頻說(shuō)話。

首先，SkyReels-A1可以實(shí)現(xiàn)視頻驅(qū)動(dòng)的電影級(jí)表情捕捉，相比Runway Act-One實(shí)現(xiàn)了更大幅度的人物表情驅(qū)動(dòng)。

其次是高保真微表情還原。SkyReels-A1能夠基于任意人體比例（包括肖像、半身及全身構(gòu)圖）生成高度逼真的人物動(dòng)態(tài)視頻。這種真實(shí)感來(lái)自于對(duì)人物表情變化和情緒的精準(zhǔn)模擬、皮膚肌理、身體動(dòng)作跟隨等多維度細(xì)節(jié)的深度還原。

比如側(cè)臉的表情控制生成：

以及更加逼真的眉眼微表情生成：

除了微表情，對(duì)于不少視頻生成模型都容易出錯(cuò)的人臉保持和大幅動(dòng)作處理上，SkyReels-A1也比Runway Act-One更加出色。

例如下面這個(gè)案例中，最右邊的人物有明顯變樣失真，和原始人物形象不一致。

SkyReels-A1還可以實(shí)現(xiàn)更大幅度的頭部和自然身體動(dòng)作。在下面這個(gè)案例中，最右邊的身體幾乎沒(méi)有任何運(yùn)動(dòng)。

從實(shí)際效果不難發(fā)現(xiàn)，SkyReels-A1這套算法通過(guò)簡(jiǎn)化傳統(tǒng)復(fù)雜的視頻制作流程，為創(chuàng)作者提供了高效、靈活且低成本的解決方案，適用于多種創(chuàng)意內(nèi)容的制作。

4.AI短劇市場(chǎng)的DeepSeek時(shí)刻

SkyReels-V1與SkyReels-A1的開(kāi)源只是昆侖萬(wàn)維視頻大模型開(kāi)源計(jì)劃的第一步。未來(lái)，昆侖萬(wàn)維還會(huì)繼續(xù)開(kāi)源相關(guān)技術(shù)，包括專業(yè)級(jí)運(yùn)鏡控制版本、720P分辨率的模型參數(shù)、更大規(guī)模訓(xùn)練數(shù)據(jù)集訓(xùn)練的模型參數(shù)、支持全身可控生成的視頻生成算法等等。

事實(shí)上，開(kāi)源一直都是昆侖萬(wàn)維的基因。要知道，昆侖萬(wàn)維董事長(zhǎng)兼CEO方漢擁有30年的互聯(lián)網(wǎng)從業(yè)經(jīng)驗(yàn)，是中文Linux奠基人、中文Linux四劍客之一、國(guó)內(nèi)最早的網(wǎng)絡(luò)安全專家。方漢自1994年開(kāi)始參與和倡導(dǎo)開(kāi)源運(yùn)動(dòng)，屬于互聯(lián)網(wǎng)領(lǐng)域很早就倡導(dǎo)開(kāi)源的人士。

方漢曾表示，開(kāi)源大模型是商業(yè)閉源大模型的一個(gè)有力補(bǔ)充和替代，希望通過(guò)開(kāi)源促進(jìn)技術(shù)民主化、降低行業(yè)門檻。

早在2022年12月，昆侖萬(wàn)維就發(fā)布了「昆侖天工」AIGC全系列算法與模型，并宣布模型開(kāi)源。昆侖萬(wàn)維不僅是國(guó)內(nèi)AIGC領(lǐng)域布局最為全面的公司之一，也是國(guó)內(nèi)第一個(gè)全身心投入到AIGC開(kāi)源社區(qū)的公司。

在過(guò)去三年中，昆侖萬(wàn)維陸續(xù)發(fā)布天工系列大模型并開(kāi)源。2024年4月發(fā)布并同步開(kāi)源的天工大模型3.0是一個(gè)4000億參數(shù)的MoE超級(jí)模型，性能超同期的Grok1.0。去年6月，昆侖萬(wàn)維又開(kāi)源2千億稀疏大模型天工MoE，是首個(gè)支持用單臺(tái) 4090 服務(wù)器推理的開(kāi)源千億MoE大模型；11月，開(kāi)源了Skywork-o1-Open等模型。

昆侖萬(wàn)維秉承開(kāi)源技術(shù)信仰，為全行業(yè)實(shí)現(xiàn)AGI夢(mèng)想而努力。

昆侖萬(wàn)維從2020年開(kāi)始進(jìn)入AI領(lǐng)域，目前已經(jīng)完成了“算力基礎(chǔ)設(shè)施——大模型算法——AI應(yīng)用”的全產(chǎn)業(yè)鏈布局，并構(gòu)建了多元化的AI業(yè)務(wù)矩陣。

其中，AI短劇就是其多元化AI矩陣應(yīng)用的一個(gè)細(xì)分領(lǐng)域。

AI短劇是一個(gè)新興市場(chǎng)，在2025年呈現(xiàn)出高速增長(zhǎng)態(tài)勢(shì)。根據(jù)TikTok for Business發(fā)布的《2024短劇出海營(yíng)銷白皮書(shū)》，預(yù)計(jì)未來(lái)海外月均短劇用戶規(guī)模將達(dá)到2-3億，市場(chǎng)規(guī)模有望達(dá)到100億美元，仍存在高增長(zhǎng)潛力。

昆侖萬(wàn)維于2024年12月在美國(guó)上線Skyreels AI短劇平臺(tái)，這標(biāo)志著昆侖萬(wàn)維在全球AI娛樂(lè)市場(chǎng)的進(jìn)一步擴(kuò)張，同時(shí)也將為北美觀眾帶來(lái)全新的智能短劇體驗(yàn)。SkyReels AI短劇平臺(tái)不僅為專業(yè)內(nèi)容創(chuàng)作者提供了強(qiáng)大的創(chuàng)作工具，更極大地降低了AI短劇創(chuàng)作的門檻，使得非專業(yè)用戶也能輕松上手。

AI對(duì)全球的影視產(chǎn)業(yè)究竟意味著什么？

方漢在2024世界人工智能大會(huì)上演講時(shí)提到，AI在海外尤其是小語(yǔ)種國(guó)家存在巨大紅利。

以影視劇舉例，在尼日利亞制作一部電影的成本大約為2萬(wàn)美金，拍出來(lái)的作品與國(guó)內(nèi)花3億人民幣制作的《流浪地球》、美國(guó)花幾億美金制作的《阿凡達(dá)》相比，完全沒(méi)有競(jìng)爭(zhēng)力。但是AI出現(xiàn)后，把這個(gè)差距拉平了。

“個(gè)人預(yù)測(cè)3-5年之后，制作一部《流浪地球》級(jí)別的大片，依靠AI之后，制作成本可能會(huì)降到幾萬(wàn)美金，這樣導(dǎo)致在海外很多地區(qū)存在非常大的紅利，所有人都希望看到本土的文化產(chǎn)品，不管小說(shuō)、音樂(lè)、視頻還是漫畫(huà)，都需要本土化的產(chǎn)品，所以AI出海存在巨大的紅利。”方漢表示。

往小了說(shuō)，AI帶來(lái)的紅利是讓文化產(chǎn)品制作的成本實(shí)現(xiàn)指數(shù)級(jí)降低，讓“一人一劇”的時(shí)代成為現(xiàn)實(shí)。往大了說(shuō)，通過(guò)降低創(chuàng)作門檻，AIGC使弱勢(shì)文化群體能自主生產(chǎn)內(nèi)容，將帶來(lái)全球文化平權(quán)，這是科技向善最生動(dòng)的注腳。

大家說(shuō)AI帶來(lái)了“iPhone時(shí)刻”，但方漢認(rèn)為AI是類似于手機(jī)攝像頭的革命，因?yàn)閿z像頭帶來(lái)拍攝方式的革命，從而催生出抖音、快手這樣巨量的短視頻平臺(tái)，AI會(huì)催生大量的新的AI UGC平臺(tái)，這是一個(gè)個(gè)性化生產(chǎn)與消費(fèi)內(nèi)容的黃金時(shí)代。

在「甲子光年」看來(lái)，昆侖萬(wàn)維所發(fā)布的首個(gè)面向AI短劇創(chuàng)作的開(kāi)源視頻生成模型SkyReels-V1，以及首個(gè)SOTA級(jí)別的基于視頻基座模型的表情動(dòng)作可控算法SkyReels-A1，正是推動(dòng)AIGC時(shí)代來(lái)臨的最普惠的工具。

AI短劇市場(chǎng)有望迎來(lái)“DeepSeek時(shí)刻”。

*點(diǎn)擊文末原文鏈接試用SkyReels-V1

（封面圖來(lái)源：昆侖萬(wàn)維）

原標(biāo)題：《最懂表演的視頻大模型開(kāi)源！AI短劇迎來(lái)“DeepSeek時(shí)刻”｜甲子光年》

閱讀原文

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

我要舉報(bào)

#SkyReels-V1 #昆侖萬(wàn)維