- +1
最懂表演的視頻大模型開(kāi)源,AI短劇迎來(lái)“DeepSeek時(shí)刻”
原創(chuàng) 趙健 甲子光年
昆侖萬(wàn)維發(fā)布國(guó)內(nèi)首個(gè)面向AI短劇的開(kāi)源視頻大模型。作者|趙健
編輯|栗子
做通用場(chǎng)景還是垂直場(chǎng)景,這是AI大模型最基本的選擇題。
現(xiàn)在市面上的視頻大模型基本都是通用模型,可以根據(jù)提示詞生成任意場(chǎng)景的視頻。但也有一些視頻大模型從離應(yīng)用場(chǎng)景更近的垂直領(lǐng)域切入,比如字節(jié)跳動(dòng)近期發(fā)布Goku,聚焦在數(shù)字人直播帶貨。
而今天昆侖萬(wàn)維剛剛發(fā)布的SkyReels-V1,則是中國(guó)首個(gè)面向AI短劇創(chuàng)作的視頻生成大模型。昆侖萬(wàn)維在去年12月上線AI短劇平臺(tái)SkyReels,SkyReels-V1將為該平臺(tái)提供大模型能力。
根據(jù)「甲子光年」的實(shí)際觀察和體驗(yàn),不夸張的說(shuō),SkyReels-V1是市面上“最懂表演”的視頻大模型,在人物微表情、動(dòng)作細(xì)節(jié)、場(chǎng)景、畫(huà)面構(gòu)圖、運(yùn)鏡等影視級(jí)要求的表現(xiàn)效果上獨(dú)樹(shù)一幟,能夠生成媲美“影帝影后級(jí)別”的表演鏡頭。
與SkyReels-V1一同發(fā)布的還有SkyReels-A1,是昆侖萬(wàn)維自研的首個(gè)SOTA級(jí)別的基于視頻基座模型的表情動(dòng)作可控算法。
更為重要的是,SkyReels-V1與SkyReels-A1都是開(kāi)源模型,任何用戶都可以按照開(kāi)源協(xié)議下載使用。開(kāi)源地址:
https://github.com/SkyworkAI/SkyReels-V1
https://github.com/SkyworkAI/SkyReels-A1
https://skyworkai.github.io/skyreels-a1.github.io/report.pdf
如果說(shuō)DeepSeek R1是給文本大模型,尤其是推理模型樹(shù)立了開(kāi)源模型新標(biāo)桿,那么昆侖萬(wàn)維的SkyReels-V1和SkyReels-A1就是在蓬勃發(fā)展的AI短劇市場(chǎng)樹(shù)立了開(kāi)源模型新標(biāo)桿。在SkyReels-V1和SkyReels-A1的加持下,AI短劇市場(chǎng)有望迎來(lái)DeepSeek時(shí)刻。
1.“最懂表演”的視頻大模型
SkyReels-V1是受益于開(kāi)源社區(qū)并回饋開(kāi)源社區(qū)的大模型,它是在騰訊去年12月開(kāi)源的混元視頻大模型HunYuan-Video的基礎(chǔ)上訓(xùn)練而來(lái)。
開(kāi)源模型雖然在通用任務(wù)上表現(xiàn)出色,但并非拿來(lái)即用,尤其是在特定領(lǐng)域或細(xì)分任務(wù)上的表現(xiàn)可能無(wú)法達(dá)到最佳效果。因此,模型廠商在實(shí)際的模型訓(xùn)練中還涉及大量的微調(diào)、推理優(yōu)化、安全對(duì)齊等相關(guān)工作。
目前AI短劇市場(chǎng)中的視頻大模型普遍存在一些不足,最典型的就是人物生成表情空洞,甚至宛如智障。昆侖萬(wàn)維希望突破這些痛點(diǎn)。
模型訓(xùn)練是讓大模型學(xué)會(huì)知識(shí)與能力的核心環(huán)節(jié)。在訓(xùn)練過(guò)程中,昆侖萬(wàn)維需要教會(huì)SkyReels-V1“如何學(xué)會(huì)表演”。這其中最核心的技術(shù)貢獻(xiàn)有兩點(diǎn):
首先是數(shù)據(jù)清洗與標(biāo)注,這是模型微調(diào)的關(guān)鍵所在。就像教師教學(xué)時(shí)需要用到的教材一樣,昆侖萬(wàn)維基于自研的高質(zhì)量數(shù)據(jù)清洗和人工標(biāo)注管線,構(gòu)建了千萬(wàn)級(jí)的高質(zhì)量電影、電視劇、紀(jì)錄片數(shù)據(jù),這是模型要學(xué)習(xí)的“教材”。
但光有“教材”還不夠,還要對(duì)模型做進(jìn)一步的指導(dǎo)。為此,昆侖萬(wàn)維自研了Human-Centric(以人物為中心的)視頻理解多模態(tài)大模型,大幅提升視頻中人物相關(guān)的理解能力。
這套基于視頻理解多模態(tài)大模型所構(gòu)建的人物智能解析系統(tǒng),在影視化的表情識(shí)別、人物空間位置感知、行為意圖理解、表演場(chǎng)景理解等不同層次的表演上,都能達(dá)到“影帝級(jí)別”的人物表演。
什么是“影帝級(jí)別”?
比如,SkyReels-V1可以生成影視級(jí)人物微表情表演,支持33種細(xì)膩人物表情與400+種自然動(dòng)作組合,高度還原真人情感表達(dá)。



再比如,SkyReels-V1還學(xué)會(huì)了電影級(jí)光影美學(xué)?;诤萌R塢級(jí)的高質(zhì)量影視數(shù)據(jù)訓(xùn)練,生成的每一幀畫(huà)面,在構(gòu)圖、演員站位、相機(jī)角度等都具備電影級(jí)的質(zhì)感。


盡管SkyReels-V1是一個(gè)開(kāi)源模型,但卻有媲美海螺AI、可靈AI等閉源模型的效果。給出同樣的提示詞,SkyReels-V1、海螺AI、可靈AI的生成效果分別如下:提示詞:一張棕色頭發(fā)女性的照片,華麗的紅色染色眼鏡和深紅色口紅。她朝著前方揮了揮手,先是微笑,然后大笑。
SkyReels-V1:
海螺AI:
可靈AI:
提示詞:戲劇性的正面特寫(xiě)鏡頭揭示了一位深海潛水員戴著老式銅制潛水頭盔的面容。頭盔厚厚的圓形玻璃提供了清晰視野,可以看到他平靜的表情。微小的氣泡在頭盔內(nèi)向上飄浮,水滴附著在內(nèi)壁上。他小心翼翼地捧著一本敞開(kāi)的書(shū),書(shū)頁(yè)在海底水流中輕輕飄動(dòng)。這本書(shū)看起來(lái)干燥完好,與周圍的水環(huán)境形成鮮明對(duì)比。柔和的陽(yáng)光束穿透水面,照亮了他的臉龐,并在書(shū)頁(yè)上灑下金色光芒。魚(yú)兒在周圍游動(dòng),顏色因深度而變得柔和,但在藍(lán)綠色背景前依然生動(dòng)。潛水員專注地閱讀著文本,盡管身處水下,卻完全沉浸在閱讀中。文學(xué)與海洋深處的超現(xiàn)實(shí)結(jié)合營(yíng)造出夢(mèng)幻般的氛圍,突出了在最意想不到的地方追求知識(shí)的追求。SkyReels-V1:
海螺AI:
可靈AI:
從實(shí)際效果不難發(fā)現(xiàn),無(wú)論是在畫(huà)面清晰度與人物表演方面,SkyReels-V1都有媲美閉源模型的能力。甚至在一些細(xì)節(jié)處理效果上(例如頭發(fā)絲的動(dòng)態(tài))要比閉源模型更強(qiáng)。
SkyReels-V1文生視頻指標(biāo)對(duì)比(來(lái)源:昆侖萬(wàn)維SkyReels)此外,SkyReels-V1不僅支持文生視頻,也支持圖生視頻的能力,是開(kāi)源模型中最大的支持圖生視頻的模型。
我們將春節(jié)檔最熱電影《哪吒之魔童鬧?!分猩钊肴诵牡耐翐苁髣≌瞻l(fā)給SkyReels-V1,并給定提示詞:土撥鼠抬起頭停頓了一秒,然后大吼大叫。生成的效果讓人驚艷:
可以說(shuō),SkyReels-V1就是當(dāng)前市場(chǎng)上最懂表演的視頻大模型。2.自研推理框架
做人人用得起的開(kāi)源模型
更為難得的是,SkyReels-V1作為一款開(kāi)源模型,不但在生成效果層面實(shí)現(xiàn)了大幅突破,而且有非常高的推理效率。這來(lái)源于昆侖萬(wàn)維自研的推理框架SkyReels-Infer。
自研推理框架有什么意義?
通常來(lái)說(shuō),開(kāi)源模型不會(huì)針對(duì)推理框架做優(yōu)化,尤其是在大規(guī)模應(yīng)用場(chǎng)景中。但如果不針對(duì)推理框架做優(yōu)化,無(wú)論是推理效率還是推理成本,對(duì)于用戶體驗(yàn)來(lái)說(shuō)都并不友好。
最典型的案例是,2024年初OpenAI剛發(fā)布Sora時(shí),有用戶爆料Sora生成一分鐘視頻需要一小時(shí),這也是Sora在發(fā)布后時(shí)隔近一年才正式上線的重要原因之一。時(shí)至今日,仍然有很多視頻大模型存在排隊(duì)等待時(shí)間過(guò)長(zhǎng)的問(wèn)題。
但昆侖萬(wàn)維的自研推理框架SkyReels-Infer不僅保持了高性能,還特別注重效率和易用性。
SkyReels-Infer的推理速度之快,堪稱一絕。在單臺(tái)RTX4090顯卡上生成一個(gè)544P分辨率的視頻,僅需80秒。你可能走了個(gè)神,或者看了一眼手機(jī),視頻就完成了。
SkyReels-Infer支持分布式多卡并行計(jì)算。這是一項(xiàng)非常強(qiáng)大的技術(shù)。簡(jiǎn)單來(lái)說(shuō),就是可以讓多張顯卡一起協(xié)同工作,共同完成視頻生成任務(wù)。
通過(guò)Context Parallel(上下文并行)、CFG Parallel(分類器自由引導(dǎo)并行)和VAE Parallel(變分自編碼器并行)等技術(shù),這些顯卡能夠像一個(gè)團(tuán)隊(duì)一樣,各自分工合作,從而進(jìn)一步提升處理速度。這種技術(shù)特別適合需要大規(guī)模計(jì)算的場(chǎng)景,比如制作復(fù)雜的動(dòng)畫(huà)、特效視頻等。
SkyReels-Infer在低顯存優(yōu)化方面也表現(xiàn)出色。它采用了 fp8 量化和參數(shù)級(jí)卸載技術(shù),這使得即使顯存較小的普通顯卡也能流暢運(yùn)行。
顯存是顯卡的一個(gè)重要參數(shù),它決定了顯卡能夠同時(shí)處理的數(shù)據(jù)量。以往,很多視頻生成模型對(duì)顯存要求較高,普通用戶可能因?yàn)轱@卡性能不足而無(wú)法使用。但SkyReels-Infer的低顯存優(yōu)化改變了這一現(xiàn)狀。換句話說(shuō),用戶不再需要購(gòu)買高端顯卡,也能輕松使用視頻生成模型。這大大降低了使用門檻,讓更多人能夠享受到AI視頻生成的樂(lè)趣。
最后,SkyReels-Infer基于開(kāi)源的Diffuser庫(kù)開(kāi)發(fā)。Diffuser庫(kù)是一個(gè)非常優(yōu)秀的開(kāi)源庫(kù),它提供了許多強(qiáng)大的功能和工具。SkyReels-Infer基于這個(gè)庫(kù)開(kāi)發(fā),繼承了它的優(yōu)點(diǎn)。對(duì)于開(kāi)發(fā)者來(lái)說(shuō),這意味著他們可以快速上手,輕松地將SkyReels-Infer集成到自己的項(xiàng)目中。
具體表現(xiàn)如何?昆侖萬(wàn)維用SkyReels-Infer推理框架版本的SkyReels-V1與騰訊官方開(kāi)源版的HunYuan-Video做了一次性能測(cè)試對(duì)比。測(cè)試結(jié)果顯示,SkyReels-V1在生成544p視頻時(shí),速度比HunYuan-Video速度更快,延遲更低。
不僅如此,SkyReels-V1支持多卡部署策略,可以同時(shí)使用8張顯卡來(lái)加速任務(wù),而且同時(shí)支持A800這樣的高端顯卡以及RTX4090這樣的普通顯卡,同時(shí)滿足了專業(yè)用戶與普通用戶的需求。
借助SkyReels-Infer的能力,昆侖萬(wàn)維進(jìn)一步降低了視頻大模型的推理成本和使用體驗(yàn),真正實(shí)現(xiàn)了人人都能用得起、用得好的AI視頻模型。AI短劇市場(chǎng)的發(fā)展也必然會(huì)被推向新一波高潮。3.算法開(kāi)源,業(yè)內(nèi)最優(yōu)的“AI換臉”玩法
值得一提的是,在訓(xùn)練、推理環(huán)節(jié)之后,為了實(shí)現(xiàn)更加精準(zhǔn)可控的人物視頻生成,昆侖萬(wàn)維還進(jìn)一步開(kāi)源了基于視頻基座模型的表情動(dòng)作可控算法SkyReels-A1。
SkyReels-A1是一個(gè)在訓(xùn)練、推理底層技術(shù)之上的應(yīng)用層算法,對(duì)標(biāo)Runway的Act-One,能夠?qū)崿F(xiàn)電影級(jí)別的表情捕捉。
Runway的Act-One與昆侖萬(wàn)維的SkyReels-A1的基本玩法就是“AI換臉”:準(zhǔn)備一張人物A的照片和人物B的視頻,然后將人物B的表情、動(dòng)作、臺(tái)詞等直接移植到人物A上。
在ID Similarity(身份相似度)、Image Quality(圖像質(zhì)量)、Expression(表情)和Pose(姿勢(shì))等表現(xiàn)效果上,SkyReels-A1相比于業(yè)內(nèi)同類型的開(kāi)源算法取得了SOTA(State of the Art,最前沿)級(jí)別的效果,同時(shí)與閉源的Act-One接近,且生成質(zhì)量更好。
當(dāng)然,數(shù)值上的對(duì)比顯然不如視頻畫(huà)面來(lái)的直觀。我們依然用視頻說(shuō)話。首先,SkyReels-A1可以實(shí)現(xiàn)視頻驅(qū)動(dòng)的電影級(jí)表情捕捉,相比Runway Act-One實(shí)現(xiàn)了更大幅度的人物表情驅(qū)動(dòng)。
其次是高保真微表情還原。SkyReels-A1能夠基于任意人體比例(包括肖像、半身及全身構(gòu)圖)生成高度逼真的人物動(dòng)態(tài)視頻。這種真實(shí)感來(lái)自于對(duì)人物表情變化和情緒的精準(zhǔn)模擬、皮膚肌理、身體動(dòng)作跟隨等多維度細(xì)節(jié)的深度還原。比如側(cè)臉的表情控制生成:
以及更加逼真的眉眼微表情生成:
除了微表情,對(duì)于不少視頻生成模型都容易出錯(cuò)的人臉保持和大幅動(dòng)作處理上,SkyReels-A1也比Runway Act-One更加出色。例如下面這個(gè)案例中,最右邊的人物有明顯變樣失真,和原始人物形象不一致。
SkyReels-A1還可以實(shí)現(xiàn)更大幅度的頭部和自然身體動(dòng)作。在下面這個(gè)案例中,最右邊的身體幾乎沒(méi)有任何運(yùn)動(dòng)。
從實(shí)際效果不難發(fā)現(xiàn),SkyReels-A1這套算法通過(guò)簡(jiǎn)化傳統(tǒng)復(fù)雜的視頻制作流程,為創(chuàng)作者提供了高效、靈活且低成本的解決方案,適用于多種創(chuàng)意內(nèi)容的制作。4.AI短劇市場(chǎng)的DeepSeek時(shí)刻
SkyReels-V1與SkyReels-A1的開(kāi)源只是昆侖萬(wàn)維視頻大模型開(kāi)源計(jì)劃的第一步。未來(lái),昆侖萬(wàn)維還會(huì)繼續(xù)開(kāi)源相關(guān)技術(shù),包括專業(yè)級(jí)運(yùn)鏡控制版本、720P分辨率的模型參數(shù)、更大規(guī)模訓(xùn)練數(shù)據(jù)集訓(xùn)練的模型參數(shù)、支持全身可控生成的視頻生成算法等等。
事實(shí)上,開(kāi)源一直都是昆侖萬(wàn)維的基因。要知道,昆侖萬(wàn)維董事長(zhǎng)兼CEO方漢擁有30年的互聯(lián)網(wǎng)從業(yè)經(jīng)驗(yàn),是中文Linux奠基人、中文Linux四劍客之一、國(guó)內(nèi)最早的網(wǎng)絡(luò)安全專家。方漢自1994年開(kāi)始參與和倡導(dǎo)開(kāi)源運(yùn)動(dòng),屬于互聯(lián)網(wǎng)領(lǐng)域很早就倡導(dǎo)開(kāi)源的人士。
方漢曾表示,開(kāi)源大模型是商業(yè)閉源大模型的一個(gè)有力補(bǔ)充和替代,希望通過(guò)開(kāi)源促進(jìn)技術(shù)民主化、降低行業(yè)門檻。
早在2022年12月,昆侖萬(wàn)維就發(fā)布了「昆侖天工」AIGC全系列算法與模型,并宣布模型開(kāi)源。昆侖萬(wàn)維不僅是國(guó)內(nèi)AIGC領(lǐng)域布局最為全面的公司之一,也是國(guó)內(nèi)第一個(gè)全身心投入到AIGC開(kāi)源社區(qū)的公司。
在過(guò)去三年中,昆侖萬(wàn)維陸續(xù)發(fā)布天工系列大模型并開(kāi)源。2024年4月發(fā)布并同步開(kāi)源的天工大模型3.0是一個(gè)4000億參數(shù)的MoE超級(jí)模型,性能超同期的Grok1.0。去年6月,昆侖萬(wàn)維又開(kāi)源2千億稀疏大模型天工MoE,是首個(gè)支持用單臺(tái) 4090 服務(wù)器推理的開(kāi)源千億MoE大模型;11月,開(kāi)源了Skywork-o1-Open等模型。
昆侖萬(wàn)維秉承開(kāi)源技術(shù)信仰,為全行業(yè)實(shí)現(xiàn)AGI夢(mèng)想而努力。
昆侖萬(wàn)維從2020年開(kāi)始進(jìn)入AI領(lǐng)域,目前已經(jīng)完成了“算力基礎(chǔ)設(shè)施——大模型算法——AI應(yīng)用”的全產(chǎn)業(yè)鏈布局,并構(gòu)建了多元化的AI業(yè)務(wù)矩陣。
其中,AI短劇就是其多元化AI矩陣應(yīng)用的一個(gè)細(xì)分領(lǐng)域。
AI短劇是一個(gè)新興市場(chǎng),在2025年呈現(xiàn)出高速增長(zhǎng)態(tài)勢(shì)。根據(jù)TikTok for Business發(fā)布的《2024短劇出海營(yíng)銷白皮書(shū)》,預(yù)計(jì)未來(lái)海外月均短劇用戶規(guī)模將達(dá)到2-3億,市場(chǎng)規(guī)模有望達(dá)到100億美元,仍存在高增長(zhǎng)潛力。
昆侖萬(wàn)維于2024年12月在美國(guó)上線Skyreels AI短劇平臺(tái),這標(biāo)志著昆侖萬(wàn)維在全球AI娛樂(lè)市場(chǎng)的進(jìn)一步擴(kuò)張,同時(shí)也將為北美觀眾帶來(lái)全新的智能短劇體驗(yàn)。SkyReels AI短劇平臺(tái)不僅為專業(yè)內(nèi)容創(chuàng)作者提供了強(qiáng)大的創(chuàng)作工具,更極大地降低了AI短劇創(chuàng)作的門檻,使得非專業(yè)用戶也能輕松上手。
AI對(duì)全球的影視產(chǎn)業(yè)究竟意味著什么?
方漢在2024世界人工智能大會(huì)上演講時(shí)提到,AI在海外尤其是小語(yǔ)種國(guó)家存在巨大紅利。
以影視劇舉例,在尼日利亞制作一部電影的成本大約為2萬(wàn)美金,拍出來(lái)的作品與國(guó)內(nèi)花3億人民幣制作的《流浪地球》、美國(guó)花幾億美金制作的《阿凡達(dá)》相比,完全沒(méi)有競(jìng)爭(zhēng)力。但是AI出現(xiàn)后,把這個(gè)差距拉平了。
“個(gè)人預(yù)測(cè)3-5年之后,制作一部《流浪地球》級(jí)別的大片,依靠AI之后,制作成本可能會(huì)降到幾萬(wàn)美金,這樣導(dǎo)致在海外很多地區(qū)存在非常大的紅利,所有人都希望看到本土的文化產(chǎn)品,不管小說(shuō)、音樂(lè)、視頻還是漫畫(huà),都需要本土化的產(chǎn)品,所以AI出海存在巨大的紅利。”方漢表示。
往小了說(shuō),AI帶來(lái)的紅利是讓文化產(chǎn)品制作的成本實(shí)現(xiàn)指數(shù)級(jí)降低,讓“一人一劇”的時(shí)代成為現(xiàn)實(shí)。往大了說(shuō),通過(guò)降低創(chuàng)作門檻,AIGC使弱勢(shì)文化群體能自主生產(chǎn)內(nèi)容,將帶來(lái)全球文化平權(quán),這是科技向善最生動(dòng)的注腳。
大家說(shuō)AI帶來(lái)了“iPhone時(shí)刻”,但方漢認(rèn)為AI是類似于手機(jī)攝像頭的革命,因?yàn)閿z像頭帶來(lái)拍攝方式的革命,從而催生出抖音、快手這樣巨量的短視頻平臺(tái),AI會(huì)催生大量的新的AI UGC平臺(tái),這是一個(gè)個(gè)性化生產(chǎn)與消費(fèi)內(nèi)容的黃金時(shí)代。
在「甲子光年」看來(lái),昆侖萬(wàn)維所發(fā)布的首個(gè)面向AI短劇創(chuàng)作的開(kāi)源視頻生成模型SkyReels-V1,以及首個(gè)SOTA級(jí)別的基于視頻基座模型的表情動(dòng)作可控算法SkyReels-A1,正是推動(dòng)AIGC時(shí)代來(lái)臨的最普惠的工具。
AI短劇市場(chǎng)有望迎來(lái)“DeepSeek時(shí)刻”。
*點(diǎn)擊文末原文鏈接試用SkyReels-V1
(封面圖來(lái)源:昆侖萬(wàn)維)
原標(biāo)題:《最懂表演的視頻大模型開(kāi)源!AI短劇迎來(lái)“DeepSeek時(shí)刻”|甲子光年》
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




