獨(dú)家｜快手可靈大模型開放圖生視頻，視頻續(xù)寫最長(zhǎng)可達(dá)3分鐘

澎湃新聞?dòng)浾?范佳來

2024-06-21 14:49

來源：澎湃新聞

在Sora王炸面世后，挑戰(zhàn)者正在前赴后繼地涌現(xiàn)，其中不乏國(guó)產(chǎn)大模型的身影。

6月21日，澎湃新聞?dòng)浾擢?dú)家獲悉，快手可靈大模型發(fā)布重磅更新：正式開放圖生視頻功能，支持將靜態(tài)圖像轉(zhuǎn)化為5秒鐘視頻，用戶可通過提示詞文本控制圖像中物體的運(yùn)動(dòng)；同時(shí)推出視頻續(xù)寫功能，支持對(duì)生成視頻一鍵續(xù)寫和連續(xù)多次續(xù)寫，最長(zhǎng)可生成約3分鐘視頻。

今年6月，快手發(fā)布自研的視頻生成大模型可靈，可支持生產(chǎn)最高達(dá)120秒的視頻，在快影App開放邀測(cè)體驗(yàn)，目前累計(jì)已有約14萬人申請(qǐng)內(nèi)測(cè)。

作為視頻生成模型，可靈最直接的競(jìng)爭(zhēng)對(duì)手無疑是Sora。今年2月15日，OpenAI披露了“文生視頻”模型Sora的研發(fā)進(jìn)展，可以創(chuàng)建長(zhǎng)達(dá)60秒的視頻，其中包含高度詳細(xì)的場(chǎng)景、復(fù)雜的攝像機(jī)運(yùn)動(dòng)以及多個(gè)角色，也可以根據(jù)靜態(tài)圖像制作動(dòng)畫。

消息一出，曾經(jīng)引發(fā)AI行業(yè)“地震”，成為全網(wǎng)輿論熱議話題，Sora也一度成為國(guó)產(chǎn)大模型的對(duì)標(biāo)方向。

從視頻長(zhǎng)度來看，此次可靈的續(xù)寫能力加持下，最終可支持用戶創(chuàng)作長(zhǎng)達(dá)約3分鐘的視頻，這也是在可靈披露實(shí)現(xiàn)120秒鐘的單次視頻生成后，再次披露長(zhǎng)時(shí)間的視頻生成能力。

根據(jù)快手方面介紹，此次推出的續(xù)寫功能可以實(shí)現(xiàn)一次性讓視頻運(yùn)動(dòng)延續(xù)約5秒，文生視頻和圖生視頻結(jié)果均可支持。憑借對(duì)物理世界的理解，該功能不僅能夠理解前一段視頻的運(yùn)動(dòng)，生成符合物理規(guī)律的連續(xù)運(yùn)動(dòng)，而且能實(shí)現(xiàn)較大幅度的動(dòng)態(tài)變化。

通俗而言，用戶使用可靈大模型可以通過文生視頻和圖生視頻兩種模式，生成約5秒鐘視頻，此后可使用視頻續(xù)寫功能，每次續(xù)寫都能將視頻延續(xù)約5秒，最終可實(shí)現(xiàn)長(zhǎng)達(dá)3分鐘的視頻。

此外，每一段續(xù)寫都能夠融入用戶的創(chuàng)意和想法，還能實(shí)現(xiàn)轉(zhuǎn)換和場(chǎng)景過渡功能，用戶可對(duì)每一段延長(zhǎng)的視頻添加不同提示詞，生成連續(xù)長(zhǎng)視頻。

例如同一個(gè)古堡視頻，既可以生成“太陽(yáng)落下去，天空變暗”再“太陽(yáng)升起來，天空變亮”的續(xù)寫視頻，也可以呈現(xiàn)從“太陽(yáng)落下去，天空變暗，燈光亮起”到“燈光亮起，霧氣出現(xiàn)”的不同變換效果。

在騰訊、抖音、百度等多家互聯(lián)網(wǎng)大廠角逐的視頻生成賽道，業(yè)內(nèi)已經(jīng)將快手視作Sora的有力挑戰(zhàn)對(duì)手。

在2024年北京智源大會(huì)上，DiT論文作者、紐約大學(xué)助理教授謝賽寧曾和Sora及Dall-E團(tuán)隊(duì)負(fù)責(zé)人阿迪蒂亞·拉梅什（Aditya Ramesh）談及快手可靈大模型，并詢問拉梅什如何看待其與Sora的競(jìng)爭(zhēng)。

對(duì)此，拉梅什曾回應(yīng)稱歡迎競(jìng)爭(zhēng)，“很高興看到其他實(shí)驗(yàn)室或公司也在發(fā)布視頻生成模型。我認(rèn)為，越來越多的人采用不同的方法在這個(gè)領(lǐng)域前進(jìn)，可以激發(fā)行業(yè)的創(chuàng)造力。在視頻生成領(lǐng)域看到有趣的產(chǎn)品創(chuàng)新也很棒。”

在財(cái)報(bào)中，快手也曾多次披露大模型相關(guān)進(jìn)展，電話會(huì)議上，程一笑曾表示，今年一季度，快手穩(wěn)步推進(jìn)自研大模型各項(xiàng)性能的迭代提升，并且加快大模型在各業(yè)務(wù)場(chǎng)景的應(yīng)用。

國(guó)內(nèi)互聯(lián)網(wǎng)大廠正在扎堆布局視頻生成領(lǐng)域。

4月27日的2024中關(guān)村論壇年會(huì)上，清華大學(xué)聯(lián)合生數(shù)科技正式發(fā)布中國(guó)首個(gè)長(zhǎng)時(shí)長(zhǎng)、高一致性、高動(dòng)態(tài)性視頻大模型Vidu，不過，Vidu的16秒與Sora的一分鐘仍存在算力和工程方面的巨大差距。

3月15日，騰訊和清華大學(xué)、香港科技大學(xué)聯(lián)合推出圖生視頻模型“Follow-Your-Click”?；谳斎肽Ｐ偷膱D片，用戶只需點(diǎn)擊對(duì)應(yīng)區(qū)域，加上少量提示詞，就可以讓圖片中原本靜態(tài)的區(qū)域動(dòng)起來，一鍵轉(zhuǎn)換成視頻。從時(shí)長(zhǎng)來看，相關(guān)視頻時(shí)長(zhǎng)為10秒鐘。

去年開始，字節(jié)正式組建Flow部門，專注于AI大模型的應(yīng)用研發(fā)。字節(jié)產(chǎn)品與戰(zhàn)略副總裁朱駿和字節(jié)技術(shù)副總裁洪定坤分別擔(dān)任部門的產(chǎn)品負(fù)責(zé)人和技術(shù)負(fù)責(zé)人。今年4月，字節(jié)提拔AI部門的負(fù)責(zé)人，現(xiàn)由朱文佳整體負(fù)責(zé)字節(jié)AI業(yè)務(wù)，向字節(jié)跳動(dòng)CEO梁汝波匯報(bào)。

2月，有傳言稱，字節(jié)跳動(dòng)在Sora引爆文生視頻賽道之前，已經(jīng)在研發(fā)“中文版Sora”：一款名為Boximator的創(chuàng)新性視頻模型。

當(dāng)時(shí)，字節(jié)跳動(dòng)相關(guān)人士曾告訴澎湃新聞?dòng)浾?，Boximator是視頻生成領(lǐng)域控制對(duì)象運(yùn)動(dòng)的技術(shù)方法研究項(xiàng)目。目前還無法作為完善的產(chǎn)品落地，距離國(guó)外領(lǐng)先的視頻生成模型在畫面質(zhì)量、保真率、視頻時(shí)長(zhǎng)等方面還有很大差距。

責(zé)任編輯：孫扶

圖片編輯：樂浴峰

校對(duì)：丁曉

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#圖生視頻 #視頻 #快手