- +1
獨(dú)家|快手可靈大模型開放圖生視頻,視頻續(xù)寫最長(zhǎng)可達(dá)3分鐘
6月21日,澎湃新聞?dòng)浾擢?dú)家獲悉,快手可靈大模型發(fā)布重磅更新:正式開放圖生視頻功能,支持將靜態(tài)圖像轉(zhuǎn)化為5秒鐘視頻,用戶可通過提示詞文本控制圖像中物體的運(yùn)動(dòng);同時(shí)推出視頻續(xù)寫功能,支持對(duì)生成視頻一鍵續(xù)寫和連續(xù)多次續(xù)寫,最長(zhǎng)可生成約3分鐘視頻。
今年6月,快手發(fā)布自研的視頻生成大模型可靈,可支持生產(chǎn)最高達(dá)120秒的視頻,在快影App開放邀測(cè)體驗(yàn),目前累計(jì)已有約14萬人申請(qǐng)內(nèi)測(cè)。
作為視頻生成模型,可靈最直接的競(jìng)爭(zhēng)對(duì)手無疑是Sora。今年2月15日,OpenAI披露了“文生視頻”模型Sora的研發(fā)進(jìn)展,可以創(chuàng)建長(zhǎng)達(dá)60秒的視頻,其中包含高度詳細(xì)的場(chǎng)景、復(fù)雜的攝像機(jī)運(yùn)動(dòng)以及多個(gè)角色,也可以根據(jù)靜態(tài)圖像制作動(dòng)畫。
消息一出,曾經(jīng)引發(fā)AI行業(yè)“地震”,成為全網(wǎng)輿論熱議話題,Sora也一度成為國(guó)產(chǎn)大模型的對(duì)標(biāo)方向。
從視頻長(zhǎng)度來看,此次可靈的續(xù)寫能力加持下,最終可支持用戶創(chuàng)作長(zhǎng)達(dá)約3分鐘的視頻,這也是在可靈披露實(shí)現(xiàn)120秒鐘的單次視頻生成后,再次披露長(zhǎng)時(shí)間的視頻生成能力。
根據(jù)快手方面介紹,此次推出的續(xù)寫功能可以實(shí)現(xiàn)一次性讓視頻運(yùn)動(dòng)延續(xù)約5秒,文生視頻和圖生視頻結(jié)果均可支持。憑借對(duì)物理世界的理解,該功能不僅能夠理解前一段視頻的運(yùn)動(dòng),生成符合物理規(guī)律的連續(xù)運(yùn)動(dòng),而且能實(shí)現(xiàn)較大幅度的動(dòng)態(tài)變化。
通俗而言,用戶使用可靈大模型可以通過文生視頻和圖生視頻兩種模式,生成約5秒鐘視頻,此后可使用視頻續(xù)寫功能,每次續(xù)寫都能將視頻延續(xù)約5秒,最終可實(shí)現(xiàn)長(zhǎng)達(dá)3分鐘的視頻。
此外,每一段續(xù)寫都能夠融入用戶的創(chuàng)意和想法,還能實(shí)現(xiàn)轉(zhuǎn)換和場(chǎng)景過渡功能,用戶可對(duì)每一段延長(zhǎng)的視頻添加不同提示詞,生成連續(xù)長(zhǎng)視頻。
例如同一個(gè)古堡視頻,既可以生成“太陽(yáng)落下去,天空變暗”再“太陽(yáng)升起來,天空變亮”的續(xù)寫視頻,也可以呈現(xiàn)從“太陽(yáng)落下去,天空變暗,燈光亮起”到“燈光亮起,霧氣出現(xiàn)”的不同變換效果。
在騰訊、抖音、百度等多家互聯(lián)網(wǎng)大廠角逐的視頻生成賽道,業(yè)內(nèi)已經(jīng)將快手視作Sora的有力挑戰(zhàn)對(duì)手。
在2024年北京智源大會(huì)上,DiT論文作者、紐約大學(xué)助理教授謝賽寧曾和Sora及Dall-E團(tuán)隊(duì)負(fù)責(zé)人阿迪蒂亞·拉梅什(Aditya Ramesh)談及快手可靈大模型,并詢問拉梅什如何看待其與Sora的競(jìng)爭(zhēng)。
對(duì)此,拉梅什曾回應(yīng)稱歡迎競(jìng)爭(zhēng),“很高興看到其他實(shí)驗(yàn)室或公司也在發(fā)布視頻生成模型。我認(rèn)為,越來越多的人采用不同的方法在這個(gè)領(lǐng)域前進(jìn),可以激發(fā)行業(yè)的創(chuàng)造力。在視頻生成領(lǐng)域看到有趣的產(chǎn)品創(chuàng)新也很棒。”
在財(cái)報(bào)中,快手也曾多次披露大模型相關(guān)進(jìn)展,電話會(huì)議上,程一笑曾表示,今年一季度,快手穩(wěn)步推進(jìn)自研大模型各項(xiàng)性能的迭代提升,并且加快大模型在各業(yè)務(wù)場(chǎng)景的應(yīng)用。
國(guó)內(nèi)互聯(lián)網(wǎng)大廠正在扎堆布局視頻生成領(lǐng)域。
4月27日的2024中關(guān)村論壇年會(huì)上,清華大學(xué)聯(lián)合生數(shù)科技正式發(fā)布中國(guó)首個(gè)長(zhǎng)時(shí)長(zhǎng)、高一致性、高動(dòng)態(tài)性視頻大模型Vidu,不過,Vidu的16秒與Sora的一分鐘仍存在算力和工程方面的巨大差距。
3月15日,騰訊和清華大學(xué)、香港科技大學(xué)聯(lián)合推出圖生視頻模型“Follow-Your-Click”?;谳斎肽P偷膱D片,用戶只需點(diǎn)擊對(duì)應(yīng)區(qū)域,加上少量提示詞,就可以讓圖片中原本靜態(tài)的區(qū)域動(dòng)起來,一鍵轉(zhuǎn)換成視頻。從時(shí)長(zhǎng)來看,相關(guān)視頻時(shí)長(zhǎng)為10秒鐘。
去年開始,字節(jié)正式組建Flow部門,專注于AI大模型的應(yīng)用研發(fā)。字節(jié)產(chǎn)品與戰(zhàn)略副總裁朱駿和字節(jié)技術(shù)副總裁洪定坤分別擔(dān)任部門的產(chǎn)品負(fù)責(zé)人和技術(shù)負(fù)責(zé)人。今年4月,字節(jié)提拔AI部門的負(fù)責(zé)人,現(xiàn)由朱文佳整體負(fù)責(zé)字節(jié)AI業(yè)務(wù),向字節(jié)跳動(dòng)CEO梁汝波匯報(bào)。
2月,有傳言稱,字節(jié)跳動(dòng)在Sora引爆文生視頻賽道之前,已經(jīng)在研發(fā)“中文版Sora”:一款名為Boximator的創(chuàng)新性視頻模型。
當(dāng)時(shí),字節(jié)跳動(dòng)相關(guān)人士曾告訴澎湃新聞?dòng)浾?,Boximator是視頻生成領(lǐng)域控制對(duì)象運(yùn)動(dòng)的技術(shù)方法研究項(xiàng)目。目前還無法作為完善的產(chǎn)品落地,距離國(guó)外領(lǐng)先的視頻生成模型在畫面質(zhì)量、保真率、視頻時(shí)長(zhǎng)等方面還有很大差距。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




