下載客戶端

登錄

從漿板水花到算力爆炸，Sora2揭開OpenAI二次革命的序幕

2025-10-25 10:16

來源：澎湃新聞·澎湃號·湃客

“視頻生成只是開始，Sora 2映射出OpenAI的真正野心。

10月24日，距離新一代視頻生成模型Sora 2及其驅(qū)動的社交應(yīng)用Sora App發(fā)布后近一個月的時間，在蘋果的App Store，它依然排名第一，似乎在印證著OpenAI創(chuàng)始人Sam Altman所說的Creativity could be about to go through a Cambrian explosion（創(chuàng)造力將走向寒武紀(jì)大爆發(fā)）。

實際上，Sora2至今仍然是邀請制，而且僅在美加可訪問，手機端只有iOS版本，這種情況下Sora2在上線后的24小時內(nèi)仍沖到了App Store的第三位；10月3日，Sora應(yīng)用在上線第四天便迅速登頂App Store，超過了長期占據(jù)前兩位的ChatGPT和Gemini，僅美加地區(qū)頭兩天的下載量就達(dá)到16.4萬次，首周則收獲62.7萬下載量。

來源：App Store

如果說2024年初發(fā)布的初代Sora模型可視為視頻領(lǐng)域的“GPT-1時刻”，那么Sora 2則直接邁入了視頻領(lǐng)域的“GPT-3.5時刻”。

然而，若將Sora 2僅僅視為一個更強大的“視頻生成工具”，無疑會低估其劃時代的意義。它的核心價值并非簡單地生成更逼真、更連貫的視頻，而在于它首次大規(guī)模地驗證了構(gòu)建“世界模型”（World Model）的技術(shù)可行性，這標(biāo)志著AI正從一個被動響應(yīng)、處理信息的內(nèi)容工具，演變?yōu)橐粋€能夠主動理解、預(yù)測并模擬物理世界規(guī)則的“現(xiàn)實引擎”（Reality Engine），并進(jìn)一步影響到真實的人類世界，人類開始廣泛接納AI生成的視頻內(nèi)容，成為社交媒體的一部分。

OpenAI宣布，“Sora 2初期將免費開放，并提供充足的使用額度。”可以預(yù)見，Sora百萬級用戶數(shù)乘以視頻生成，隨之而來的將是巨大的算力消耗。這背后的支撐力量，則是OpenAI與英偉達(dá)、AMD、Oracle等科技巨頭不久前聯(lián)合啟動的“萬億級算力擴張計劃”。而Sora App此次病毒式傳播如同不斷加熱的巨大算力熔爐，正在驅(qū)動一場顛覆式的應(yīng)用生態(tài)革命。而這場革命的結(jié)果，或?qū)⒊蔀槿駻I基礎(chǔ)設(shè)施又一次重大考驗和重塑。

解構(gòu)引擎：世界模型的技術(shù)基石

AI生成視頻（AI Generated Video）并非一個全新的概念。其基本原理通常是基于擴散模型（Diffusion Models）、Transformer架構(gòu)、生成對抗網(wǎng)絡(luò)（GANs）等方法，將用戶輸入的文本或圖像提示（Prompt）作為初始條件，AI系統(tǒng)則會利用經(jīng)過海量視頻數(shù)據(jù)訓(xùn)練的模型逐幀或批量生成符合描述的像素信息，并最終合成視頻片段。

在Sora出現(xiàn)之前，這個賽道已經(jīng)群雄逐鹿，Runway、Pika等明星創(chuàng)業(yè)公司，以及Google、Meta、X等科技巨頭都已推出了自己的文生視頻產(chǎn)品。

來源：百度百科、機器之心微信公眾號、國泰海通證券研究

然而，這些AI視頻工具普遍受困于幾大核心技術(shù)難點。首先是物理一致性，模型生成的物體運動往往違背常識，例如籃球會憑空入筐，模型缺乏對重力、慣性等基本物理規(guī)律的理解。其次是對象持久性，視頻中的角色或物體在暫時被遮擋后再次出現(xiàn)時，其外觀、形態(tài)常常會發(fā)生突變，模型無法維持一個對象在時空中的穩(wěn)定存在。最后是時間連貫性，長視頻中，場景、光影、角色狀態(tài)容易出現(xiàn)閃爍或不合邏輯的跳變。

2024年2月，OpenAI推出的初代Sora在一定程度上修補了早期AI視頻的結(jié)構(gòu)性缺陷，但若細(xì)看每一幀，物理錯位與邏輯跳脫的“穿幫”仍屢見不鮮，它更像一位天賦卓絕卻尚未參透世界規(guī)律的“模仿者”，距離真正理解現(xiàn)實的“創(chuàng)造者”仍有一段距離。

Sora 2的出現(xiàn)，標(biāo)志著AI視頻生成從“模仿”邁向“理解”的質(zhì)變。之所以O(shè)penAI將其譽為視頻領(lǐng)域的“GPT-3.5時刻”，引申含義表明其突破是全方位的。最引人注目的進(jìn)步在于其內(nèi)隱的物理規(guī)律建模能力——Sora 2能夠精準(zhǔn)模擬奧運體操運動員在鞍馬上完成復(fù)雜動作的動態(tài)平衡，或槳板愛好者在水面后空翻時激起的水花與浮力反饋。在Sora2，模型已不再只是拼接像素，而是在學(xué)習(xí)海量真實世界視頻后，內(nèi)隱地形成了對重力、流體動力學(xué)、剛體碰撞與光影交互的復(fù)雜認(rèn)知結(jié)構(gòu)，從而實現(xiàn)了前所未有的“邏輯自洽”的動態(tài)模擬。

OpenAI官網(wǎng)表示，該模型在可控程度方面也有巨大躍進(jìn)，能夠遵循跨越多個鏡頭的復(fù)雜指示，同時精確保持狀態(tài)與現(xiàn)實相符，而且在寫實、電影和動畫風(fēng)格上表現(xiàn)出色。

與之相輔相成的，是其在多模態(tài)數(shù)據(jù)流同步生成上的突破。Sora 2首次原生集成了音頻生成能力，不僅能生成與畫面情境匹配的環(huán)境音，還能生成同步的角色對話，并確?？谛团c發(fā)音的精準(zhǔn)對齊。這需要一個高度復(fù)雜的多模態(tài)融合架構(gòu)，確保視聽邏輯的一致性。

這些關(guān)鍵突破的本質(zhì)，已經(jīng)超越了“視頻生成”的范疇，共同指向一個更深層次的目標(biāo)——構(gòu)建一個能夠模擬現(xiàn)實世界的AI模型，即“世界模型”的雛形。

根據(jù)英偉達(dá)（Nvidia）的定義，世界模型是理解現(xiàn)實世界動態(tài)，包括其物理和空間屬性的生成式 AI 模型。它以文本、圖像、視頻和運動數(shù)據(jù)為輸入，通過學(xué)習(xí)來內(nèi)化環(huán)境的物理規(guī)律，從而對運動軌跡、受力變化以及感官數(shù)據(jù)中的空間關(guān)系進(jìn)行建模和預(yù)測。這也是英偉達(dá)提出物理AI（Physical AI）概念的基礎(chǔ)。

Sora 2亦是在這一理念下構(gòu)建的。它在多個模塊中引入了世界模型的思想，包括視頻潛空間的動態(tài)建模、時序一致性的物理約束，以及跨模態(tài)的生成控制機制，非簡單地“拼接鏡頭”，而是讓文本到視頻的生成過程更像是在“模擬一個連續(xù)的物理世界”。

順著這一思路，Sora 2的架構(gòu)設(shè)計也隨之發(fā)生根本變化。首先，Sora 2從基礎(chǔ)Diffusion模型升級為Diffusion Transformer混合架構(gòu)，顯著提升了模型的表達(dá)能力與訓(xùn)練效率；其次，深度集成可微分物理引擎，使生成的視頻不僅視覺真實，更具物理一致性；同時，Sora 2引入時空建模（Spatial-Temporal Modeling）技術(shù)，并在訓(xùn)練階段采用多階段蒸餾與跨模態(tài)對齊策略，將視覺、運動、語義信息融合進(jìn)一個連續(xù)的潛在世界中。

因此，這些能力意味著Sora 2不再只是一個將文字轉(zhuǎn)化為視頻的生成模型，而是開始具備“世界模型”的特征，它能在內(nèi)部模擬世界的動態(tài)邏輯、保持跨場景的物理一致性，并基于這種理解生成連貫、可推理的虛擬現(xiàn)實。

來源：https://cursor.cv/sora-2-technical-architecture-analysis.html

Sora 2的出現(xiàn)，再次將AGI（通用人工智能）技術(shù)路線之爭推向風(fēng)口浪尖。過去，人們更多地聚焦于如何通過規(guī)?；c涌現(xiàn)機制打造通用大模型，而當(dāng)世界模型逐漸走向現(xiàn)實，新的共識開始形成：在通往AGI的演化路徑上，或許應(yīng)當(dāng)區(qū)分兩類核心模型，“世界模型”負(fù)責(zé)理解與模擬現(xiàn)實、預(yù)測環(huán)境變化；“策略模型”則基于這種理解制定決策與行動。

正如@0xThoughtVecto0r在X（Twitter）上所言：“應(yīng)當(dāng)將世界模型與策略模型分開，先訓(xùn)練世界模型去預(yù)測輸入、生成模擬回合（synthetic rollouts），再讓策略模型在這些虛擬環(huán)境中學(xué)習(xí)?！?/p>

這一觀點恰好揭示了傳統(tǒng)AI視頻生成，與以Sora 2為代表的“具備世界理解”模型之間的根本區(qū)別：前者只是在連續(xù)幀間進(jìn)行插值；后者則通過內(nèi)部建模，理解時間、空間與物理的關(guān)聯(lián)，使生成結(jié)果具備邏輯一致性與動態(tài)連貫性。通過學(xué)習(xí)真實世界視頻的時空規(guī)律，構(gòu)建出一個可泛化的“世界認(rèn)知空間”，從而讓生成過程更像是在“重演現(xiàn)實”，而非簡單的幀拼接。

而在世界模型的構(gòu)建上，也有觀點上的分歧。圖靈獎得主、Meta首席AI科學(xué)家Yann LeCun則代表了另一種對“世界模型”的理解。他認(rèn)為，僅靠語言符號間的統(tǒng)計關(guān)系（如大語言模型）無法實現(xiàn)真正的智能，AI必須擁有一個能夠“預(yù)測世界未來狀態(tài)”的內(nèi)部表征體系，也就是一個“會想象的世界模型”。為此，他提出了聯(lián)合嵌入預(yù)測架構(gòu)（JEPA,Joint Embedding Predictive Architecture），試圖讓AI在內(nèi)部構(gòu)建一個可推理、可預(yù)測的想象世界，并在此基礎(chǔ)上發(fā)展出理解、規(guī)劃與行動能力。

與這一理論思路相呼應(yīng)的，是Google DeepMind的實踐路線。相較于OpenAI傾向規(guī)?；楷F(xiàn)的策略，Google更重視模型的可控性、可編輯性與物理一致性。其最新發(fā)布的Dreamer 4模型，也是一種以世界模型為核心的智能體架構(gòu)。它通過在《Minecraft（我的世界）》等內(nèi)部環(huán)境中進(jìn)行 “想象訓(xùn)練（imagination-based training）”，借助高效的Transformer架構(gòu)與可微分物理機制，能夠在不依賴外部交互的情況下準(zhǔn)確模擬環(huán)境動態(tài)，從而實現(xiàn)策略學(xué)習(xí)與行為決策。這意味著，Google并非僅在視頻生成上追求真實，而是在更底層通過內(nèi)部世界的構(gòu)建，推動AI對現(xiàn)實規(guī)律的自我理解。

Dreamer 4通過強化學(xué)習(xí)在其世界模型內(nèi)部學(xué)習(xí)解決復(fù)雜控制任務(wù)，來源：https://arxiv.org/abs/2509.24527

從Sora 2的現(xiàn)實世界建模，到LeCun的內(nèi)在想象空間，再到Google的智能體訓(xùn)練閉環(huán)，“世界模型”這一概念正在從生成范式擴展到認(rèn)知范式。這場關(guān)于“真正的世界理解”的爭論，也逐漸演化為兩種技術(shù)哲學(xué)的分歧：通向AGI的路徑，究竟是依靠海量數(shù)據(jù)驅(qū)動下的模式涌現(xiàn)，還是通過具備因果推理與預(yù)測能力的全新認(rèn)知架構(gòu)，目前仍無定論。

引擎的驅(qū)動：

應(yīng)用與商業(yè)生態(tài)的范式遷移

Sora 2不僅僅是一個技術(shù)升級，它所驅(qū)動的Sora App和API，如同一臺大功率引擎，開始驅(qū)動上層應(yīng)用和商業(yè)生態(tài)發(fā)生深刻的范式遷移。其中，最根本性的變革，在于它宣告了“AI Native（AI原生）”應(yīng)用時代的真正到來。

過去，我們將AI視為一種“增強”能力，在現(xiàn)有軟件中加入AI功能，稱之為“AI+”。例如，在視頻剪輯軟件中加入AI摳圖，在文檔工具中加入AI寫作助手，但在這些應(yīng)用中，AI是輔助性的，核心流程依然是用戶與傳統(tǒng)軟件界面的交互。而Sora App則是一個徹底的AI Native產(chǎn)品：AI不再是插件，而是驅(qū)動整個應(yīng)用的核心引擎；用戶交互的主界面不再是復(fù)雜的側(cè)邊欄，而是簡單的對話框；應(yīng)用提供的價值不再是有限的功能集，而是基于用戶想象力的、無限的生成可能性。

在這種AI Native范式下，平臺底層架構(gòu)也發(fā)生了顛覆性變化。以TikTok為代表的現(xiàn)有短視頻平臺，其架構(gòu)是圍繞“存儲與分發(fā)”構(gòu)建的，核心任務(wù)是將用戶上傳的有限內(nèi)容，通過高效的推薦算法精準(zhǔn)地推送給海量用戶；而Sora App則是一種“實時生成與計算”的平臺架構(gòu)，在這個新范式下，個人內(nèi)容創(chuàng)作與群體消費不再是割裂的兩個環(huán)節(jié)，而是融為一體、實時發(fā)生，為前所未有的用戶體驗和社區(qū)生態(tài)創(chuàng)造了可能。

我們還看到Sora App帶來兩個全新的功能，Cameo（數(shù)字分身）與Remix（二次創(chuàng)作）。Cameo功能允許用戶通過錄制簡短的個人音視頻來創(chuàng)建可供調(diào)用的“數(shù)字分身”，并在AI生成的各種奇幻場景中“客串”出演，極大地滿足了個性化表達(dá)的需求；而Remix功能則讓平臺上的任何一個AI視頻都能成為用戶再創(chuàng)作的起點，極大地降低了內(nèi)容創(chuàng)作的門檻。這兩個功能的結(jié)合，構(gòu)建了一個強大的用戶增長與留存飛輪，也正是Sora App能在嚴(yán)苛的邀請制下依然登頂App Store榜首的關(guān)鍵所在，它證明了用戶對這種全新互動模式的狂熱追捧。

Cameo 和Remix功能，來源：Sora2 App – App Store

同時，在這種新架構(gòu)之上，Sora 2開放的API還將催生出最短路徑的商業(yè)轉(zhuǎn)化模式。例如在電商領(lǐng)域，平臺不再需要提前錄制模特視頻，而是通過API調(diào)用，可以根據(jù)用戶的身材數(shù)據(jù)、偏好風(fēng)格，實時生成一個由用戶第一視角的虛擬形象，動態(tài)展示商品。從商業(yè)流程來看，賣家只需提供產(chǎn)品模型和核心賣點，電商平臺便可根據(jù)用戶的興趣標(biāo)簽，實時生成一段獨一無二的帶貨短片。更進(jìn)一步，當(dāng)這種生成能力與支付系統(tǒng)打通，一條從“激發(fā)興趣”到“完成購買”的無縫商業(yè)轉(zhuǎn)化鏈路就此形成，其轉(zhuǎn)化效率可能遠(yuǎn)超當(dāng)前的圖文和短視頻廣告。

這亦與OpenAI前段時間與Stripe合作推出的ACP（Agentic Commerce Protocol，代理商務(wù)協(xié)議）相得益彰。ACP旨在讓AI Agent能夠代表用戶完成從瀏覽、比價到最終支付的全流程交易。當(dāng)Sora App強大的電商內(nèi)容生成和社交傳播能力，與ACP協(xié)議驅(qū)動的交易能力相結(jié)合，一個 “創(chuàng)意-內(nèi)容生成-支付” 的商業(yè)閉環(huán)便初具雛形，為接下來的商業(yè)模式演化鋪平了道路。

來源：OpenAI

https://developers.openai.com/commerce

放眼更廣闊的內(nèi)容產(chǎn)業(yè)，Sora 2更將成為 “生產(chǎn)力基建”，其通過自動化生成數(shù)字資產(chǎn)，重塑整個生態(tài)。在廣告與影視行業(yè)，創(chuàng)意團(tuán)隊可以將更多精力投入到核心構(gòu)思上，而將分鏡繪制、場景預(yù)演、甚至部分特效鏡頭的制作，交給Sora完成，很大程度降低了制作成本、縮短周期；在游戲開發(fā)領(lǐng)域，游戲中的NPC對話、過場動畫、動態(tài)場景背景，都可以由Sora引擎根據(jù)游戲?qū)崟r狀態(tài)動態(tài)生成，創(chuàng)造出真正“千人千面”的開放世界體驗；在工業(yè)設(shè)計中，設(shè)計師可以快速將產(chǎn)品草圖轉(zhuǎn)化為動態(tài)的3D演示視頻，在不同材質(zhì)、光照和環(huán)境下的效果一目了然，從而加速產(chǎn)品迭代和決策過程。

當(dāng)然，技術(shù)的指數(shù)級進(jìn)步也必然帶來新的挑戰(zhàn)。更高的真實感提升了虛假視頻的迷惑性，社會對視頻作為證據(jù)的信任將面臨嚴(yán)峻考驗，同時，版權(quán)和肖像權(quán)的復(fù)雜問題也使得Sora的推廣與應(yīng)用，必須依賴強有力的內(nèi)容審核與合規(guī)機制。

Sora 2生成的視頻已達(dá)到以假亂真的程度，這將導(dǎo)致深度偽造（Deepfake）信息泛濫，版權(quán)糾紛呈爆炸式增長。從上線第一天開始，無數(shù)用戶就大量使用Disney（迪士尼）、任天堂（Nintendo）等公司的IP形象生成視頻，美國電影協(xié)會（Motion Picture Association，MPA）公開指控 Sora 出現(xiàn)未經(jīng)授權(quán)使用其會員內(nèi)容，Charles Rivkin敦促OpenAI“立即采取果斷行動”解決版權(quán)問題。日本內(nèi)閣府特命擔(dān)當(dāng)大臣城內(nèi)實、數(shù)字大臣平將明等多位官員表示，政府已強烈意識到問題的嚴(yán)重性，要求OpenAI停止侵犯版權(quán)。

Sora生成大量IP形象內(nèi)容

來源：https://copyrightlately.com/sora-2-copyright/

OpenAI CEO Sam Altman（薩姆·奧爾特曼）迅速宣布對Sora 2的兩項重要調(diào)整：第一，Sora將提供更精細(xì)的控制選項，使得角色版權(quán)方，能夠自主決定是否允許用戶使用其角色進(jìn)行二次創(chuàng)作，并設(shè)定創(chuàng)作的具體規(guī)則，這種新形式將被稱為“互動同人小說”（interactive fan fiction）；第二，在賦予版權(quán)方更多控制權(quán)的同時，Sora還計劃探索新收費模式，可將部分收入與授權(quán)使用其角色的版權(quán)方進(jìn)行分成。未來，Sora可能會形成一個“創(chuàng)作者+IP方+平臺”三方分賬的生態(tài)系統(tǒng)。

隨著需求的增長，合規(guī)性也正催生全新的衍生技術(shù)賽道。例如，C2PA等開放技術(shù)標(biāo)準(zhǔn)將變得至關(guān)重要，能夠在視頻生成時嵌入不可篡改的元數(shù)據(jù)用于內(nèi)容溯源。類似阜博集團(tuán)（Vobile）的視頻指紋技術(shù)，能夠為海量原創(chuàng)和AIGC內(nèi)容生成唯一的身份標(biāo)識，在全網(wǎng)范圍內(nèi)進(jìn)行侵權(quán)檢測和追蹤。同時，面對每日可能數(shù)以億計的AIGC視頻，開發(fā)能夠快速、精準(zhǔn)識別侵權(quán)、偽造內(nèi)容的AI審核系統(tǒng)，本身就是一個巨大的市場。

引擎的燃料：對AI基礎(chǔ)設(shè)施的終極考驗

如果說“世界模型”是驅(qū)動未來的引擎，那么AI基礎(chǔ)設(shè)施，特別是算力，就是這臺引擎賴以運轉(zhuǎn)的唯一燃料，Sora 2的出現(xiàn)，對AI基礎(chǔ)設(shè)施提出了前所未有的考驗。根據(jù)Factorial Funds的早期測算，僅訓(xùn)練Sora1模型就需要4200~10500 塊英偉達(dá)H100 GPU訓(xùn)練上1個月，而在推理階段，單塊H100每小時最多只能生成約5分鐘的視頻。

從Sora 1過渡到Sora 2，如前所述，其視頻生成能力實現(xiàn)了顯著提升，尤其在物理準(zhǔn)確性、時序連貫性與多模態(tài)融合方面都有突破，但這些進(jìn)步的背后，相較過去則是幾何倍數(shù)的計算成本。語言模型僅需處理一維的文本序列，而視頻模型則要同時應(yīng)對空間、顏色與時間，共四維數(shù)據(jù)，更重要的是，為了模擬物理世界并維持時空一致性，推理時需連續(xù)幀級采樣與解碼，因此單位請求的GPU時長與顯存占用更高；另外不斷增長的海量數(shù)據(jù)對存儲要求也極高。

Sora App目前采用邀請制和免費模式，更像是一場大規(guī)模的公測和數(shù)據(jù)收集，考慮到高昂的推理成本，這種 “免費午餐” 大概率無法持久，Sam Altman亦表示，未來可能的收費邏輯是，高性能算力將提供給付費用戶。

以Sora 2為代表的視頻生成任務(wù)，正在倒逼AI芯片和硬件加速演進(jìn)。這類任務(wù)對顯存帶寬（HBM Bandwidth）的需求甚至超過了對算力（FLOPS）的需求，因為模型需要頻繁地在顯存中讀寫海量的權(quán)重參數(shù)和中間狀態(tài)。因此，擁有更大容量、更高帶寬HBM的GPU將更具優(yōu)勢。這也加速了ASIC（專用集成電路）的崛起，Google的TPU、亞馬遜的Trainium等自研芯片，可以通過針對性設(shè)計，在視頻推理任務(wù)上實現(xiàn)比通用GPU更高的能效比。

此外，為了訓(xùn)練和運行Sora 2這樣龐大的模型，單卡已無可能，必須通過高速互聯(lián)技術(shù)（如英偉達(dá)的NVLink）和更高速的光模塊將計算單元連接成大規(guī)模集群，對800G甚至1.6T光模塊的需求正因此而激增。

算力還與能源密切相關(guān)。根據(jù)國際能源署（IEA）發(fā)布的《Energy and AI（能源與人工智能）》的報告稱，到2030年，全球數(shù)據(jù)中心的電力需求將達(dá)到約945太瓦時，其中AI將是這一增長的最重要驅(qū)動力，預(yù)計到那時，與AI相關(guān)的計算任務(wù)所消耗的電力將比當(dāng)前水平增加四倍以上。

OpenAI的整體應(yīng)對策略，則是Sam Altman提出的“萬億級算力擴張計劃”。該計劃旨在未來幾年內(nèi)構(gòu)建數(shù)個超級數(shù)據(jù)中心（即星門，Stargate），部署數(shù)百萬塊AI芯片，其目標(biāo)就是為訓(xùn)練和運行遠(yuǎn)超Sora 2的下一代世界模型提供基礎(chǔ)。OpenAI與英偉達(dá)（提供GPU）、甲骨文（提供云基礎(chǔ)設(shè)施）的深度戰(zhàn)略合作，正是這一宏偉計劃的體現(xiàn)。

OpenAI位于得克薩斯州的Stargate數(shù)據(jù)中心，來源：Inside OpenAI's Stargate Megafactory with Sam Altman | The Circuit，https://www.youtube.com/watch?v=GhIJs4zbH0o

10月6日，OpenAI宣布將通過最多1.6 億股AMD普通股的認(rèn)股權(quán)證形式，與AMD展開深度合作，后者將為其下一代AI基礎(chǔ)架構(gòu)提供算力支持，目標(biāo)規(guī)模高達(dá)6千兆瓦GPU。僅一周后（10月13日），OpenAI又宣布與半導(dǎo)體巨頭博通（Broadcom）聯(lián)合開發(fā)定制化AI加速器，規(guī)?？蛇_(dá)10千兆瓦。通過這項合作，OpenAI能夠?qū)⒆陨碓谇把啬Ｐ脱邪l(fā)與產(chǎn)品化過程中的經(jīng)驗直接嵌入硬件設(shè)計中，從底層釋放出更高層次的性能與智能潛力。

AI生態(tài)的資本流向

來源：摩根斯坦利研究（Morgan Stanley Research）

算力之爭不僅在OpenAI與芯片廠商之間上演，也早已蔓延至Google、Amazon、Meta等科技巨頭之間，并迅速波及國內(nèi)。阿里巴巴在9月的云棲大會上宣布，正推進(jìn)總規(guī)模達(dá)3800億元的AI基礎(chǔ)設(shè)施建設(shè)，并計劃進(jìn)一步加碼投資。與此同時，字節(jié)跳動的“即夢”、快手的“可靈”等國產(chǎn)視頻生成模型相繼崛起，其背后離不開日益成熟的國產(chǎn)自主算力體系支撐?？梢哉f，AI的競爭早已超越算法與模型層面，而進(jìn)入以基礎(chǔ)設(shè)施為核心的新階段——誰掌握了最強大、最高效的算力，誰就握有通往“世界模型”時代的鑰匙。

總體而言，Sora 2所引發(fā)的連鎖反應(yīng)，正推動整個AI技術(shù)體系的重構(gòu)。從上層應(yīng)用架構(gòu)到下層算力基座，技術(shù)范式正被重新定義。對技術(shù)從業(yè)者與數(shù)據(jù)專業(yè)人士而言，這不僅意味著新的挑戰(zhàn)，也預(yù)示著前所未有的機遇。

過去，我們主要關(guān)注的是“如何實現(xiàn)”某個功能；而未來，我們的核心價值將更多地體現(xiàn)在“能想象出什么”應(yīng)用場景。AI的現(xiàn)實引擎已然啟動，如何駕馭它、與之對話，將成為新的核心競爭力。具體而言，以下幾個方向值得技術(shù)從業(yè)者重點關(guān)注：

1.掌握與“引擎”對話的能力：精通Prompt Engineering，能夠用精準(zhǔn)、結(jié)構(gòu)化的自然語言或多模態(tài)指令駕馭復(fù)雜的生成模型，將成為一項基礎(chǔ)技能。更進(jìn)一步，結(jié)合行業(yè)知識（Know-how）進(jìn)行多模態(tài)應(yīng)用開發(fā)，將AI引擎的能力與具體業(yè)務(wù)場景深度融合，將創(chuàng)造巨大價值。

2.投身內(nèi)容合規(guī)的新戰(zhàn)場：隨著AIGC內(nèi)容的井噴，數(shù)字水印、內(nèi)容溯源、AI審核等技術(shù)將從邊緣走向舞臺中央，成為維護(hù)數(shù)字世界信任和秩序的關(guān)鍵基礎(chǔ)設(shè)施。

3.追求極致的“引擎”效率：對于更底層的系統(tǒng)和算法工程師而言，模型優(yōu)化（量化、蒸餾、剪枝）、分布式訓(xùn)練與推理系統(tǒng)的工程實現(xiàn)、以及針對特定任務(wù)的硬件加速，將是永恒的課題，也是降低AIGC成本、推動其普惠的關(guān)鍵所在。

Sora 2打開了一扇通往新世界的大門。門后的世界，既充滿了不確定性，也蘊藏著無限可能。對于每一個技術(shù)從業(yè)者來說，現(xiàn)在正是學(xué)習(xí)、適應(yīng)并準(zhǔn)備好迎接這場變革的最佳時機。

特別聲明

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#Sora2