AI中場時(shí)刻②｜大模型進(jìn)化放緩，AI如何穿越“徘徊期”？

澎湃新聞?dòng)浾?舒怡爾

2025-12-25 14:56

來源：澎湃新聞

AI 的能力發(fā)展到什么程度了？這是一個(gè)非常實(shí)用的問題。

2024 年春節(jié)，OpenAI 推出文生視頻模型 Sora，足引起一場革命；2025 年春節(jié)期間，DeepSeek 引發(fā)廣泛關(guān)注。誰又能預(yù)料 2026 年春節(jié)，AI 領(lǐng)域還會(huì)推出怎樣的“年貨級(jí)”新角色？你得有所準(zhǔn)備。

硅谷風(fēng)險(xiǎn)投資機(jī)構(gòu) a16z 發(fā)布的 2025 年消費(fèi)者 AI 報(bào)告總結(jié)道，對(duì)于各大AI Lab來說，今年是面向消費(fèi)者推出產(chǎn)品的大年。比方說，OpenAI 發(fā)布了數(shù)十項(xiàng) AI 功能，包括 GPT-4o 圖像處理模型、獨(dú)立 App Sora 以及群聊功能，谷歌推出圖像處理模型 Nano Banana 和視頻生成模型 Veo，其它實(shí)驗(yàn)室也都發(fā)布了涵蓋聊天、編程、搜索、圖像生成等領(lǐng)域的多種工具。結(jié)果如何？a16z 評(píng)價(jià)道：“喜憂參半”。

單從 Sora App 的命運(yùn)便能看出來，哪怕是關(guān)注度多如 OpenAI 推出的 AI 產(chǎn)品，也如同一場大雨，雨落到地上的多，存到罐子里的卻少。Sora 的全球下載量超過 1200 萬次，但據(jù) SensorTower 估計(jì)，其 30 天留存率低于 8%。

2025年，AI 瀏覽器被視為“AI時(shí)代的第一入口”，成了兵家必爭之地。Perlexity推出Comet、OpenAI有Atlas，谷歌把AI功能嵌入chrome……不過，根據(jù)分析，還沒有一款A(yù)I瀏覽器的市占率超過1%。同時(shí)，2025被宣傳為“Agent元年”，根據(jù)麥肯錫報(bào)告，智能體在輿論和想象中潛力巨大，但現(xiàn)實(shí)落地總體還偏早期：62% 受訪者所在公司至少在“實(shí)驗(yàn)”智能體，但是真正在任何單一業(yè)務(wù)職能中“規(guī)?；褂谩敝悄荏w的比例都不超過 10%。麥肯錫總結(jié)道：“要做好智能體應(yīng)用，需要付出艱苦努力?！?/p>

為何各家開始在產(chǎn)品賽道上卷生卷死？背后是 AI 模型能力的徘徊。低垂的果實(shí)已經(jīng)摘完了，通往 AGI 的前路開始泥濘。

AI 已經(jīng)很強(qiáng)了，只是升級(jí)的速度變慢了

通過分析259個(gè)AI大模型在十余項(xiàng)任務(wù)上的表現(xiàn)，我們發(fā)現(xiàn)，至少在做題方面，AI 已經(jīng)拳打腳踢相當(dāng)一部分人。無論是頂尖的高中生數(shù)學(xué)競賽，還是研究生級(jí)別的物理、生物和化學(xué)問題（直接搜索是搜不到答案的，得進(jìn)行科學(xué)推理），或是看圖回答問題，AI 都做得很好，超越了人類專家的平均水準(zhǔn)。

而一些相對(duì)簡單、抽象的真實(shí)問題，比方說扮演一位電信技術(shù)支持的客服，跟客戶協(xié)調(diào)解決諸如“為啥我連不上網(wǎng)？”之類的問題，AI 也已經(jīng)很能頂事兒了。

從時(shí)間維度上看，AI 大模型在大部分任務(wù)上的能力躍升集中在 2024 年下半年至 2025 年年初，是AI 大模型在2025這一年徘徊的一個(gè)注腳。

有幾道人類的護(hù)城河，AI 尚未突破（真是松一口氣）?？茖W(xué)編程能力，不及格；“人類的最后一場考試”（HLE，涵蓋了數(shù)學(xué)、科學(xué)以及人文社科領(lǐng)域有標(biāo)準(zhǔn)答案的難題），AI 沒有通過；至于研究級(jí)的物理推理能力（約等于一名優(yōu)秀的物理研究生獨(dú)立完成研究的水平），AI 還沒摸著邊。也就是說，在邏輯推理方面，AI 還沒能超越最聰明的那一撥人類。

谷歌的 Gemini 3 在 2025 年的 AI 競賽中表現(xiàn)亮眼，在多個(gè)高難度任務(wù)上拔得頭籌，也為它贏得了更多用戶——Gemini 的 Pro 訂閱用戶同比增長近 300%，而 ChatGPT 的增幅為 155%。

AI 的能力會(huì)此消彼長嗎？

AI 在不同方面的能力會(huì)有一點(diǎn)起伏。以 OpenAI 推出的 GPT-5.2 和 GPT-5.1 為例，提高了編程能力，長文本推理能力就下去了一點(diǎn)。這似乎很好理解，人的特質(zhì)也常出現(xiàn)左右互搏的情況，理智與情感、創(chuàng)造力和服從度，很難兩全。難道 AI 也會(huì)出現(xiàn)這種情況？

令人驚訝的是，綜合 artificialanalysis 上 259 個(gè)模型在 12 項(xiàng)任務(wù)上的表現(xiàn)，從總體上看，AI 沒有哪項(xiàng)能力是真的互斥的。

數(shù)值越高，指標(biāo)間關(guān)聯(lián)度越高，反之越低

絕大多數(shù)指標(biāo)之間都呈現(xiàn)出正相關(guān)，這意味著目前的頂尖模型正在走向“全能化”——通常一個(gè)模型在數(shù)學(xué)上變強(qiáng)了，它的編程和推理能力也會(huì)跟著變強(qiáng)，也就是我們常說的“Scaling Law”帶來的普遍提升。

不過從中我們也能找出幾組很不熟的指標(biāo)。比方說研究級(jí)物理推理能力就跟“模擬客服解決問題”的能力基本毫不相干。這也和前OpenAI核心研究員、CoT（思維鏈）作者Jason Wei 的觀點(diǎn)相似，不同任務(wù)提升的速度是不同的。在單項(xiàng)任務(wù)上的能力提升不一定會(huì)泛化到其他任務(wù)上。

Jason Wei在斯坦福大學(xué)AI Club的演講：AI并不是全知全能，AI在不同任務(wù)上的智能水平就像鋸齒一樣，有高有低

接下來，AI 要怎么發(fā)展？

世界上最聰明的那撥人對(duì) AI 目前的水平并不滿意。不過，他們的方向不太一樣。

它怎么不能舉一反三呢？OpenAI 前首席科學(xué)家Ilya Sutskever認(rèn)為大力出奇跡的路已經(jīng)走到盡頭了，“數(shù)據(jù)是有限的，而且各個(gè)組織已經(jīng)擁有大量的計(jì)算資源……所以我們又回到了研究時(shí)代”，而需要更多研究的方向就是讓模型像人類那樣學(xué)習(xí)，從少量的示例和信息中學(xué)習(xí)。

而李飛飛則想培養(yǎng) AI 的“空間智能”，簡單來說，像是一種空間上的直覺，人可以在半睡半醒間把咖啡倒進(jìn)杯子里，消防員可以在濃煙彌漫的建筑中穿梭，瞬間判斷形勢(shì)；AI 不僅要能說能看，更要會(huì)行動(dòng)、會(huì)創(chuàng)造。

Demis Hassabis 和吳恩達(dá)仍然相信規(guī)模，前者認(rèn)為必須將系統(tǒng)的規(guī)模擴(kuò)展推向極致，后者提出多個(gè)智能體一起運(yùn)行可以擴(kuò)大規(guī)模。

無論如何，AI 未來還是要追在人類屁股后面攆，以追趕人類為樂。人該怎么辦呢？圖靈獎(jiǎng)得主 Yann LeCun 建議，應(yīng)該學(xué)習(xí)那些“保質(zhì)期長”的知識(shí)，以及能讓你“學(xué)會(huì)如何學(xué)習(xí)”的東西。他補(bǔ)充道，保質(zhì)期長的東西，往往不是計(jì)算機(jī)科學(xué)。

責(zé)任編輯：呂妍

校對(duì)：丁曉

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)