- +1
AI中場時(shí)刻②|大模型進(jìn)化放緩,AI如何穿越“徘徊期”?
AI 的能力發(fā)展到什么程度了?這是一個(gè)非常實(shí)用的問題。
2024 年春節(jié),OpenAI 推出文生視頻模型 Sora,足引起一場革命;2025 年春節(jié)期間,DeepSeek 引發(fā)廣泛關(guān)注。誰又能預(yù)料 2026 年春節(jié),AI 領(lǐng)域還會(huì)推出怎樣的“年貨級(jí)”新角色?你得有所準(zhǔn)備。
硅谷風(fēng)險(xiǎn)投資機(jī)構(gòu) a16z 發(fā)布的 2025 年消費(fèi)者 AI 報(bào)告總結(jié)道,對(duì)于各大AI Lab來說,今年是面向消費(fèi)者推出產(chǎn)品的大年。比方說,OpenAI 發(fā)布了數(shù)十項(xiàng) AI 功能,包括 GPT-4o 圖像處理模型、獨(dú)立 App Sora 以及群聊功能,谷歌推出圖像處理模型 Nano Banana 和視頻生成模型 Veo,其它實(shí)驗(yàn)室也都發(fā)布了涵蓋聊天、編程、搜索、圖像生成等領(lǐng)域的多種工具。結(jié)果如何?a16z 評(píng)價(jià)道:“喜憂參半”。
單從 Sora App 的命運(yùn)便能看出來,哪怕是關(guān)注度多如 OpenAI 推出的 AI 產(chǎn)品,也如同一場大雨,雨落到地上的多,存到罐子里的卻少。Sora 的全球下載量超過 1200 萬次,但據(jù) SensorTower 估計(jì),其 30 天留存率低于 8%。
2025年,AI 瀏覽器被視為“AI時(shí)代的第一入口”,成了兵家必爭之地。Perlexity推出Comet、OpenAI有Atlas,谷歌把AI功能嵌入chrome……不過,根據(jù)分析,還沒有一款A(yù)I瀏覽器的市占率超過1%。同時(shí),2025被宣傳為“Agent元年”,根據(jù)麥肯錫報(bào)告,智能體在輿論和想象中潛力巨大,但現(xiàn)實(shí)落地總體還偏早期:62% 受訪者所在公司至少在“實(shí)驗(yàn)”智能體,但是真正在任何單一業(yè)務(wù)職能中“規(guī)?;褂谩敝悄荏w的比例都不超過 10%。麥肯錫總結(jié)道:“要做好智能體應(yīng)用,需要付出艱苦努力?!?/p>
為何各家開始在產(chǎn)品賽道上卷生卷死?背后是 AI 模型能力的徘徊。低垂的果實(shí)已經(jīng)摘完了,通往 AGI 的前路開始泥濘。
AI 已經(jīng)很強(qiáng)了,只是升級(jí)的速度變慢了
通過分析259個(gè)AI大模型在十余項(xiàng)任務(wù)上的表現(xiàn),我們發(fā)現(xiàn),至少在做題方面,AI 已經(jīng)拳打腳踢相當(dāng)一部分人。無論是頂尖的高中生數(shù)學(xué)競賽,還是研究生級(jí)別的物理、生物和化學(xué)問題(直接搜索是搜不到答案的,得進(jìn)行科學(xué)推理),或是看圖回答問題,AI 都做得很好,超越了人類專家的平均水準(zhǔn)。
而一些相對(duì)簡單、抽象的真實(shí)問題,比方說扮演一位電信技術(shù)支持的客服,跟客戶協(xié)調(diào)解決諸如“為啥我連不上網(wǎng)?”之類的問題,AI 也已經(jīng)很能頂事兒了。

從時(shí)間維度上看,AI 大模型在大部分任務(wù)上的能力躍升集中在 2024 年下半年至 2025 年年初,是AI 大模型在2025這一年徘徊的一個(gè)注腳。
有幾道人類的護(hù)城河,AI 尚未突破(真是松一口氣)??茖W(xué)編程能力,不及格;“人類的最后一場考試”(HLE,涵蓋了數(shù)學(xué)、科學(xué)以及人文社科領(lǐng)域有標(biāo)準(zhǔn)答案的難題),AI 沒有通過;至于研究級(jí)的物理推理能力(約等于一名優(yōu)秀的物理研究生獨(dú)立完成研究的水平),AI 還沒摸著邊。也就是說,在邏輯推理方面,AI 還沒能超越最聰明的那一撥人類。
谷歌的 Gemini 3 在 2025 年的 AI 競賽中表現(xiàn)亮眼,在多個(gè)高難度任務(wù)上拔得頭籌,也為它贏得了更多用戶——Gemini 的 Pro 訂閱用戶同比增長近 300%,而 ChatGPT 的增幅為 155%。
AI 的能力會(huì)此消彼長嗎?
AI 在不同方面的能力會(huì)有一點(diǎn)起伏。以 OpenAI 推出的 GPT-5.2 和 GPT-5.1 為例,提高了編程能力,長文本推理能力就下去了一點(diǎn)。這似乎很好理解,人的特質(zhì)也常出現(xiàn)左右互搏的情況,理智與情感、創(chuàng)造力和服從度,很難兩全。難道 AI 也會(huì)出現(xiàn)這種情況?
令人驚訝的是,綜合 artificialanalysis 上 259 個(gè)模型在 12 項(xiàng)任務(wù)上的表現(xiàn),從總體上看,AI 沒有哪項(xiàng)能力是真的互斥的。

數(shù)值越高,指標(biāo)間關(guān)聯(lián)度越高,反之越低
絕大多數(shù)指標(biāo)之間都呈現(xiàn)出正相關(guān),這意味著目前的頂尖模型正在走向“全能化”——通常一個(gè)模型在數(shù)學(xué)上變強(qiáng)了,它的編程和推理能力也會(huì)跟著變強(qiáng),也就是我們常說的“Scaling Law”帶來的普遍提升。
不過從中我們也能找出幾組很不熟的指標(biāo)。比方說研究級(jí)物理推理能力就跟“模擬客服解決問題”的能力基本毫不相干。這也和前OpenAI核心研究員、CoT(思維鏈)作者Jason Wei 的觀點(diǎn)相似,不同任務(wù)提升的速度是不同的。在單項(xiàng)任務(wù)上的能力提升不一定會(huì)泛化到其他任務(wù)上。

Jason Wei在斯坦福大學(xué)AI Club的演講:AI并不是全知全能,AI在不同任務(wù)上的智能水平就像鋸齒一樣,有高有低
接下來,AI 要怎么發(fā)展?
世界上最聰明的那撥人對(duì) AI 目前的水平并不滿意。不過,他們的方向不太一樣。
它怎么不能舉一反三呢?OpenAI 前首席科學(xué)家Ilya Sutskever認(rèn)為大力出奇跡的路已經(jīng)走到盡頭了,“數(shù)據(jù)是有限的,而且各個(gè)組織已經(jīng)擁有大量的計(jì)算資源……所以我們又回到了研究時(shí)代”,而需要更多研究的方向就是讓模型像人類那樣學(xué)習(xí),從少量的示例和信息中學(xué)習(xí)。
而李飛飛則想培養(yǎng) AI 的“空間智能”,簡單來說,像是一種空間上的直覺,人可以在半睡半醒間把咖啡倒進(jìn)杯子里,消防員可以在濃煙彌漫的建筑中穿梭,瞬間判斷形勢(shì);AI 不僅要能說能看,更要會(huì)行動(dòng)、會(huì)創(chuàng)造。
Demis Hassabis 和吳恩達(dá)仍然相信規(guī)模,前者認(rèn)為必須將系統(tǒng)的規(guī)模擴(kuò)展推向極致,后者提出多個(gè)智能體一起運(yùn)行可以擴(kuò)大規(guī)模。

無論如何,AI 未來還是要追在人類屁股后面攆,以追趕人類為樂。人該怎么辦呢?圖靈獎(jiǎng)得主 Yann LeCun 建議,應(yīng)該學(xué)習(xí)那些“保質(zhì)期長”的知識(shí),以及能讓你“學(xué)會(huì)如何學(xué)習(xí)”的東西。他補(bǔ)充道,保質(zhì)期長的東西,往往不是計(jì)算機(jī)科學(xué)。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




