- +1
專訪|歐陽萬里:場景數(shù)據(jù)短缺,AI落地退回老路?
2025年,大模型繼續(xù)狂飆。我們目睹了AI無處不在,一種深刻的轉(zhuǎn)變也正在發(fā)生。
大模型告別了盲目堆砌參數(shù)的“大力出奇跡”,轉(zhuǎn)而追求極致性價比;GPT不再一騎絕塵,任何大模型在榜單上的領(lǐng)先優(yōu)勢不超過3個月;行業(yè)不再迷信“萬能模型”,技術(shù)深度滲透后的價值導(dǎo)向植入人心。AI突破數(shù)字世界的邊界,“伸手”觸碰物理世界。
當我們?yōu)锳I的突飛猛進歡呼時,也需要清醒地審視前路?!癆I泡沫”論調(diào)甚囂塵上,真正的技術(shù)融合遠比想象復(fù)雜,從技術(shù)突破到產(chǎn)業(yè)深耕,其間橫亙著數(shù)據(jù)、可靠性、投資回報等諸多溝壑。
上海人工智能實驗室領(lǐng)軍科學(xué)家歐陽萬里日前在接受澎湃科技專訪時表示,都說人工智能進入了“下半場”,實際上通用人工智能(AGI)還未到來,未來幾年能否到來仍不確定。即使未來一年仍能實現(xiàn)線性增長,這已相當不易,但仍達不到工業(yè)場景需求。
短板在于,大模型看不到工業(yè)場景的數(shù)據(jù),無法理解那些場景數(shù)據(jù)背后蘊藏的工業(yè)邏輯。通專融合能夠更好地理解數(shù)據(jù),通專融合之下的語言模型能夠與科學(xué)數(shù)據(jù)交互對齊,理解并表達DNA和蛋白序列中的信息,支撐人工智能形成自主的科學(xué)發(fā)現(xiàn)。
數(shù)據(jù)是模型取得更好效果的基石之一,模型設(shè)計同樣重要,必須兩條腿走路。歐陽萬里暢想,“未來可以期待模型學(xué)習(xí)的新方法,不見得Transfomer就是最好的模式?!?/p>
以下是對話實錄:
大模型開發(fā)齊頭并進,工業(yè)場景大門難叩開
澎湃科技:如何評價這一年來國內(nèi)外AI的發(fā)展?
歐陽萬里(上海人工智能實驗室領(lǐng)軍科學(xué)家):大模型的研發(fā)在持續(xù)推進,GPT不再一騎絕塵。幾家公司循環(huán)地說自己是當前世界上最好的模型,這說明大模型開發(fā)正處于齊頭并進階段。中國走開源路線,國外走閉源路線,目前來看,國外的閉源模型比中國的開源模型在性能上可能要好。
大家都說人工智能進入了“下半場”,其實AGI還沒有到來,未來幾年能否到來也還不確定。在這樣的情況下,怎么落地到場景中這件事還沒有得到徹底解決。即使接下來一年還像過去一年那樣實現(xiàn)線性增長,但應(yīng)該仍然達不到實際應(yīng)用需求,這是目前存在的問題。
澎湃科技:大模型落地的短板在哪里?
歐陽萬里:大模型在一些應(yīng)用場景已經(jīng)做得很好了,我們看到了很多案例,在寫論文、寫稿、文生圖、文生視頻、文生3D方面已經(jīng)做得很棒了。大家希望一個語言模型解決幾乎任何問題,這個目標目前還沒有實現(xiàn)。很多科學(xué)工程場景也不是語言模型能解決的,語言模型并不理解DNA序列、氣象數(shù)據(jù)。
大模型看不到那些場景的數(shù)據(jù),無法理解那些場景背后的工業(yè)邏輯,所以做不好。就像寫代碼,大模型能寫好普通代碼,特別擅長深度學(xué)習(xí)代碼,但不是所有代碼它都能寫好,比如操作系統(tǒng)代碼在網(wǎng)上沒公開,所以大模型寫不好這些專業(yè)領(lǐng)域的代碼。
澎湃科技:如何解決這個問題?
歐陽萬里:需要場景數(shù)據(jù)?,F(xiàn)在用大量數(shù)據(jù)訓(xùn)練模型解決場景問題,模型的基礎(chǔ)能力在逐步上升,但不見得解決了所有場景需求。為了落地場景,大模型需要給大模型提供大量場景數(shù)據(jù)。
澎湃科技:為什么說國外閉源模型的能力更好?
歐陽萬里:通常業(yè)界會說,第一名是閉源,第二名就開源。一方面,開源就是別人可以站在你的肩膀上,把自己閉源的技術(shù)加進去,得到的模型天然就比開源模型本身好。另一方面,像谷歌這樣的公司在數(shù)據(jù)方面可能也有特殊能力,獲得了一些原來大家沒有獲得的數(shù)據(jù),也可能找到了另一條通向Scaling law(尺度定律)的路。
澎湃科技:中美人工智能生態(tài)區(qū)別在哪?
歐陽萬里:海外人工智能大模型比中國更容易掙到錢,這是非常大的區(qū)別。國內(nèi)一方面不那么接受付費服務(wù),另一方面做研究的人在付費海外的模型。
AI產(chǎn)生創(chuàng)新科研想法,推動數(shù)據(jù)共享是關(guān)鍵
澎湃科技:AI for Science為什么越來越受到重視?
歐陽萬里:主要是大家看到AI對于科學(xué)研究在降本增效、加速實驗、提升創(chuàng)新高度方面的潛力。OpenAI提出要做OpenAI for Science,谷歌開發(fā)了很多AI for Science的工具。在提出創(chuàng)新的科研想法方面,我們發(fā)現(xiàn)它能夠產(chǎn)生一些人類沒有想到過的idea,比如我們當時讓我們的語言模型閱讀2023年或以前的論文,它提出來的idea跟2024年發(fā)表在《科學(xué)》或《自然》雜志上的idea是相似的。究其原因,一方面,語言模型會產(chǎn)生幻覺,很可能就是因為這些幻覺產(chǎn)生了創(chuàng)新的idea。另一方面,語言模型會學(xué)習(xí)怎么提出idea,它總結(jié)過去的知識,尋找過去的問題,再提出解決這些問題的路線方式。
澎湃科技:你們現(xiàn)在的工作是提升大模型本身能力,還是探索模型的應(yīng)用?
歐陽萬里:兩條路都在走。在模型的科學(xué)能力方面上海人工智能實驗室有了較多進展,它能夠以通專融合的方式更好地理解科學(xué)數(shù)據(jù),語言模型和科學(xué)數(shù)據(jù)能夠交互對齊。比如從大量氣象數(shù)據(jù)里找到一些氣象現(xiàn)象,并且用語言文字表達出來;能夠理解并表達DNA和蛋白序列中的信息。
在模型應(yīng)用方面,實驗室希望人工智能形成自主的科學(xué)發(fā)現(xiàn),能夠產(chǎn)生自己的科學(xué)想法、自己做實驗、做驗證評估,再重新進行實驗迭代。但現(xiàn)在還沒有完善的對應(yīng)工具,我們要去打造這個工具。其次,我們要去解決某一科學(xué)問題時,相應(yīng)的場景數(shù)據(jù)偏少,各個實驗室、科研機構(gòu)有數(shù)據(jù),但實際上很多數(shù)據(jù)是不公開共享的,中國的數(shù)據(jù)多,但形成的數(shù)據(jù)集少,這也是中美AI的一大區(qū)別。
澎湃科技:現(xiàn)在有沒有什么好方法可以收集數(shù)據(jù)?
歐陽萬里:我們也在推動數(shù)據(jù)的共享開放。一直在推進,只是中間遇到的難點還挺多,需要政府和研究機構(gòu)協(xié)同推進,科研院校提供的數(shù)據(jù)要做好驗證,證實數(shù)據(jù)是有用的。
澎湃科技:是否可以說,數(shù)據(jù)是目前模型能力提升最重要的問題?
歐陽萬里:不能這么說。數(shù)據(jù)是模型取得更好效果的一個基石,除了數(shù)據(jù)以外,模型設(shè)計方面也很重要,要兩條腿走路。
澎湃科技:接下來模型范式還會有大變化嗎?
歐陽萬里:未來可以期待模型學(xué)習(xí)的新方法,不見得現(xiàn)在的Transfomer就是最好的模式。
澎湃科技:怎么看待AI投資泡沫這件事?
歐陽萬里:現(xiàn)在已經(jīng)沒有“百模大戰(zhàn)”了,說明對于大語言模型的投資熱情是在下降的。但現(xiàn)在AI的投資確實很大,導(dǎo)致支出和收入不成正比,這是目前存在的問題。但為什么現(xiàn)在還有很多廠商愿意投資AI?這要從背后來看,有些投資意圖是防守型的,有些是進攻型的。
初創(chuàng)企業(yè)都希望用語言模型打出一片市場,這是進攻型的。大廠是防守型的,它并不需要一個模型為它打出一片天,它的市場已經(jīng)足夠大,它只要證明自己能夠做得好,所以用戶可以來用它的服務(wù)。比如谷歌也是防守型的,它希望用戶使用Gemini來穩(wěn)住自己基于搜索銷售廣告的搜索市場。對谷歌這樣的大廠而言,它負擔得起AI,但有些企業(yè)負擔不起就只能退出,不再參與。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




