OpenAI十周年，火速發(fā)布GPT-5.2，奧特曼：十年后將構(gòu)建出超級智能

澎湃新聞記者秦盛

2025-12-12 11:08

來源：澎湃新聞

面對谷歌等競爭對手帶來的壓力，在紅色緊急狀態(tài)下的OpenAI，在十周年之際火速發(fā)布GPT-5.2。

當(dāng)?shù)貢r間12月11日，OpenAI正式推出最新模型GPT-5.2，據(jù)官方介紹，該模型適用于專業(yè)工作和長時運(yùn)行智能體，是迄今為止適用于專業(yè)知識工作的最強(qiáng)模型系列，在通用智能、長上下文理解、智能體化工具調(diào)用和視覺方面得到顯著改進(jìn)，在執(zhí)行端到端的復(fù)雜現(xiàn)實(shí)世界任務(wù)方面優(yōu)于以往的模型。

GPT?5.2共有Instant、Thinking和Pro三個版本，將從今天開始向付費(fèi)計劃用戶逐步推出，在 ChatGPT 中，GPT?5.1將繼續(xù)對付費(fèi)用戶可用三個月，之后將停止支持。在API（應(yīng)用接口）中，已對所有開發(fā)者開放。

OpenAI CEO山姆·奧特曼（Sam Altman）發(fā)文表示：“即使沒有諸如輸出精美文件這類新功能，GPT-5.2也感覺像是我們許久以來獲得的最大升級。?”

據(jù)介紹，GPT-5.2在多數(shù)基準(zhǔn)測試中都達(dá)到了新的先進(jìn)水平，在GDPval測試中（GDPval是OpenAI推出的AI評估基準(zhǔn)，旨在衡量前沿模型在真實(shí)經(jīng)濟(jì)價值任務(wù)中的表現(xiàn)，以彌補(bǔ)學(xué)術(shù)測試與實(shí)際應(yīng)用間的差距），在涵蓋44個職業(yè)、定義明確的知識工作任務(wù)上，表現(xiàn)優(yōu)于行業(yè)專業(yè)人士。

GPT-5.2在GDPval測試中的表現(xiàn)，Thinking版在70.9%的比較中擊敗或持平頂尖行業(yè)專業(yè)人士。

編碼能力方面，GPT-5.2在SWE-Bench Pro（一項(xiàng)對現(xiàn)實(shí)世界軟件工程進(jìn)行的嚴(yán)格評估，測試四種語言，旨在更具抗污染性、挑戰(zhàn)性、多樣性和行業(yè)相關(guān)性）上，Thinking版取得了 55.6%的最高成績，在SWE-bench Verified上，Thinking版取得了80%的高分。

OpenAI表示，對于日常專業(yè)使用而言，這意味著模型能夠更可靠地調(diào)試生產(chǎn)代碼、實(shí)現(xiàn)功能請求、重構(gòu)大型代碼庫，并以更少的人工干預(yù)端到端地發(fā)布修復(fù)。

GPT?5.2 Thinking在前端軟件工程方面也優(yōu)于GPT?5.1 Thinking。早期測試者發(fā)現(xiàn)它在前端開發(fā)和復(fù)雜或非傳統(tǒng)的 UI 工作（尤其是涉及 3D 元素的工作）方面明顯更強(qiáng)，比如制作海洋波浪模擬、假日賀卡制作器、打字游戲等。

據(jù)介紹，GPT?5.2 Thinking的事實(shí)準(zhǔn)確性、長上下文、視覺以及工具調(diào)用性能都迎來大幅提升。比GPT?5.1 Thinking的幻覺更少，在一組匿名查詢中，包含錯誤的回答相對減少了30%；在4-needle MRCR 變體（長達(dá) 256k token）任務(wù)上實(shí)現(xiàn)接近100%準(zhǔn)確率，同時，對于需要思考超出最大上下文窗口的任務(wù)，GPT?5.2 Thinking與OpenAI新的Responses /compact端點(diǎn)兼容，擴(kuò)展了模型的有效上下文窗口；視覺方面，GPT?5.2 Thinking成為OpenAI迄今為止最強(qiáng)的視覺模型，在圖表推理和軟件界面理解方面的錯誤率大約降低了一半，還能更好地理解圖像中元素的定位；工具調(diào)用性能方面，GPT?5.2 Thinking在Tau2-bench Telecom測試上實(shí)現(xiàn)了98.7%的得分，對于延遲敏感的使用場景，其在reasoning.effort='none'（無推理）設(shè)置下的表現(xiàn)也遠(yuǎn)優(yōu)于GPT?5.1和GPT?4.1。

GPT?5.2與GPT-5.1的視覺能力對比。

在科學(xué)與數(shù)學(xué)能力方面。在 GPQA Diamond（研究生級別的、防谷歌的問答基準(zhǔn)）測試上，GPT?5.2 Pro達(dá)到93.2%，GPT?5.2 Thinkin達(dá)到92.4%。

OpenAI表示，在最近與GPT?5.2 Pro合作的研究中，研究人員探索了統(tǒng)計學(xué)習(xí)理論中的一個開放性問題。在特定、明確界定的設(shè)定下，模型提出了一個證明，隨后得到了作者的驗(yàn)證，并與外部專家一起進(jìn)行了審查，這證明了前沿模型已經(jīng)在人類的密切監(jiān)督下協(xié)助數(shù)學(xué)研究。

同時，在ARC-AGI 1（衡量通用推理能力的基準(zhǔn)）測試上，GPT?5.2 Pro成為第一個突破90%閾值的模型，相比去年o3?preview的87%有所提高，同時將實(shí)現(xiàn)該性能的成本降低至1/390。

在難度更高、更能隔離流體推理能力的 ARC-AGI-2基準(zhǔn)測試上，GPT?5.2 Thinking在思維鏈模型中得分為 52.9%，GPT?5.2 Pro更是達(dá)到 54.2%，模型的推理新穎性、抽象問題的能力進(jìn)一步提升。

值得一提的是，當(dāng)天還是OpenAI成立十周年，奧特曼發(fā)布了題為《十年》的博客，回顧了OpenAI成立十年來的突破、經(jīng)驗(yàn)教訓(xùn)以及有關(guān)AGI的思考。

他表示，OpenAI取得的成就超出了他最大膽的夢想，“我們當(dāng)初設(shè)定了一個瘋狂、不太可能且史無前例的目標(biāo)。從極度不確定的開端起步，盡管希望渺茫，但通過持續(xù)努力，現(xiàn)在看來，我們似乎有望實(shí)現(xiàn)我們的使命”。

奧特曼表示，當(dāng)他回顧早期的照片時，首先震驚于每個人看起來都那么年輕。接著，又震驚于每個人看起來都異常樂觀，而且那么快樂?！澳鞘且欢委偪穸鞓返臅r光：盡管我們被嚴(yán)重誤解，但我們懷著堅定的信念，覺得這件事意義重大，即使成功機(jī)會渺茫也值得為之付出巨大努力，我們擁有非常有才華的人，并且目標(biāo)明確”。

OpenAI在十周年視頻中發(fā)布的創(chuàng)業(yè)早期照片。

他表示，三年前推出ChatGPT時，世界注意到了，而當(dāng)推出 GPT-4 時，反響更是熱烈；突然間，考慮通用人工智能（AGI）不再是件瘋狂的事?！斑^去的三年極其緊張，充滿了壓力和重大的責(zé)任；這項(xiàng)技術(shù)以前所未有的規(guī)模和速度融入了世界。這需要我們以極高的執(zhí)行力來完成，而且我們不得不立即為此建立一種全新的能力。在這段時間里，從一無所有成長為一家龐大的公司絕非易事，需要我們每周做出成百上千個決策。我為團(tuán)隊做出的許多正確決策感到自豪，而那些錯誤的決策，則大多是我的責(zé)任”。

奧特曼表示從未對OpenAI的研究、產(chǎn)品路線圖以及整體上通向使命的路徑感到如此樂觀。再過十年，幾乎可以肯定OpenAI將構(gòu)建出超級智能?！拔翌A(yù)計未來會讓人感到奇妙；從某種意義上說，日常生活和我們最關(guān)心的事情變化會非常小，我敢肯定，我們將繼續(xù)更關(guān)注其他人的行為，而非機(jī)器的行為。但從另一種意義上說，2035年的人們將能夠做到一些我認(rèn)為我們現(xiàn)在難以輕易想象的事情”。

責(zé)任編輯：是冬冬

校對：施鋆

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報

#ChatGPT #GPT #OpenAI