欧美成人A片免费|日韩无码一级av|一级黄色大片在线播放|黄片视频在线观看无码|亚洲精品成人无码影视|婷婷五月天视频网站|日韩三级AV在线播放|姓爱av在线婷婷春色五月天|真人全黃色录像免费特黄片|日本无码黄在线观看下载

  • +1

OpenAI十周年,火速發(fā)布GPT-5.2,奧特曼:十年后將構(gòu)建出超級智能

澎湃新聞記者 秦盛
2025-12-12 11:08
來源:澎湃新聞
? 10%公司 >
字號

面對谷歌等競爭對手帶來的壓力,在紅色緊急狀態(tài)下的OpenAI,在十周年之際火速發(fā)布GPT-5.2。

當(dāng)?shù)貢r間12月11日,OpenAI正式推出最新模型GPT-5.2,據(jù)官方介紹,該模型適用于專業(yè)工作和長時運(yùn)行智能體,是迄今為止適用于專業(yè)知識工作的最強(qiáng)模型系列,在通用智能、長上下文理解、智能體化工具調(diào)用和視覺方面得到顯著改進(jìn),在執(zhí)行端到端的復(fù)雜現(xiàn)實(shí)世界任務(wù)方面優(yōu)于以往的模型。

GPT?5.2共有Instant、Thinking和Pro三個版本,將從今天開始向付費(fèi)計劃用戶逐步推出,在 ChatGPT 中,GPT?5.1將繼續(xù)對付費(fèi)用戶可用三個月,之后將停止支持。在API(應(yīng)用接口)中,已對所有開發(fā)者開放。

OpenAI CEO山姆·奧特曼(Sam Altman)發(fā)文表示:“即使沒有諸如輸出精美文件這類新功能,GPT-5.2也感覺像是我們許久以來獲得的最大升級。?”

據(jù)介紹,GPT-5.2在多數(shù)基準(zhǔn)測試中都達(dá)到了新的先進(jìn)水平,在GDPval測試中(GDPval是OpenAI推出的AI評估基準(zhǔn),旨在衡量前沿模型在真實(shí)經(jīng)濟(jì)價值任務(wù)中的表現(xiàn),以彌補(bǔ)學(xué)術(shù)測試與實(shí)際應(yīng)用間的差距),在涵蓋44個職業(yè)、定義明確的知識工作任務(wù)上,表現(xiàn)優(yōu)于行業(yè)專業(yè)人士。

GPT-5.2在GDPval測試中的表現(xiàn),Thinking版在70.9%的比較中擊敗或持平頂尖行業(yè)專業(yè)人士。

編碼能力方面,GPT-5.2在SWE-Bench Pro(一項(xiàng)對現(xiàn)實(shí)世界軟件工程進(jìn)行的嚴(yán)格評估,測試四種語言,旨在更具抗污染性、挑戰(zhàn)性、多樣性和行業(yè)相關(guān)性)上,Thinking版取得了 55.6%的最高成績,在SWE-bench Verified上,Thinking版取得了80%的高分。

OpenAI表示,對于日常專業(yè)使用而言,這意味著模型能夠更可靠地調(diào)試生產(chǎn)代碼、實(shí)現(xiàn)功能請求、重構(gòu)大型代碼庫,并以更少的人工干預(yù)端到端地發(fā)布修復(fù)。

GPT?5.2 Thinking在前端軟件工程方面也優(yōu)于GPT?5.1 Thinking。早期測試者發(fā)現(xiàn)它在前端開發(fā)和復(fù)雜或非傳統(tǒng)的 UI 工作(尤其是涉及 3D 元素的工作)方面明顯更強(qiáng),比如制作海洋波浪模擬、假日賀卡制作器、打字游戲等。

據(jù)介紹,GPT?5.2 Thinking的事實(shí)準(zhǔn)確性、長上下文、視覺以及工具調(diào)用性能都迎來大幅提升。比GPT?5.1 Thinking的幻覺更少,在一組匿名查詢中,包含錯誤的回答相對減少了30%;在4-needle MRCR 變體(長達(dá) 256k token)任務(wù)上實(shí)現(xiàn)接近100%準(zhǔn)確率,同時,對于需要思考超出最大上下文窗口的任務(wù),GPT?5.2 Thinking與OpenAI新的Responses /compact端點(diǎn)兼容,擴(kuò)展了模型的有效上下文窗口;視覺方面,GPT?5.2 Thinking成為OpenAI迄今為止最強(qiáng)的視覺模型,在圖表推理和軟件界面理解方面的錯誤率大約降低了一半,還能更好地理解圖像中元素的定位;工具調(diào)用性能方面,GPT?5.2 Thinking在Tau2-bench Telecom測試上實(shí)現(xiàn)了98.7%的得分,對于延遲敏感的使用場景,其在reasoning.effort='none'(無推理)設(shè)置下的表現(xiàn)也遠(yuǎn)優(yōu)于GPT?5.1和GPT?4.1。

GPT?5.2與GPT-5.1的視覺能力對比。

在科學(xué)與數(shù)學(xué)能力方面。在 GPQA Diamond(研究生級別的、防谷歌的問答基準(zhǔn))測試上,GPT?5.2 Pro達(dá)到93.2%,GPT?5.2 Thinkin達(dá)到92.4%。

OpenAI表示,在最近與GPT?5.2 Pro合作的研究中,研究人員探索了統(tǒng)計學(xué)習(xí)理論中的一個開放性問題。在特定、明確界定的設(shè)定下,模型提出了一個證明,隨后得到了作者的驗(yàn)證,并與外部專家一起進(jìn)行了審查,這證明了前沿模型已經(jīng)在人類的密切監(jiān)督下協(xié)助數(shù)學(xué)研究。

同時,在ARC-AGI 1(衡量通用推理能力的基準(zhǔn))測試上,GPT?5.2 Pro成為第一個突破90%閾值的模型,相比去年o3?preview的87%有所提高,同時將實(shí)現(xiàn)該性能的成本降低至1/390。

在難度更高、更能隔離流體推理能力的 ARC-AGI-2基準(zhǔn)測試上,GPT?5.2 Thinking在思維鏈模型中得分為 52.9%,GPT?5.2 Pro更是達(dá)到 54.2%,模型的推理新穎性、抽象問題的能力進(jìn)一步提升。

值得一提的是,當(dāng)天還是OpenAI成立十周年,奧特曼發(fā)布了題為《十年》的博客,回顧了OpenAI成立十年來的突破、經(jīng)驗(yàn)教訓(xùn)以及有關(guān)AGI的思考。

他表示,OpenAI取得的成就超出了他最大膽的夢想,“我們當(dāng)初設(shè)定了一個瘋狂、不太可能且史無前例的目標(biāo)。從極度不確定的開端起步,盡管希望渺茫,但通過持續(xù)努力,現(xiàn)在看來,我們似乎有望實(shí)現(xiàn)我們的使命”。

奧特曼表示,當(dāng)他回顧早期的照片時,首先震驚于每個人看起來都那么年輕。接著,又震驚于每個人看起來都異常樂觀,而且那么快樂?!澳鞘且欢委偪穸鞓返臅r光:盡管我們被嚴(yán)重誤解,但我們懷著堅定的信念,覺得這件事意義重大,即使成功機(jī)會渺茫也值得為之付出巨大努力,我們擁有非常有才華的人,并且目標(biāo)明確”。

OpenAI在十周年視頻中發(fā)布的創(chuàng)業(yè)早期照片。

他表示,三年前推出ChatGPT時,世界注意到了,而當(dāng)推出 GPT-4 時,反響更是熱烈;突然間,考慮通用人工智能(AGI)不再是件瘋狂的事?!斑^去的三年極其緊張,充滿了壓力和重大的責(zé)任;這項(xiàng)技術(shù)以前所未有的規(guī)模和速度融入了世界。這需要我們以極高的執(zhí)行力來完成,而且我們不得不立即為此建立一種全新的能力。在這段時間里,從一無所有成長為一家龐大的公司絕非易事,需要我們每周做出成百上千個決策。我為團(tuán)隊做出的許多正確決策感到自豪,而那些錯誤的決策,則大多是我的責(zé)任”。

奧特曼表示從未對OpenAI的研究、產(chǎn)品路線圖以及整體上通向使命的路徑感到如此樂觀。再過十年,幾乎可以肯定OpenAI將構(gòu)建出超級智能?!拔翌A(yù)計未來會讓人感到奇妙;從某種意義上說,日常生活和我們最關(guān)心的事情變化會非常小,我敢肯定,我們將繼續(xù)更關(guān)注其他人的行為,而非機(jī)器的行為。但從另一種意義上說,2035年的人們將能夠做到一些我認(rèn)為我們現(xiàn)在難以輕易想象的事情”。

    責(zé)任編輯:是冬冬
    校對:施鋆
    澎湃新聞報料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司