- +1
梁文鋒論文登上《自然》封面
據(jù)科技日?qǐng)?bào)消息,9月17日,DeepSeek-AI團(tuán)隊(duì)梁文鋒及其同事在《自然》雜志上發(fā)表了開源人工智能(AI)模型DeepSeek-R1所采用的大規(guī)模推理模型訓(xùn)練方法。

另?yè)?jù)第一財(cái)經(jīng)報(bào)道,與今年1月發(fā)布的DeepSeek-R1的初版論文相比,本次論文披露了更多模型訓(xùn)練的細(xì)節(jié),并正面回應(yīng)了模型發(fā)布之初的蒸餾質(zhì)疑。
DeepSeek-R1也是全球首個(gè)經(jīng)過(guò)同行評(píng)審的主流大語(yǔ)言模型。Nature評(píng)價(jià)道:目前幾乎所有主流的大模型都還沒有經(jīng)過(guò)獨(dú)立同行評(píng)審,這一空白“終于被DeepSeek打破”。

梁文鋒
DeepSeek-R1包含一個(gè)在人類監(jiān)督下的深入訓(xùn)練階段,以優(yōu)化推理過(guò)程。梁文鋒團(tuán)隊(duì)報(bào)告稱,該模型使用了強(qiáng)化學(xué)習(xí)而非人類示例來(lái)開發(fā)推理步驟,減少了訓(xùn)練成本和復(fù)雜性。
DeepSeek-R1在被展示優(yōu)質(zhì)的問(wèn)題解決案例后,會(huì)獲得一個(gè)模板來(lái)產(chǎn)生推理過(guò)程,即這一模型通過(guò)解決問(wèn)題獲得獎(jiǎng)勵(lì),從而強(qiáng)化學(xué)習(xí)效果。團(tuán)隊(duì)總結(jié)說(shuō),未來(lái)研究可以聚焦優(yōu)化獎(jiǎng)勵(lì)過(guò)程,以確保推理和任務(wù)結(jié)果更可靠。
據(jù)公開資料,梁文鋒出生于1985年,廣東湛江人,畢業(yè)于浙江大學(xué),擁有信息與電子工程學(xué)系學(xué)士和碩士學(xué)位,杭州幻方科技有限公司、DeepSeek創(chuàng)始人。2024年12月,梁文鋒和團(tuán)隊(duì)開發(fā)的大模型“DeepSeek-V3”發(fā)布。2025年4月,梁文鋒入選美國(guó)《時(shí)代》周刊“2025年全球最具影響力100人”榜單。
來(lái)源:長(zhǎng)安街知事,綜合自科技日?qǐng)?bào)、第一財(cái)經(jīng)。
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




