欧美成人A片免费|日韩无码一级av|一级黄色大片在线播放|黄片视频在线观看无码|亚洲精品成人无码影视|婷婷五月天视频网站|日韩三级AV在线播放|姓爱av在线婷婷春色五月天|真人全黃色录像免费特黄片|日本无码黄在线观看下载

  • +1

AI觀察|AI賦能科學(xué)發(fā)現(xiàn):數(shù)據(jù)壁壘是關(guān)鍵痛點(diǎn)

澎湃新聞?dòng)浾?張靜
2026-01-06 10:03
來源:澎湃新聞
? 未來2% >
字號(hào)

人工智能與科學(xué)研究正在深度融合,深刻塑造科學(xué)的未來。

去年11月,美國總統(tǒng)特朗普簽署行政命令,啟動(dòng)全新國家計(jì)劃“創(chuàng)世紀(jì)計(jì)劃”,旨在整合美國超級(jí)計(jì)算機(jī)和獨(dú)特?cái)?shù)據(jù)資產(chǎn),利用人工智能變革科學(xué)研究方式、加速科學(xué)發(fā)現(xiàn)。英國去年11月發(fā)布的AI for Science戰(zhàn)略將采取15項(xiàng)具體行動(dòng),旨在鞏固英國在人工智能推動(dòng)科學(xué)突破領(lǐng)域的全球領(lǐng)導(dǎo)者地位。

日前,多位青年科學(xué)家在上??茖W(xué)智能研究院的一場(chǎng)AI for Science座談會(huì)上不約而同提到,數(shù)據(jù)壁壘是AI for Science的關(guān)鍵痛點(diǎn)之一。AI不僅需要大量數(shù)據(jù),還需要差異化的數(shù)據(jù)。沒有數(shù)據(jù)“下鍋”,就難以煉出好模型。AI for Science也不應(yīng)止步于科學(xué)發(fā)現(xiàn),而是選擇兼具產(chǎn)業(yè)基礎(chǔ)、技術(shù)優(yōu)勢(shì)和數(shù)據(jù)積累的領(lǐng)域先行先試,探索從研究到應(yīng)用的市場(chǎng)閉環(huán)。

沒有數(shù)據(jù)“下鍋”,就難以煉出好模型

新能源汽車已成為我國經(jīng)濟(jì)發(fā)展的重要引擎,鋰電池是當(dāng)前的主流技術(shù)。固態(tài)電池是以固體電解質(zhì)替代傳統(tǒng)液態(tài)或凝膠電解液的二次電池體系,具有高能量、高安全性優(yōu)勢(shì)。固態(tài)電池上車是下一代電池的突破方向之一。

上海交通大學(xué)副教授、未來電池研究中心執(zhí)行主任萬佳雨從事固態(tài)電解質(zhì)開發(fā),他直言,盡管當(dāng)前新材料層出不窮,但在固態(tài)電池領(lǐng)域,真正有用的材料不過十幾類,按照大類來算僅有三類。“巧婦難為無米之炊,在模型訓(xùn)練中,如果沒有數(shù)據(jù) ‘下鍋’,就難以訓(xùn)出一個(gè)好模型。”

在生物領(lǐng)域,蛋白質(zhì)是生物制造的底層材料。過去,開發(fā)一款成功的蛋白質(zhì)產(chǎn)品高度依賴科學(xué)家經(jīng)驗(yàn),過程漫長且試錯(cuò)成本高昂,成功率偏低。由于蛋白質(zhì)研發(fā)設(shè)計(jì)技術(shù)門檻高,導(dǎo)致蛋白質(zhì)研發(fā)供給不足,優(yōu)質(zhì)蛋白產(chǎn)品國際壟斷嚴(yán)重,尤其是我國70%的工業(yè)酶依賴進(jìn)口。利用AI高效設(shè)計(jì)蛋白質(zhì),關(guān)鍵在于攻克蛋白質(zhì)功能預(yù)測(cè),而數(shù)據(jù)是重中之重。

“AI需要數(shù)據(jù),不僅數(shù)據(jù)量要大,而且數(shù)據(jù)的差異化也要大?!鄙虾=煌ù髮W(xué)特聘教授、天鶩科技首席科學(xué)家洪亮團(tuán)隊(duì)開發(fā)了AI蛋白質(zhì)設(shè)計(jì)平臺(tái)Venus,他們讓大模型學(xué)習(xí)高溫、高壓、高酸、高堿等極端工況下的蛋白質(zhì)功能,輔助設(shè)計(jì)蛋白質(zhì),并以此開發(fā)了全球首款由大模型設(shè)計(jì)且實(shí)現(xiàn)工業(yè)化生產(chǎn)的蛋白質(zhì)。

“這套策略做得好,完全依賴于底層數(shù)據(jù)的規(guī)模和質(zhì)量?!睘榱私鉀Q數(shù)據(jù)問題,洪亮團(tuán)隊(duì)組建了全球最大的蛋白質(zhì)數(shù)據(jù)庫,收集了150億條蛋白質(zhì)序列,其中67億條私有數(shù)據(jù)中,既有來自馬里亞納海溝的深海蛋白數(shù)據(jù),也有中國大西北的鹽湖蛋白數(shù)據(jù)。

“我們?cè)跀?shù)據(jù)層面遇到的核心痛點(diǎn)并非數(shù)據(jù)獲取難,而在于高度非標(biāo)準(zhǔn)化?!焙榱帘硎?,各方提供的數(shù)據(jù)格式各異,缺乏統(tǒng)一規(guī)范。為了清洗每一條序列并標(biāo)準(zhǔn)化標(biāo)注,團(tuán)隊(duì)為65億條蛋白質(zhì)數(shù)據(jù)打上環(huán)境標(biāo)簽,才將原始的“雜亂”數(shù)據(jù)轉(zhuǎn)化為可用的研究數(shù)據(jù)。

協(xié)同合作打破數(shù)據(jù)壁壘,探索市場(chǎng)閉環(huán)

數(shù)據(jù)采集、專業(yè)的數(shù)據(jù)標(biāo)注與數(shù)據(jù)共享是推進(jìn)AI for Science不可或缺的關(guān)鍵要素。

“許多科學(xué)領(lǐng)域的專業(yè)數(shù)據(jù)并不公開,缺少團(tuán)隊(duì)投入資源,去完成那些繁瑣的數(shù)據(jù)加工工作,但AI for Science的數(shù)據(jù)一定要共享?!鄙虾?茖W(xué)智能研究院副院長程遠(yuǎn)介紹,上海科學(xué)智能研究院旗下星河啟智科學(xué)智能開放平臺(tái)的數(shù)據(jù)廣場(chǎng)建成超4萬個(gè)高質(zhì)量科學(xué)數(shù)據(jù)集,數(shù)據(jù)總量達(dá)12PB。

上??茖W(xué)智能研究院的經(jīng)驗(yàn)是構(gòu)建多梯度的人才體系:20多位專職數(shù)據(jù)工程師從事數(shù)據(jù)加工和批量化處理,200多位在校學(xué)生和雇傭人員專職從事數(shù)據(jù)標(biāo)注,1000多位眾包人員承擔(dān)數(shù)據(jù)校驗(yàn)和初級(jí)標(biāo)注。除了豐富的科學(xué)語料資源和海量數(shù)據(jù)儲(chǔ)備,平臺(tái)的數(shù)據(jù)加工工具確保數(shù)據(jù)質(zhì)量和科研可用性,明晰的數(shù)據(jù)權(quán)屬機(jī)制推動(dòng)數(shù)據(jù)合規(guī)生產(chǎn)和開放共享?!拔覀兣c高校、企業(yè)合作,加工和開放了16個(gè)領(lǐng)域的專業(yè)數(shù)據(jù)。他們既是平臺(tái)使用者,也是建設(shè)者,貢獻(xiàn)了數(shù)據(jù)和新模型。”

去年9月,上海人工智能實(shí)驗(yàn)室聯(lián)合合肥實(shí)驗(yàn)室、臨港實(shí)驗(yàn)室等12家國家實(shí)驗(yàn)室成立上??茖W(xué)智能戰(zhàn)略科技力量聯(lián)盟,同時(shí)吸引眾多高校和科研機(jī)構(gòu)加入,共同梳理聯(lián)盟體系內(nèi)的各學(xué)科數(shù)據(jù),打破數(shù)據(jù)壁壘。

上海人工智能實(shí)驗(yàn)室青年科學(xué)家、科學(xué)智能中心負(fù)責(zé)人白磊認(rèn)為,要推動(dòng)AI for Science的實(shí)質(zhì)進(jìn)展,首先必須清晰界定AI特別是AGI(通用人工智能)在科學(xué)領(lǐng)域的能力表現(xiàn),系統(tǒng)解析不同學(xué)科和科研流程對(duì)AI能力的差異化需求,摒棄“胡子眉毛一把抓”。與此同時(shí),AI for Science在模型訓(xùn)練階段投入巨大,海量數(shù)據(jù)整合與算力支撐必然要求集結(jié)更廣泛的力量協(xié)同攻關(guān),加強(qiáng)合作。

AI的賦能也不應(yīng)止步于科學(xué)發(fā)現(xiàn)。上海大學(xué)材料基因組工程研究院副教授高兆和表示,AI for Science要從科學(xué)研究落地工程,實(shí)現(xiàn)從研究到產(chǎn)業(yè)的貫通,否則任何技術(shù)突破都只是曇花一現(xiàn)。

在洪亮看來,AI for Science的發(fā)展有其客觀規(guī)律,不同學(xué)科的商業(yè)化程度、數(shù)據(jù)積累和技術(shù)能力不同,應(yīng)當(dāng)選擇兼具產(chǎn)業(yè)基礎(chǔ)、技術(shù)優(yōu)勢(shì)和數(shù)據(jù)積累的領(lǐng)域先行先試,建立以智能體為核心的科研生態(tài),探索從研究到應(yīng)用的市場(chǎng)閉環(huán)。AI for Science的可持續(xù)發(fā)展必然依托于強(qiáng)大的生態(tài)體系,要通過生態(tài)鏈接,有效承接技術(shù)與需求,釋放AI設(shè)計(jì)能力。在這一過程中,政府的角色是引導(dǎo)、搭臺(tái)、共建,待模式成熟后逐步有序退出。

相關(guān)閱讀:科研正進(jìn)入計(jì)算和數(shù)據(jù)驅(qū)動(dòng)的第四范式:“作坊式”科研亟需改變

    責(zé)任編輯:宦艷紅
    圖片編輯:陳飛燕
    校對(duì):施鋆
    澎湃新聞報(bào)料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司