欧美成人A片免费|日韩无码一级av|一级黄色大片在线播放|黄片视频在线观看无码|亚洲精品成人无码影视|婷婷五月天视频网站|日韩三级AV在线播放|姓爱av在线婷婷春色五月天|真人全黃色录像免费特黄片|日本无码黄在线观看下载

  • +1

SNPbag基因大模型發(fā)布:親緣關系判定效率較傳統(tǒng)方法提高數(shù)十倍

澎湃新聞記者 季敬杰
2026-01-15 10:30
來源:澎湃新聞
? 生命科學 >
字號

·AI通過“完形填空”的方式學習基因組中約600萬個常見SNP位點之間復雜的相互關聯(lián)規(guī)律,理解遺傳的“語法”。

人類基因組里包含著超過30億個堿基對,如何從中高效、系統(tǒng)地解讀出與健康、疾病、體質特征相關的奧秘,一直是現(xiàn)代生物學面臨的巨大挑戰(zhàn)。人工智能基礎模型正成為突破這一瓶頸的關鍵力量。

1月13日,在上?!澳K倏臻g”,基因底座大模型SNPbag正式發(fā)布,該模型旨在解決當前基因組學研究中面臨的計算效率低、數(shù)據(jù)碎片化以及預測能力不足等難題,試圖通過AI技術“讀懂”DNA與人類生命特征之間復雜的關聯(lián)。模型作者包括上海飛瀑智能科技有限公司、德國萊比錫大學、華大基因研究院、中國科學院等多家單位的研究人員。

人類的DNA序列有99.9%是完全相同的,剩下0.1%的差異造就了我們每個人獨一無二的體質、外貌和疾病易感性。這些差異大多以單個堿基變化的形式存在,即單核苷酸多態(tài)性(SNP)。SNPbag正是專為分析這些關鍵差異位點而設計的。

該模型的作者們在相關論文中提到,基于Transformer架構的大語言模型已經改變了生物醫(yī)學研究。在蛋白質組學中,AlphaFold 能夠準確預測蛋白質結構并加速藥物發(fā)現(xiàn)。在單細胞轉錄組學中,Geneformer、scGPT 和 scBERT 等模型支持細胞類型注釋以及擾動響應預測。在基因組學中,包括 Nucleotide Transformer和 EVO在內的模型能夠處理跨多物種的完整基因組序列,用于注釋基因組元素。

“相比之下,對于單一物種的基因組數(shù)據(jù),例如人類基因組,仍然缺乏能夠應對個體之間巨大基因組變異的人工智能基礎模型?!?該論文寫道。

“我們訓練模型的數(shù)據(jù),就是這0.1%的人與人之間的基因差別,那些99.9%重復的部分被拿掉了?!痹撃P偷淖髡咧恍靽A告訴澎湃科技,“這使得我們能夠節(jié)省海量的算力,這也是它與其他一些基因組模型的核心區(qū)別之一。”

徐國華曾在德國馬克思·普朗克演化人類學研究所做研究,師從2022年諾獎得主、生物學家斯萬特·佩博(Svante P??bo)。他告訴記者,目前僅用SNP數(shù)據(jù)進行訓練的基因大語言模型只有SNPbag,其研發(fā)難度主要在于開發(fā)者需要對遺傳學和大模型都非常了解。

該模型的另一位作者、飛瀑科技創(chuàng)始合伙人兼首席科學家唐鯤在發(fā)布會上表示,團隊成員的背景多樣,包括腫瘤醫(yī)學、計算生物學等,“既要懂生物又要懂計算,只有這樣的團隊能把它做出來?!?/p>

與當前主流的語言大模型(如ChatGPT)類似,SNPbag也采用了強大的Transformer架構。研究團隊用100萬個模擬基因組數(shù)據(jù)對一個擁有8.4億參數(shù)的模型進行預訓練,讓AI通過“完形填空”的方式學習基因組中約600萬個常見SNP位點之間復雜的相互關聯(lián)規(guī)律,理解遺傳的“語法”。通過這種學習,SNPbag構建起了一個能貫通多種遺傳分析任務的底層能力。

發(fā)布會上,唐鯤列舉了該模型的多種用處。過去,要分析一個人的祖源、推斷其與其他人的親緣關系、或補全基因測序中的缺失數(shù)據(jù),研究者需要使用不同的統(tǒng)計軟件,過程耗時且相互獨立。SNPbag則將這些任務整合到一個統(tǒng)一的平臺之上,模型只需經過少量微調,就能勝任多種下游任務。

發(fā)布會演示顯示,該模型能精準區(qū)分出遺傳背景高度相似的人群,也能可靠地推斷出遠至12代的親緣關系,其性能在部分任務上已達到或超過傳統(tǒng)方法的水平,而計算速度則實現(xiàn)了數(shù)十倍乃至上百倍的提升。

SNPbag還展示了一項極具潛力的功能——高效的基因組壓縮和加密。一個人的全基因組SNP原始數(shù)據(jù)包含數(shù)百萬行記錄,給表型預測帶來巨大挑戰(zhàn)。SNPBag模型能將這些海量信息壓縮成38萬個數(shù)字,還保留了95%以上的核心遺傳信息。

經過壓縮后的個人基因組信息。圖片來自SNPbag論文

徐國華表示,這38萬個數(shù)字能夠極大降低后續(xù)的開發(fā)難度,SNPBag有望通過壓縮的基因組訓練出很多預測表型的能力。此外,一個人的基因組壓縮,還能存儲在一個僅有0.75MB大小的文件中。這意味著,未來個人的基因組“身份證”或許可以輕松地存儲在U盤或手機中,在保障數(shù)據(jù)隱私和安全的前提下,極大地便利了大規(guī)??蒲袇f(xié)作和臨床應用。

“這個模型是一個起點。”唐鯤表示,其最終目標是建立從基因型到表型(即身高、相貌、疾病風險等個體特征)的精準預測能力。唐鯤團隊之前曾開發(fā)通過DNA信息預測外貌的算法,在刑偵等領域大有用處。他告訴澎湃科技,采用新的底座模型后,有望提升面部還原算法的準確度和泛化能力。

    責任編輯:宦艷紅
    圖片編輯:金潔
    校對:丁曉
    澎湃新聞報料:021-962866
    澎湃新聞,未經授權不得轉載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯(lián)網新聞信息服務許可證:31120170006

            增值電信業(yè)務經營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司