- +1
VAST數(shù)據(jù)推出支持谷歌云TPU的托管AI操作系統(tǒng)服務(wù)
VAST數(shù)據(jù)公司與谷歌云聯(lián)合發(fā)布了全托管VAST AI操作系統(tǒng)服務(wù),該服務(wù)通過統(tǒng)一的全局命名空間跨混合環(huán)境支持谷歌TPU處理器。
VAST AI操作系統(tǒng)服務(wù)架構(gòu)
VAST的AI操作系統(tǒng)本質(zhì)上是其完整的軟件棧,包括數(shù)據(jù)目錄、數(shù)據(jù)庫(通用命名空間)、數(shù)據(jù)空間、數(shù)據(jù)引擎、洞察引擎和智能體引擎。這套系統(tǒng)被設(shè)計為操作系統(tǒng)層,使用GPU服務(wù)器和網(wǎng)絡(luò)硬件為AI模型和智能體提供訓練、推理和智能體交互環(huán)境。
谷歌的TPU(張量處理單元)是谷歌為AI訓練和推理工作負載設(shè)計的專用GPU硬件,可在谷歌云平臺上運行此類工作負載。VAST表示,企業(yè)級客戶現(xiàn)在可以"無縫連接在谷歌云和本地運行的集群,消除復雜的遷移過程,讓數(shù)據(jù)在AI運行的任何地方都能立即可用"。
跨洲際數(shù)據(jù)流傳技術(shù)突破
這一合作的重要意義在于,VAST和谷歌已經(jīng)使用VAST的數(shù)據(jù)空間技術(shù)連接了相距超過10000公里的美國TPU集群和日本GPU處理集群。這一設(shè)置"在兩個位置運行vLLM推理工作負載時,實現(xiàn)了對相同數(shù)據(jù)的無縫、近實時訪問,支持智能工作負載調(diào)度,使組織能夠在美國的TPU和日本的GPU上運行AI模型,無需復制數(shù)據(jù)或管理獨立環(huán)境"。
VAST聯(lián)合創(chuàng)始人杰夫·登沃思表示:"通過與谷歌云的合作,我們正在為客戶提供完全托管的AI操作系統(tǒng)服務(wù)。通過智能流傳技術(shù)擴展我們的全局命名空間,谷歌云客戶可以通過谷歌云市場自動部署VAST托管集群,幾分鐘內(nèi)即可投入生產(chǎn),提供集成的治理和計費、彈性擴展以及由VAST處理的完整運維,讓企業(yè)數(shù)據(jù)立即可用于智能體AI。"
技術(shù)性能與實測結(jié)果
這項VAST對谷歌云平臺的支持使用了從收購的Red Stapler公司獲得的技術(shù)。數(shù)據(jù)通過經(jīng)過驗證的NFS路徑傳輸?shù)絋PU虛擬機,具有優(yōu)化的模型加載和小文件/元數(shù)據(jù)感知的輸入輸出功能。
VAST表示,在使用Meta的Llama-3.1-8B-Instruct模型的測試中,連接到谷歌云平臺TPU虛擬機的AI操作系統(tǒng)"在熱啟動時實現(xiàn)了與本地NVMe磁盤相當?shù)哪P图虞d速度,同時在冷啟動期間保持可預測的性能"。更詳細的測試結(jié)果顯示,該設(shè)置在熱啟動時達到了與本地NVMe相當?shù)募虞d時間,而在冷啟動時雖然速度較慢,但表現(xiàn)出"可預測的穩(wěn)定行為",數(shù)據(jù)加載時間至少是一致的。
市場競爭格局分析
需要注意的是,谷歌云平臺的TPU沒有英偉達GPU Direct功能。不過,谷歌云平臺確實提供了Hyperdisk ML(為AI推理/服務(wù)工作負載優(yōu)化的塊存儲服務(wù))以及云存儲FUSE和并行存儲中的緩存功能,這些功能可以提高訓練和推理的吞吐量并降低延遲。
可以將VAST的AI操作系統(tǒng)理解為維護一個虛擬中央數(shù)據(jù)存儲,將數(shù)據(jù)子集流傳輸?shù)紸I模型在英偉達GPU或谷歌云平臺TPU上執(zhí)行的位置,無論是在本地還是在谷歌云中,或者兩者兼而有之。不需要在連接站點的網(wǎng)絡(luò)中復制或拷貝完整的數(shù)據(jù)集。VAST表示其客戶"今天就可以在谷歌云上針對現(xiàn)有的本地數(shù)據(jù)集運行生產(chǎn)AI工作負載,無需遷移規(guī)劃、傳輸延遲或延長的合規(guī)周期"。
客戶可以選擇將哪些數(shù)據(jù)遷移、復制或緩存到谷歌云,同時保持單一命名空間,通過在各處應用統(tǒng)一的訪問控制、審計和保留策略來實現(xiàn)一致的治理和合規(guī)性。
VAST今天就可以在谷歌云中部署。聯(lián)合驗證和建立跨谷歌云和外部集群的VAST數(shù)據(jù)空間的參考指導已向合格客戶和合作伙伴提供。
行業(yè)發(fā)展前景
這種從虛擬中央位置向全球分布的數(shù)據(jù)中心提供數(shù)據(jù)的能力也是Hammerspace全球數(shù)據(jù)環(huán)境的一個特性。這支持包含GPU服務(wù)器本地附加存儲驅(qū)動器(稱為零層)的功能,因此等同于VAST數(shù)據(jù)的"本地NVMe磁盤"。
Arcitecta也具備通過其Mediaflux實時產(chǎn)品將AI相關(guān)數(shù)據(jù)流傳輸?shù)竭h程數(shù)據(jù)中心的能力。VAST、Hammerspace和Arcitecta在這個全球遠程智能AI數(shù)據(jù)流傳輸市場中形成競爭態(tài)勢。
VAST的優(yōu)勢在于谷歌TPU和托管服務(wù)支持,以及在以CoreWeave為首的NeoCloud GPU服務(wù)器云以及X/AI的Colossus等私有GPU云方面的發(fā)展勢頭。我們認為VAST有意與AWS和Azure建立類似的完全托管AI操作系統(tǒng)服務(wù),形成AI操作系統(tǒng)公有云服務(wù)三強格局,同時支持在本地、AWS、Azure和谷歌云平臺環(huán)境中運行混合AI環(huán)境的企業(yè)客戶。
Q&A
Q1:VAST AI操作系統(tǒng)服務(wù)的主要功能是什么?
A:VAST AI操作系統(tǒng)是一套完整的軟件棧,包括數(shù)據(jù)目錄、數(shù)據(jù)庫、數(shù)據(jù)空間、數(shù)據(jù)引擎、洞察引擎和智能體引擎。它能夠為AI模型和智能體提供統(tǒng)一的訓練、推理和智能體交互環(huán)境,通過全局命名空間實現(xiàn)跨混合環(huán)境的數(shù)據(jù)訪問。
Q2:VAST如何實現(xiàn)跨洲際的數(shù)據(jù)流傳輸?
A:VAST使用數(shù)據(jù)空間技術(shù)連接了相距超過10000公里的美國TPU集群和日本GPU處理集群,實現(xiàn)對相同數(shù)據(jù)的無縫、近實時訪問。這種技術(shù)支持智能工作負載調(diào)度,讓組織能夠在不同地區(qū)的處理器上運行AI模型,無需復制數(shù)據(jù)或管理獨立環(huán)境。
Q3:與本地存儲相比,VAST AI操作系統(tǒng)的性能如何?
A:在使用Meta的Llama-3.1-8B-Instruct模型測試中,VAST AI操作系統(tǒng)在熱啟動時實現(xiàn)了與本地NVMe磁盤相當?shù)哪P图虞d速度。在冷啟動時雖然速度較慢,但表現(xiàn)出可預測的穩(wěn)定行為,數(shù)據(jù)加載時間保持一致。
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




