VAST數(shù)據(jù)推出支持谷歌云TPU的托管AI操作系統(tǒng)服務(wù)

2025-11-13 16:07

來源：澎湃新聞·澎湃號·湃客

VAST數(shù)據(jù)公司與谷歌云聯(lián)合發(fā)布了全托管VAST AI操作系統(tǒng)服務(wù)，該服務(wù)通過統(tǒng)一的全局命名空間跨混合環(huán)境支持谷歌TPU處理器。

VAST AI操作系統(tǒng)服務(wù)架構(gòu)

VAST的AI操作系統(tǒng)本質(zhì)上是其完整的軟件棧，包括數(shù)據(jù)目錄、數(shù)據(jù)庫（通用命名空間）、數(shù)據(jù)空間、數(shù)據(jù)引擎、洞察引擎和智能體引擎。這套系統(tǒng)被設(shè)計為操作系統(tǒng)層，使用GPU服務(wù)器和網(wǎng)絡(luò)硬件為AI模型和智能體提供訓練、推理和智能體交互環(huán)境。

谷歌的TPU（張量處理單元）是谷歌為AI訓練和推理工作負載設(shè)計的專用GPU硬件，可在谷歌云平臺上運行此類工作負載。VAST表示，企業(yè)級客戶現(xiàn)在可以"無縫連接在谷歌云和本地運行的集群，消除復雜的遷移過程，讓數(shù)據(jù)在AI運行的任何地方都能立即可用"。

跨洲際數(shù)據(jù)流傳技術(shù)突破

這一合作的重要意義在于，VAST和谷歌已經(jīng)使用VAST的數(shù)據(jù)空間技術(shù)連接了相距超過10000公里的美國TPU集群和日本GPU處理集群。這一設(shè)置"在兩個位置運行vLLM推理工作負載時，實現(xiàn)了對相同數(shù)據(jù)的無縫、近實時訪問，支持智能工作負載調(diào)度，使組織能夠在美國的TPU和日本的GPU上運行AI模型，無需復制數(shù)據(jù)或管理獨立環(huán)境"。

VAST聯(lián)合創(chuàng)始人杰夫·登沃思表示："通過與谷歌云的合作，我們正在為客戶提供完全托管的AI操作系統(tǒng)服務(wù)。通過智能流傳技術(shù)擴展我們的全局命名空間，谷歌云客戶可以通過谷歌云市場自動部署VAST托管集群，幾分鐘內(nèi)即可投入生產(chǎn)，提供集成的治理和計費、彈性擴展以及由VAST處理的完整運維，讓企業(yè)數(shù)據(jù)立即可用于智能體AI。"

技術(shù)性能與實測結(jié)果

這項VAST對谷歌云平臺的支持使用了從收購的Red Stapler公司獲得的技術(shù)。數(shù)據(jù)通過經(jīng)過驗證的NFS路徑傳輸?shù)絋PU虛擬機，具有優(yōu)化的模型加載和小文件/元數(shù)據(jù)感知的輸入輸出功能。

VAST表示，在使用Meta的Llama-3.1-8B-Instruct模型的測試中，連接到谷歌云平臺TPU虛擬機的AI操作系統(tǒng)"在熱啟動時實現(xiàn)了與本地NVMe磁盤相當?shù)哪Ｐ图虞d速度，同時在冷啟動期間保持可預測的性能"。更詳細的測試結(jié)果顯示，該設(shè)置在熱啟動時達到了與本地NVMe相當?shù)募虞d時間，而在冷啟動時雖然速度較慢，但表現(xiàn)出"可預測的穩(wěn)定行為"，數(shù)據(jù)加載時間至少是一致的。

市場競爭格局分析

需要注意的是，谷歌云平臺的TPU沒有英偉達GPU Direct功能。不過，谷歌云平臺確實提供了Hyperdisk ML（為AI推理/服務(wù)工作負載優(yōu)化的塊存儲服務(wù)）以及云存儲FUSE和并行存儲中的緩存功能，這些功能可以提高訓練和推理的吞吐量并降低延遲。

可以將VAST的AI操作系統(tǒng)理解為維護一個虛擬中央數(shù)據(jù)存儲，將數(shù)據(jù)子集流傳輸?shù)紸I模型在英偉達GPU或谷歌云平臺TPU上執(zhí)行的位置，無論是在本地還是在谷歌云中，或者兩者兼而有之。不需要在連接站點的網(wǎng)絡(luò)中復制或拷貝完整的數(shù)據(jù)集。VAST表示其客戶"今天就可以在谷歌云上針對現(xiàn)有的本地數(shù)據(jù)集運行生產(chǎn)AI工作負載，無需遷移規(guī)劃、傳輸延遲或延長的合規(guī)周期"。

客戶可以選擇將哪些數(shù)據(jù)遷移、復制或緩存到谷歌云，同時保持單一命名空間，通過在各處應用統(tǒng)一的訪問控制、審計和保留策略來實現(xiàn)一致的治理和合規(guī)性。

VAST今天就可以在谷歌云中部署。聯(lián)合驗證和建立跨谷歌云和外部集群的VAST數(shù)據(jù)空間的參考指導已向合格客戶和合作伙伴提供。

行業(yè)發(fā)展前景

這種從虛擬中央位置向全球分布的數(shù)據(jù)中心提供數(shù)據(jù)的能力也是Hammerspace全球數(shù)據(jù)環(huán)境的一個特性。這支持包含GPU服務(wù)器本地附加存儲驅(qū)動器（稱為零層）的功能，因此等同于VAST數(shù)據(jù)的"本地NVMe磁盤"。

Arcitecta也具備通過其Mediaflux實時產(chǎn)品將AI相關(guān)數(shù)據(jù)流傳輸?shù)竭h程數(shù)據(jù)中心的能力。VAST、Hammerspace和Arcitecta在這個全球遠程智能AI數(shù)據(jù)流傳輸市場中形成競爭態(tài)勢。

VAST的優(yōu)勢在于谷歌TPU和托管服務(wù)支持，以及在以CoreWeave為首的NeoCloud GPU服務(wù)器云以及X/AI的Colossus等私有GPU云方面的發(fā)展勢頭。我們認為VAST有意與AWS和Azure建立類似的完全托管AI操作系統(tǒng)服務(wù)，形成AI操作系統(tǒng)公有云服務(wù)三強格局，同時支持在本地、AWS、Azure和谷歌云平臺環(huán)境中運行混合AI環(huán)境的企業(yè)客戶。

Q&A

Q1：VAST AI操作系統(tǒng)服務(wù)的主要功能是什么？

A：VAST AI操作系統(tǒng)是一套完整的軟件棧，包括數(shù)據(jù)目錄、數(shù)據(jù)庫、數(shù)據(jù)空間、數(shù)據(jù)引擎、洞察引擎和智能體引擎。它能夠為AI模型和智能體提供統(tǒng)一的訓練、推理和智能體交互環(huán)境，通過全局命名空間實現(xiàn)跨混合環(huán)境的數(shù)據(jù)訪問。

Q2：VAST如何實現(xiàn)跨洲際的數(shù)據(jù)流傳輸？

A：VAST使用數(shù)據(jù)空間技術(shù)連接了相距超過10000公里的美國TPU集群和日本GPU處理集群，實現(xiàn)對相同數(shù)據(jù)的無縫、近實時訪問。這種技術(shù)支持智能工作負載調(diào)度，讓組織能夠在不同地區(qū)的處理器上運行AI模型，無需復制數(shù)據(jù)或管理獨立環(huán)境。

Q3：與本地存儲相比，VAST AI操作系統(tǒng)的性能如何？

A：在使用Meta的Llama-3.1-8B-Instruct模型測試中，VAST AI操作系統(tǒng)在熱啟動時實現(xiàn)了與本地NVMe磁盤相當?shù)哪Ｐ图虞d速度。在冷啟動時雖然速度較慢，但表現(xiàn)出可預測的穩(wěn)定行為，數(shù)據(jù)加載時間保持一致。

特別聲明

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#云計算