科技感拉滿！AI深入全運會，解鎖人機共生新圖景

2025-12-04 14:10

來源：澎湃新聞·澎湃號·湃客

不久前剛剛結束的第十五屆全運會，已經(jīng)成為一場“AI 賦能體育”的沉浸式展演：從火炬?zhèn)鬟f的無人駕駛車到賽場內外的AI機器人“多面手”，人工智能正以精準、高效、協(xié)同的特質，重構賽事服務的每一個環(huán)節(jié)。

在無人駕駛方面，來自小馬智行Robotaxi憑AI算法與34個傳感器零誤差護送火種，實現(xiàn)了全運會首次無人火炬?zhèn)鬟f；此外，廣州還集結了超過300輛自動駕駛車（含L4級巴士、乘用車及環(huán)衛(wèi)裝備），車路云AI協(xié)同保障出行與場館清潔。

在具身機器人方面,“夸父”借5G-A與AI視覺完成火炬接力，賽場內人形機器人遞獎牌、機器狗收器材，安保機器人也在實時巡邏。

AI自動駕駛與AI機器人看似分屬 “出行” 與 “服務” 兩大場景，實則共享人工智能的底層技術邏輯，都是 “具身智能”在物理世界的落地。

接下來，讓我們進一步了解AI的新應用吧。

日本的初創(chuàng)企業(yè)“圖靈”，計劃在2030年銷售1萬輛L5級自動駕駛汽車。它在自動駕駛汽車上搭載了多個攝像頭，由高級AI處理來自攝像頭的信息，并通過訓練判斷機制（相當于人類大腦做決策）來下達準確的駕駛指令，從而進行自動駕駛。

AI如何支撐起自動駕駛？背后對應的技術原理如下。

大語言模型功不可沒

“圖靈”在AI之中選擇了大語言模型（Large Language Model，LLM），使用的是由美國特斯拉公司創(chuàng)始人埃隆·馬斯克等人成立的AI研究機構“OpenAI”提供的“GPT-3.5”，也就是人們平時進行文本摘要、編寫程序、生成圖像等任務的人工智能。大語言模型是“高度精準的單詞推測機器”，能夠學習海量文本，對人類說的話也會像聯(lián)想游戲一樣，輸出與其密切相關的單詞。

和ChatGPT同樣，“圖靈”首先向GPT-3.5傳遞如“你是自動駕駛用的AI”一類的英文文字，使其作為自動駕駛AI工作。通過語音識別，將乘車人口頭下達的“向黃色錐桶前進”等具體的駕駛指令，轉換成文本并輸入到GPT-3.5中。

圖為“圖靈”在2023年6月14日實施行駛測試的情景，應用大語言模型（GPT-3.5）的車輛成功完成了自動駕駛。人對著麥克風說的話，通過語音識別轉換成對大語言模型的指令（提示），大語言模型以此為基礎來確定行動，并實際開動了車輛。

圖為輸入語音提示后，大語言模型根據(jù)這一提示決定了要采取的行動，無視交通引導員的指令而駛向黃色錐桶。

實現(xiàn)自動駕駛不可或缺的功能

具體來說，如何利用大語言模型來實現(xiàn)自動駕駛呢？圖靈認為，要想實現(xiàn)自動駕駛，必須具備“四種功能”“三種學習”“兩種模型”和“一個系統(tǒng)”。

AI識別的行駛途中發(fā)現(xiàn)的標志

AI識別的行駛途中發(fā)現(xiàn)的路標

上圖為AI識別的行駛途中發(fā)現(xiàn)的標志和路標，分為交通標志“traffic sign”、文字“text”、路標的圖標“symbol”三類，并用自然語言表示各自表示的內容，例如禁止進入的標志，就是“No entry”。這是因為通過“圖像-自然語言學習”，把標志等的圖像，和其所表示的內容轉換成語言后的文本，給結合起來了。

從自動駕駛領域延伸到機器人領域，我們同樣能看到AI技術發(fā)揮的巨大作用，機器人技術正借助AI迅速進化。

DrEureka是美國公司英偉達（Nvidia）于2024年5月發(fā)布的AI，是一個創(chuàng)新性研究的范例，它使機器人能夠以柔軟而精確的方式執(zhí)行動作。傳統(tǒng)上，讓機器人通過真實設備開展各種訓練以學習動作，需要耗費大量時間和成本。因此，大多數(shù)研究都采用了從仿真到現(xiàn)實（sim-to-real）的方法，即在計算機虛擬空間中訓練機器人，隨后將其應用到現(xiàn)實世界中。然而，僅僅在虛擬空間中進行訓練是難以完全應對現(xiàn)實世界的復雜環(huán)境的，這一直是一個挑戰(zhàn)。為了解決這個問題，DrEureka采用了一種新方法，即在虛擬空間中隨機改變物理參數(shù)（如摩擦系數(shù)和重力等）來進行學習。這種方法通過從大量動作中篩選出最佳動作，使機器人在現(xiàn)實世界中可以靈活地執(zhí)行動作。

圖為在四足機器人行走的實驗中，即使在類似瑜伽球等不穩(wěn)定的物體上，機器人也能靈活行走并保持平衡。

推動機器人技術進化的AI技術之一，就是如GPT這樣的大語言模型。大語言模型扮演著機器人“大腦”的角色，不僅能理解人類的指令，而且能規(guī)劃完成這些指令所需的具體操作。例如，在接到“請從架子上取來餐具”的指令時，機器人可以規(guī)劃出一整套動作，包括移步至架子、準確抓取餐具、再將其帶回。

另一項關鍵技術，就是視覺語言模型（VLM）。它也是一種AI，能夠通過分析大量數(shù)據(jù)來學習圖像與語言之間的關系，進而識別出與特定詞語相匹配的物體。例如，一臺裝備了視覺語言模型的機器人，當接到“請從架子上取來餐具”這一指令時，它能夠識別出環(huán)境中的架子，并向其移動。視覺語言模型還被應用于圖像生成AI等領域，能夠根據(jù)人類的指令生成多樣化的圖像。