- +1
復(fù)雜決策|ABM+機(jī)器學(xué)習(xí):如何理解終局之戰(zhàn)?
現(xiàn)實(shí)世界中的諸多場(chǎng)景,從古代的田忌賽馬到現(xiàn)代的核威懾、越南戰(zhàn)爭(zhēng)及俄烏沖突,都可以認(rèn)為是典型的博弈場(chǎng)景。在馮·諾伊曼和奧斯卡·摩根斯特恩的《博弈論與經(jīng)濟(jì)行為》奠定其理論研究基礎(chǔ)之后,博弈論作為一個(gè)重要的分析工具,在眾多學(xué)科和領(lǐng)域中都得到了廣泛的應(yīng)用。
不過(guò),即便在“玩”博弈模型的專(zhuān)業(yè)人士看來(lái),目前絕大部分的博弈論模型都只是具有啟發(fā)作用的“玩具”。這其中核心的原因是博弈論通常研究的都是高度簡(jiǎn)化了的“常規(guī)博弈”問(wèn)題,而真實(shí)世界里的博弈情形卻是非常復(fù)雜的。
“常規(guī)博弈”場(chǎng)景所描繪的是相對(duì)簡(jiǎn)單、規(guī)則明確的場(chǎng)景,通常包含2到3個(gè)行為體,在享有“共同知識(shí)”(common knowledge)的情景下進(jìn)行博弈。從各種棋類(lèi)游戲(象棋、圍棋),到“囚徒困境”等等,都是規(guī)則確定的常規(guī)博弈。對(duì)于這類(lèi)博弈問(wèn)題,我們通常的做法是去求它們數(shù)學(xué)上的均衡解,從而幫助我們理解這些問(wèn)題。在均衡解下,每個(gè)行為體的行為都是最優(yōu)策略,即任何一方都不可能通過(guò)單方面改變策略而獲得更好的結(jié)果。
但是,一旦博弈場(chǎng)景變得非常復(fù)雜,特別是博弈規(guī)則不太明確時(shí),“常規(guī)博弈”的求解就會(huì)十分復(fù)雜——沒(méi)有均衡解或者有太多的均衡解,因而難以理解。
以田忌賽馬的故事為例。如果田忌和齊威王各自有15匹馬,可以任意組合,但不能重復(fù)使用。比賽分為五輪,而且每一輪之后雙方都可以根據(jù)上一輪的結(jié)果來(lái)調(diào)整策略,則該博弈的復(fù)雜度將呈指數(shù)級(jí)增長(zhǎng)。但這也僅僅是一個(gè)稍顯復(fù)雜的博弈問(wèn)題,而且是有雙方均接受的明確規(guī)則作為“共同知識(shí)”的博弈問(wèn)題。
何謂“非常規(guī)復(fù)雜戰(zhàn)略博弈”?
現(xiàn)實(shí)國(guó)際政治中的博弈場(chǎng)景,遠(yuǎn)遠(yuǎn)比傳統(tǒng)博弈復(fù)雜得多。絕大多數(shù)時(shí)候,這些博弈不僅涉及多個(gè)行為體、多種行為和行為規(guī)則,行為交互作用規(guī)則也呈多樣話(比如,不一定是你來(lái)我往),甚至由于行為體需要考慮多個(gè)方面的得失,因此權(quán)衡得失也非常困難。
最為重要的是,這類(lèi)博弈問(wèn)題通常還缺乏“共同知識(shí)”。也就是說(shuō),博弈的規(guī)則是不確定的,至少是不完整的。我們知道,任何棋類(lèi)都是規(guī)則非常明確而且雙方必須遵守的。這些非常明確且雙方必須遵守的規(guī)則就是這類(lèi)博弈問(wèn)題中的核心的“共同知識(shí)”,也是這類(lèi)博弈得以進(jìn)行的核心基礎(chǔ)。
相比之下,國(guó)際關(guān)系博弈往往不那么明確,不論過(guò)去朝鮮戰(zhàn)爭(zhēng)的停戰(zhàn)談判、越南戰(zhàn)爭(zhēng)的日內(nèi)瓦談判,還是眼下俄烏戰(zhàn)爭(zhēng)可能的和談,都是多方多輪的博弈。參與各方均有“陰謀”與“陽(yáng)謀”,而且手段大概率是“灰色”的(例如爾虞我詐、盟友背后捅刀等等),甚至談判參與方也會(huì)發(fā)生變化。各方都試圖“出奇制勝”,甚至可以說(shuō)毫無(wú)規(guī)則可言,導(dǎo)致博弈更具不確定性。
顯然,國(guó)際政治的博弈場(chǎng)景和博弈論通常討論的博弈情形和模型有著天壤之別。這樣的博弈問(wèn)題幾乎不可能有一個(gè)完整的數(shù)學(xué)刻畫(huà),因而也不可能有數(shù)學(xué)均衡解。我們將這類(lèi)博弈稱(chēng)為“非常規(guī)復(fù)雜戰(zhàn)略博弈”。而戰(zhàn)爭(zhēng)是最為復(fù)雜的非常規(guī)博弈問(wèn)題,《孫子兵法》所謂“兵者,詭道也”恰恰道出了非常規(guī)博弈的核心原則。
需要特別指出的是,非常規(guī)博弈與受同一行為體(或者指揮官)指揮的個(gè)體或者智能體(如無(wú)人機(jī))之間的“協(xié)同”也是非常不同的。
總之,傳統(tǒng)博弈論是無(wú)法有效解決“非常規(guī)復(fù)雜戰(zhàn)略博弈”問(wèn)題的。面對(duì)“非常規(guī)復(fù)雜戰(zhàn)略博弈”問(wèn)題,我們亟需超越傳統(tǒng)博弈論的框架,探索新的理論工具與分析方法。
ABM+機(jī)器學(xué)習(xí):非常規(guī)復(fù)雜博弈的解決方案
我們認(rèn)為,要處理“非常規(guī)復(fù)雜戰(zhàn)略博弈”問(wèn)題,以基于行為體的建模(Agent-Based Modelling,ABM)系統(tǒng)為核心,再結(jié)合強(qiáng)化學(xué)習(xí)以及其他的機(jī)器學(xué)習(xí)技術(shù),可能是一種可行的解決方案。
ABM模型擅長(zhǎng)模擬多個(gè)行為體之間復(fù)雜的互動(dòng)導(dǎo)致的涌現(xiàn)性結(jié)果,而強(qiáng)化學(xué)習(xí)則為ABM中的行為體提供了更加有效的自我學(xué)習(xí)的基礎(chǔ),因而有助于我們更好地理解和預(yù)測(cè)博弈的可能結(jié)果。
事實(shí)上,ABM從一開(kāi)始就受到了博弈論和演化思想的影響。馮·諾伊曼不僅是博弈論的奠基人之一,還發(fā)展了第一個(gè)ABM系統(tǒng)的雛形——“通用構(gòu)造器”(Universal Constructor)或“元胞自動(dòng)機(jī)”(Cellular Automata)。
世界上第一個(gè)社會(huì)科學(xué)領(lǐng)域的ABM系統(tǒng),是1971年托馬斯·謝林關(guān)于種族隔離的著名研究。而謝林本人因?yàn)閷?duì)非合作博弈論的貢獻(xiàn),于2005年與羅伯特·奧曼一起獲得諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)?;谝粋€(gè)簡(jiǎn)單的ABM模型,謝林發(fā)現(xiàn),在一個(gè)有多個(gè)行為體(住戶(hù))的社區(qū)中,盡管各自的行為相對(duì)簡(jiǎn)單,且每個(gè)行為體都不是“種族主義者”,但種族隔離現(xiàn)象仍然會(huì)產(chǎn)生。這樣的涌現(xiàn)性結(jié)果顯然是常規(guī)博弈模型無(wú)法呈現(xiàn)的。
受此啟發(fā),我們認(rèn)為可行的研究路徑是:可以秉承某些常規(guī)博弈論的思想,為非常規(guī)復(fù)雜戰(zhàn)略博弈進(jìn)行建模,然后主要依賴(lài)ABM來(lái)探索其可能的結(jié)果,即通過(guò)多次(大于100次,甚至更多)模擬,基于不同的參數(shù)甚至方程系統(tǒng),模擬不同行為、行為規(guī)則、互動(dòng)規(guī)則的多種組合下的復(fù)雜博弈結(jié)果,來(lái)獲得不同博弈結(jié)果及中間狀態(tài)的概率分布,從而加深對(duì)博弈系統(tǒng)的理解。
與絕大多數(shù)其他社會(huì)科學(xué)方法或技術(shù)相比,ABM具有極高的靈活性。在構(gòu)建ABM時(shí),研究者一般會(huì)對(duì)行為體、行為、行為規(guī)則、互動(dòng)規(guī)則、系統(tǒng)環(huán)境等先做設(shè)定,而且這些設(shè)定通常都不是固定數(shù)值,而是某個(gè)區(qū)間。在經(jīng)過(guò)多輪模擬之后,我們可以通過(guò)更改這些設(shè)定來(lái)創(chuàng)建數(shù)量巨大的相鄰模型,然后基于驗(yàn)證(validation)和校準(zhǔn)(calibration),ABM可以靠修改方程和參數(shù)調(diào)參來(lái)迅速篩選出更符合實(shí)際世界的模型。
針對(duì)非常規(guī)復(fù)雜戰(zhàn)略博弈的ABM建模思路大致如下:我們首先需要基于相應(yīng)的歷史或現(xiàn)實(shí)案例,從中抽象、提煉出行為體特征、環(huán)境特征和其他初始設(shè)定;其次結(jié)合專(zhuān)家知識(shí),大致明確行為矩陣;然后是讓系統(tǒng)在各種行為規(guī)則、互動(dòng)規(guī)則的制約下不斷運(yùn)行,系統(tǒng)狀態(tài)也會(huì)隨之不斷更新;通過(guò)多次模擬和不斷驗(yàn)證和校準(zhǔn),最終獲得可靠的不同博弈結(jié)果及中間狀態(tài)的概率分布。有了這樣的結(jié)果,我們便能倒推在特定博弈場(chǎng)景中,博弈各方的行為策略和特定的行為。
構(gòu)建ABM基礎(chǔ)系統(tǒng)之后,我們還可以納入“部分可觀測(cè)馬爾可夫決策過(guò)程(POMDP)”來(lái)刻畫(huà)行為體與環(huán)境(包括系統(tǒng)中其他所有的行為體)的交互關(guān)系,并用強(qiáng)化學(xué)習(xí)技術(shù)來(lái)評(píng)估行為體策略?xún)r(jià)值,擬合優(yōu)化行為體決策偏好。
部分可觀測(cè)馬爾可夫決策過(guò)程是一類(lèi)復(fù)雜的決策模型,往往用于在不確定性情境中生成決策。其主要組成要素包括:環(huán)境狀態(tài)、行為體的行為空間、 狀態(tài)轉(zhuǎn)移概率、行為獎(jiǎng)勵(lì)、觀測(cè)空間、獎(jiǎng)勵(lì)的衰減系數(shù)等。
強(qiáng)化學(xué)習(xí)是使行為體通過(guò)與環(huán)境的互動(dòng)來(lái)學(xué)習(xí)最佳策略的方法。與其他機(jī)器學(xué)習(xí)技術(shù)不同,強(qiáng)化學(xué)習(xí)特別關(guān)注不確定和動(dòng)態(tài)環(huán)境下的決策,所以特別適用于探索模擬博弈場(chǎng)景中的策略。其基本邏輯是:在每個(gè)時(shí)間點(diǎn)中,行為體接收到當(dāng)前的狀態(tài)St和獎(jiǎng)勵(lì)Rt;行為體從可做出的行為列表中,根據(jù)策略函數(shù)選擇出行為At,接著發(fā)送給環(huán)境模型;然后環(huán)境模型根據(jù)接收的行為通過(guò)轉(zhuǎn)移函數(shù)轉(zhuǎn)移到下一狀態(tài)St+1和獎(jiǎng)勵(lì)Rt+1,以此循環(huán)往復(fù)。
強(qiáng)化學(xué)習(xí)的目的是讓行為體學(xué)習(xí)并找到最優(yōu)或接近最優(yōu)的行為策略方法,以此最大化獎(jiǎng)勵(lì)收益。強(qiáng)化學(xué)習(xí)的演化性和動(dòng)態(tài)性使我們能夠探索行為體在復(fù)雜博弈場(chǎng)景中的決策及策略偏好變化,并為ABM的驗(yàn)證與校準(zhǔn)提供支持。這種結(jié)合將幫助我們更好地把握系統(tǒng)的不同狀態(tài)及其概率分布。
值得一提的是,非常規(guī)復(fù)雜戰(zhàn)略博弈幾乎不可能存有大量數(shù)據(jù),因此,高度依賴(lài)大規(guī)模數(shù)據(jù)的機(jī)器學(xué)習(xí)的做法并不適用。針對(duì)這類(lèi)博弈問(wèn)題,我們需要的不是“大數(shù)據(jù)”而是“全數(shù)據(jù)”計(jì)算的思路,即基于問(wèn)題來(lái)思考數(shù)據(jù)和技術(shù)路徑的思路。
總之,對(duì)于多個(gè)國(guó)家之間戰(zhàn)略層面的多回合博弈,常規(guī)博弈論的數(shù)學(xué)求解方法已經(jīng)顯得力不從心。因此,針對(duì)這樣的復(fù)雜場(chǎng)景,我們只能發(fā)展基于博弈論核心思想的大規(guī)模高性能ABM系統(tǒng),來(lái)捕捉復(fù)雜博弈所導(dǎo)致的各種復(fù)雜狀態(tài)及其概率分布,并進(jìn)一步反推不同行為體的行為、行為規(guī)則等等,從而實(shí)現(xiàn)對(duì)非常規(guī)復(fù)雜戰(zhàn)略博弈的更全面的理解與應(yīng)對(duì)。
總結(jié)
國(guó)家在國(guó)際大環(huán)境下面對(duì)的博弈基本都是多方多輪的非常規(guī)復(fù)雜戰(zhàn)略博弈問(wèn)題。要更好地應(yīng)對(duì)這些博弈問(wèn)題,我們需要突破傳統(tǒng)的博弈建模方法,特別是突破“共同知識(shí)”對(duì)傳統(tǒng)博弈建模的禁錮,從而構(gòu)建非常規(guī)復(fù)雜戰(zhàn)略博弈的模型,并運(yùn)用大規(guī)模高性能的ABM來(lái)推演這類(lèi)非常規(guī)復(fù)雜戰(zhàn)略博弈問(wèn)題。這樣才能夠最終實(shí)現(xiàn)讓博弈建模從理論模型(“玩具”)到真實(shí)場(chǎng)景應(yīng)用的決定性轉(zhuǎn)變。
-----
唐世平,系復(fù)旦大學(xué)教授、復(fù)雜決策分析中心主任。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




