論靜態與動態博弈中的邏輯推理
吳新民
摘要:博弈研究的目的是揭示人們互動行為的邏輯規律。不論是雙主體的零和博弈與多主體的非零和博弈,還是不完美信息的靜態、動態博弈與完美信息的靜態、動態博弈,它們的實質都是策略分析與邏輯推理的運用。文章在簡要介紹蓬勃興起的博弈邏輯基礎上,論述了靜態博弈與動態博弈中的邏輯推理。
人類的所有活動,一般只要是互動的行為,都可以看成是博弈行動。早在1911年,數學家策墨洛(E.Iormelo)對下棋進行了一種博弈理論的描述。1912年,數學家波雷爾(E.Borel)開始了矩陣博弈的系統研究,從而證明了在某些情形下,最優混合博弈策略的存在。1928年,博弈論奠基人馮·諾伊曼(Von Neumamn)在一篇論文中提出了當今博弈論的一些基礎概念。1944年,馮·諾伊曼和摩根司特恩(O.Morgonstorn)合著的《博弈論和經濟行為》正式出版,較系統地提出了策略型與廣義型(擴展型)等基本博弈模型解的概念和分析方法,從而奠定了博弈論發展的基石。因此,人們普遍認為博弈論始于1944年。僅就博弈邏輯(Game logic)而言,則是隨著博弈論的迅速發展而形成的一門新興學科,它是一種行為邏輯。
一、零和博弈、博弈邏輯與博弈模型
一談到博弈,人們就會想到輸贏。比如市場就是人們逐利的行為集合,大眾眼中直覺上的消費者與經營者的利益對立與博弈關系,經營者與經營者利益對立與博弈關系,等等。如果把得利放在某一個時點上,就是雙方彼此的經濟競爭,并且以互相挫敗為其目的。這種人際的零和博弈就像棋局或球賽那樣,永遠有勝負而沒有永久的勝負。零和博弈(zero sum game)就是參加者雙方不了解對方所下的決策,待公布雙方的決策后,其中一方根據雙方的決策而對另一方的決策作出的給付(payoff)。也就是說,一方所獲得的恰恰是另一方所失去的,并且二者所得的和等于零。博弈邏輯概念最早是美國紐約城市大學著名教授帕里克于1985年發表的《博弈邏輯及其運用》中提出的。帕里克教授認為,博弈邏輯是命題動態邏輯(PDL)的拓展,他“在命題動態邏輯原有程序算子的基礎上增加對偶算子來建構復雜的二人博弈”[1]。著名的國際邏輯期刊《學習邏輯》(Studia logic)于2003年11月出版了博弈邏輯專刊,其中發表的系列論文概述了博弈邏輯的各種最新研究動態,標志著博弈邏輯作為一個新的研究領域在國際學術界得到了公認。
荷蘭阿姆斯特丹大學約翰·范·本特姆(J.Van Benthem)教授認為,探索社會中多主體的互動時,描述其過程最好的模型就是博弈。他用邏輯體系去研究一般的博弈結構:比如,經濟競爭、社會合作、下棋、足球、戰爭或對話等等,這些一般的博弈活動都涉及理性的參與者在博弈中如何合理地選取策略,或者說,用一種形式化的語言提供精致的結構來描述博弈中的策略均衡。因此,在邏輯與博弈關系上,可以從兩個方向考慮:第一,邏輯中有一些概念本身就具有博弈的性質與結構,從這個意義上講,它可以看成是邏輯所具有的博弈屬性。比如,人們常見的論證就可以看成是一種博弈,由證實者和證偽者參加:證實者認為某個命題P是真的,而證偽者則要對此進行反駁。另外,像賦值、模型構造、模型比較等等也都可以看成是一種博弈;第二,邏輯的技術結果如何應用于對很多有趣的博弈現象的研究。比如,研究理性主體在博弈中如何合理地推理,等等。法國博弈邏輯學者波利認為:博弈邏輯至少能從如下幾個方面來拓展博弈論的研究。首先,博弈邏輯把邏輯運用于關于計算機程序的推理,采用的建模方法不同于標準的博弈論的方法,博弈邏輯建構的博弈網模型能吸引博弈論專家的極大興趣;其次,博弈邏輯為建構博弈模型提供了形式化工具有助于澄清模糊概念,能使給定博弈的推測轉換成對象語言的公式,并給予證明。但是,不論是靜態博弈還是動態博弈都是以有限而確定的代價來博取不確定狀況物為目的。然而,一場博弈的輸贏有沒有規律可循呢?對任意的雙方博弈,是否一方能擁有總贏的策略呢?這就涉及參與人的策略分析與推理運用。
二、信息思維、邏輯推理與納什均衡
人們將思維分為推理和想象兩類,每一類下面又各有不同的分支。因此,當博弈者信息量等于零時,思維就處于停滯狀態,只有當信息量大于零時,思維活動才能開始,信息量越大,思維活動頻率越高。也就是說,博弈參與人的知識因素和非知識因素是相互滲透,相互推進,相互補充,相互制約的,從而形成參與人的思維模式及各種各樣的能力,如決策力、想象力、推理能力等。邏輯學作為研究推理為主的學科,它是對人們現實生活的各方面的推理進行分析、整理和概括所得。由于現實生活豐富多彩,推理也就多種多樣。對這些多樣性的推理總結就得到各種類型的邏輯,它們分別是從現實當中人們在某一領域中所用的推理提煉而成,它們是不同層次的推理,各有不同的特點,分別模擬不同的方面,各自適用不同的對象。因此,盡管推理分為形式推理系統和自然語言的語用推理,它們之間仍有著雙方面的關系:一方面,形式推理接受自然語言推理的檢驗并充實改正自己的不足之處;另一方面,自然語言推理接受形式推理的檢驗,判定直覺的認識是否正確。
推理是由若干命題得出一個新命題的思維形式。從符號演算的角度看,推理指的是按照一定的計劃進行的受控符號過程,該過程與目標以及根據程序規則利用規定的信息有關。英國哲學家霍布斯(Thomas Hobbes,1588—1679)對“推理”的認識是:人類的心靈之光就是清晰的語詞,但首先要用嚴格的定義去檢驗,清除它的含混意義。推理就是步伐,學識的增長就是路,而人類的利益就是目標。人們常說抽象邏輯求知,具體邏輯求利。但具體邏輯也求知,只是不允許在漫無邊際的知識海洋中盲目漫游。也就是說,“一個具體的日常推理,通常是在一定的條件和語境下表述的,大多和現實世界的實際情況有著直接或間接的關系”[2]。因此,在這種意義上講,博弈邏輯是關于確定性的二人博弈的推理,它包含順序合成、選擇、角色互換等,也包括構建有內部結構的復雜博弈的博弈運算等等。博弈論專家預設了博弈參與人具有理性的決策能力。但更為基本的是,博弈論預設了人可以“自由地”選擇策略,即人的意志是自由的。二人零和博弈決不可能是二人互相合作的博弈。因此,要使合作可能性產生,博弈必定至少有三個人以上參加。三人及三人以上的博弈亦可分為兩種類型,其中一種是參加的人可互相合作而形成一種聯盟,另一種是規定不準有聯盟產生,前一種博弈是諾伊曼及摩根司特恩的研究范圍,后一種博弈為數學家納什(JohnF.Nash)所倡導,他將之命名為非合作博弈。納什將參加博弈的人無論如何改變都不能改善其給付值的一組策略稱為平衡點(equilibriumpoint),此博弈也可稱之為混合策略。然而,在二人零和博弈中,對平衡點而言,未必成立,所有的解都會產生相同的值。
三、決策中的靜態博弈與動態博弈
在博弈邏輯研究中,有著兩種綱領:第一,結合模態邏輯系統,建立起新的博弈邏輯系統;第二,研究博弈活動中的實際“推理問題”。換句話說,博弈邏輯研究的是理性人在互動行為中的推理問題。因此,從推理推出的結論是必然,還是或然來劃分的演繹推理與歸納推理,它們都運用于博弈的實際“推理問題”中。由此,人們依據信息分布劃分中的完美信息、不完美信息與推理中的演繹推理、歸納推理相結合,將博弈推理劃分為:不完美信息演繹推理、完美信息演繹推理;不完美信息歸納推理、完美信息歸納推理。如果根據博弈參與者的先后與信息分布狀況的多少來劃分,則博弈可劃分為:靜態博弈與動態博弈。(原作者:吳新民)決策中的靜態博弈是指參與人同時采取行動,或者盡管參與者行動的采取有先后順序,但后行動的人不知道先采取行動的人采取的是什么樣的行動。在靜態博弈中,較典型的有“田忌賽馬”的故事。戰國時期,齊王和大將田忌賽馬,雙方約定從自己的上、中、下三個等級中,選出三匹馬進行比賽,田忌的馬要比齊王同一級的馬差一些,而比齊王等級低一級的馬要強一些。如果用同級的馬對抗,田忌要連輸三局。田忌采用謀士之策,用下馬與齊王上馬對抗(p),輸一局(q)(p→q,p┣q);用上馬與齊王中馬對抗(r),贏一局(s)(r→s,r┣s);用中馬與齊王下馬對抗(t),再贏一局(s)(t→s,t┣s),這樣反而贏(s)多輸(q)少。田忌的謀士之策,除運用充分條件假言推理肯定前件式之外,總體上又運用的是假言聯言推理:設A(下馬對上馬)、B(上馬對中馬)、C(中馬對下馬)、D(實現贏的策略),其推理形式為,A→D, B→D, C→D;A∧B∧C┣ D。值得指出的是:人類實際推理都是動態的,不斷引進新的前提,不斷修正原有的結論,并且信息狀況的分布變化,靜態與動態也不是截然分開的,它們可以互相轉化。博弈者的推理主要表現在博弈者對策略的選擇上,博弈者的策略選取一方面是博弈的結構,另一方面是其他博弈參與人的策略。約翰·范·本特姆(J.Van Benthem)教授認為,一般情況下,博弈邏輯都是研究有限博弈中的推理,而無限博弈則研究人的持續互動行為。
決策中的動態博弈是指雙方的行動可以有先后的順序,并且后采取行動的人可以知道先采取行動的人所采取的行動。如果博弈方對博弈信息及博弈得益情況有完全的了解,那么就是所謂的完全且完美信息博弈。在動態博弈中,求解完美且完全信息動態博弈的解的方法是逆向歸納法。逆向歸納法作為求解動態博弈的方法是有效的,盡管用這樣的方法求得的結果不是我們所期望的,但它是均衡結果,是完全理性的參與人的博弈結果。比如,研究社會合作可能出現情況下的重復囚徒困境模型等。主觀主義者克里斯坦森構造過兩個所謂的大棄賭定義,這兩大棄賭定義雖然把概率論解釋為置信度,又把置信度解釋為公平賭局,但在這個所謂的互動博弈中,仍然運用的是一個演繹推理。大棄賭定義中的雙人大棄賭是:假定我和我的妻子出門購賣東西。我對今天不下雨的置信度是百分之七十五。我的妻子比較保守,她對今天不下雨的置信度是百分之五十。我們倆一同來到賭場,莊家那里我以百分之七十五的公平賭熵,為今天不下雨打賭,因此,我出了3元而莊家出1元。我的妻子以百分之五十公平賭熵,為今天不下雨打賭,由此她和莊家各出2元。盡管這兩個賭博分別對我和妻子來說是公平的,但莊家肯定能從這兩個賭博中贏得1元錢,而無論是否今天下雨。因為,如果今天下雨,莊家贏我3元,輸我妻子2元;如果今天不下雨,莊家輸我1元,贏我妻子2元,由于我和妻子的財產是共有的,這就意味著,我們倆合起來打了一個 “大棄賭”。莊家對博弈的得益情況了如指掌。這里莊家實際上是一個二難推理簡單構成式的運用。如果把天下雨或不下雨視為兩種情況,設A為下雨,設B為不下雨,設C莊家贏。其推理形式為:A→C, B→C;A∨B┣ C。
博弈邏輯研究博弈中的實際“推理問題”,其中演繹推理分為“完全信息靜態博弈中的演繹推理和完全信息動態博弈中的演繹推理”[3]。同樣,互動博弈中的歸納推理,也分為完全信息博弈歸納推理和不完全信息博弈歸納推理。《三國演義》中諸葛亮用空城計對抗司馬懿的靜態博弈,就是不完全信息歸納推理。諸葛亮深知司馬懿謹慎、多疑,在大開城門的情況下必不敢貿然進兵。諸葛亮運用的不完全歸納推理是:S1是P,S2是P,S3是P,……,Sn是P(即一個個司馬懿謹慎、多疑的具體事例),S1,S2,S3……,Sn是S類的部分對象,并且沒有遇到相反的情況,所以,一切S都是P(即只要是司馬懿領兵,必然謹慎、多疑、不敢貿然進兵)。反過來,司馬懿亦知“諸葛一生唯謹慎”,必不敢無伏兵而大開城門,諸葛亮偶爾弄險一次,獲得成功(或者說司馬懿遇到了一個反例)。因此,諸葛亮和司馬懿雙方的心理分析,彼此的博弈對決,實際都運用了不完全歸納推理。值得指出的是,不完全歸納推理的運用,其結論是“或然的”。
四、博弈對局、一般推理與博弈推理
在博弈對局中,常有兩種情況,一是有些知識博弈雙方都知道,但不知道對方是否知道,當然也不知道對方是否知道自己知道不知道;二是有些知識,只有博弈的一方知道,而另一方不知道,即知識是非對稱性的。在這種情況下,就不能使用演繹推理而要使用歸納推理。在進行歸納推理時,每個理性人都保留自己許多的信息模型,當他需要進行選擇時,他選擇當前最可信的那種行為方案,其他的仍然保留,他也可能結合幾種策略行為方案,在這種意義上,演繹推理的結論包含在前提里。比如,在棋類中,象棋博弈是一種完全信息的動態博弈,即雙方的行動可以有先后的順序,并且后采取行動的人可以知道先采取行動的人所采取的行動。而且,象棋博弈的博弈階段和路徑數量不是無窮的,但由于象棋博弈的路徑很大,分支選擇很多,即使用最先進的電子計算機也無法在短時間內找出每步的最優決策。因此,象棋比賽中不可能有人一開始就用逆推歸納下棋。然而實踐卻表明,下棋人往往在象棋博弈的局部階段,即在有限步數,有限選擇的范圍內局部地使用逆推歸納法。因此,下棋人有“下一步,看三步”的說法。當然,“動態博弈過程,如同靜態博弈,也是一個推理過程”[4]。但逆推歸納法主要適用于完全且完美信息的動態博弈。逆推歸納法只能分析明確設定的博弈問題,它要求各個博弈方了解博弈結構,且相互知道對方了解博弈結構。換句話說,動態博弈中的推理主要運用的是溯因推理。溯因推理是根據已觀察現象去猜測其內在機理的思維形式,在邏輯結構上包括兩個要素:第一是觀察現象陳述;第二是導致觀察現象的可能原因,即作為猜測性的假說。如果用E表示觀察現象的陳述,用H表示猜測性的假設,那么溯因推理可以用公式表示為:E,H→E∥∴H。這里“∥”表示前提與結論之間的邏輯聯系只是或然的。如果我們對博弈當事人之間長期互動的性質進行考察,就可以發現博弈的不同階段是相互依賴的,其結果是理性博弈當事人的決策,不僅受到其過去經歷的影響,而且還要受未來潛在可能性的影響。現實生活的許多行為模式,比如獎勵、懲罰、傳送與泄漏信息等等,都可以看成是多階段的動態博弈。而在動態博弈中,最重要的是重復博弈,也就是同樣結構的博弈重復多次,如一個行業被多家寡頭所壟斷,那么他們之間的競爭,就是一個重復性的動態博弈。其中的每次博弈又稱為“階段博弈”。而且,在動態博弈中的重復博弈,既可以是完全信息的重復博弈,也可以是不完全信息的重復博弈。
“你輸即我贏”的博弈是雙主體的零和博弈的特征,比如,商戰中的期貨交易等等。這種情形同樣適用于國際象棋,但要稍加修改:對于國際象棋的博弈雙方,或者一方擁有總贏策略,或者一方有不輸的策略。這種博弈是一種完美信息博弈,因為玩家在任何時候都知道自己在博弈中所處的位置。不過,完美信息的博弈只是博弈中的一種,大量存在的是不完美信息博弈,因為很多時候一方并不知道另一方的信息,但博弈卻仍將繼續。比如,在軍事斗爭中,我國古代軍事家孫武提出的“踐墨隨敵,以決戰事”(《孫子兵法·九地篇》),就是強調實施計劃要隨著敵情的變化而不斷地加以改變,以求戰爭勝利。在孫武看來“能因敵變化而取勝者,謂之神”(《孫子兵法·虛實篇》),這恰如不完全信息動態博弈的特征,當一方對另一方的行動作出應對時,博弈的一方可以從對手的行動中推斷出有關的信息,“兩將相持,必有所測” (《兵經百篇·測》),這里的“測”就是“推理”。博弈中理性參與人如何使自己的“得益”最大,關鍵仍然是如何運用“推理”。即博弈邏輯研究綱領的第二種,研究博弈活動中的實際“推理問題”的推理。在這種邏輯研究綱領之下,博弈邏輯中博弈人運用的邏輯推理,與一般邏輯運用中的邏輯推理基本一樣,不同之處在于:一般邏輯運用中的邏輯推理是人們在進行推理時,所運用的前提假設是靜止的,不變的;而在博弈邏輯中,博弈人運用的邏輯推理,其前提假設是,既有靜止的,也有動態的。(原作者:吳新民)法國邏輯學者波利曾運用博弈論和社會選擇理論,建立起博弈邏輯的一般語義模型。雖然波利的博弈邏輯研究尚需深入,但他涉及廣泛,不僅有完美信息條件下對雙主體零和博弈的推理問題與多主體非零和博弈中的推理問題的研究,而且對不完美信息條件的非零和博弈以及非合作博弈等問題也進行了探討。如果從認知推理“模型”、建立新的博弈邏輯系統的角度, 即博弈邏輯研究綱領的第一種來看, 那么邏輯又在自然性、清晰性、通用性三大特征支持之下,為建構智能新系統提供良好的知識庫基礎。正如約翰·范·本特姆教授所說:我常常從兩個角度考察問題,像格式塔轉換一樣。可以說,隨著邏輯分析手段的提高,任何可以被表達的對象都可以用一階邏輯表達。然而,最有趣味的是那些含有量詞的公式,其思想是:邏輯中的聯結詞正好對應于博弈中玩家的各種行為。如果一個邏輯公式是析取式,那么它對應于博弈中證實者的選擇行為,他可以選擇其中的一個析取支,博弈繼續進行;同理合取式則對應于證偽者的選擇行為;否定式則對應于博弈雙方的角色互換;存在量詞對應于證實者從論域中挑選一個對象,全稱量詞則對應于證偽者的挑選行為,如此等等。
五、邏輯推理的預測功能與博弈的廣泛運用
“推理”是一種形式化的符號表達式,同系統的物理狀態相對應的某些要素的離散態的排列,而且,所有與系統有關的語義內容都依靠深層的符號表達式及其變換形式和符號關系結構來規定,它是一種計算。因此,在所有的博弈對局中,人們的心智與計算,都是參與人的策略分析與推理運用。除此,邏輯推理的預測功能也表現在為現代人的超前意識服務,使人們能夠根據事物發展變化的規律,從現實中引申未來的思維圖景,或者說,參與人博弈的“得益”狀況。法國邏輯學者波利,在談到推理論證的功能時認為:一個數學上的證明是證明推理,借助它們來肯定我們的數學知識,而物理學家的歸納論證,歷史學家的史料論證和經濟學家的統計論證,都屬于合情推理之列。可以說,關于現象在博弈中某一狀態的描述,這只是對博弈的一種“內在的”(internal)研究;與此同時,人們還可以從“外在的”(external)角度來研究博弈。如,對無窮博弈、博弈之間的等價性、序列的博弈構造運算等問題的研究等等,這些不僅能夠表達整個博弈,而且還可以表達博弈與博弈之間的關系,以及博弈的其他屬性。另外,關于博弈中均衡、理性等概念的邏輯探討,對于博弈理論本身的發展也有很大啟發。博弈理論無論在數學原理或實際應用上都仍在發展中,可以期待,隨著博弈在社會、經濟等領域的廣泛運用,對博弈邏輯的研究也會更加深入。
參考文獻
[1] 張峰.邏輯學的新分支——博弈邏輯研究現狀分析[J].哲學動態,2005,(2).
[2] 吳新民.自然語言邏輯預設問題探究[J].北方論叢,2005,(1).
[3] 賀壽南.博弈視野中的邏輯推理問題[J].科學技術與辯證法,2003,(3).
[4] 潘天群.博弈行為中的演繹與歸納推理及其問題[J].自然辯證法研究,2003,(3).
[責任編輯 付洪泉]
牛bb文章網(www.niubb.net)歡迎您轉載分享,并保留本站鏈接地址;
如需在文中注明原作者或者刪除這篇由網友熱心分享的文章,請附具體文章標題、作者郵件聯系bianji愛特niubb.net。