概率圖模型是在概率模型的基礎上,使用了基于圖的方法來表示概率分布,是一種通用化的不確定性知識表示和處理方法,在人工智能、機器學習和計算機視覺等領域有廣闊的應用前景。
根據圖模型的邊是否有向,概率圖模型通常被劃分為有向概率圖模型和無向概率圖模型,概率圖模型可以表示如下所示的樹形結構。
有向圖(Digraph): 若圖G的關系集合E(G)中,頂點偶對<v,w>的v和w之間是有序的,稱圖G是有向圖。
有向圖
無向圖(Undigraph): 若圖G的關系集合E(G)中,頂點偶對<v,w>的v和w之間是無序的,稱圖G是無向圖。
無向圖
在概率圖模型中,數據(樣本)由公式G=(V,E)建模表示:
· V表示節點,即隨機變量(放在此處的,可以是一個token或者一個label),具體地,用Y=(y1,y2…yn)為隨機變量建模,注意Y現在是代表了一批隨機變量(想象對應一條sequence,包含了很多的token), P(Y)為這些隨機變量的分布;
· E表示邊,即概率依賴關系。
生成式模型(或稱產生式模型)與區分式模型(或稱判別式模型)的本質區別在于模型中觀測序列x和狀態序列y之間的決定關系,前者假設y決定x,后者假設x決定y。
生成式模型以狀態序列y按照一定的規律生成觀測序列x為假設,針對聯合分布p(x,y)進行建模,并且通過估計使生成概率最大的生成序列來獲取y。生成式模型是所有變量的全概率模型,因此可以生成所有變量的值。在這類模型中一般都有嚴格的獨立假設,特征是事先給定的,并且特征之間的關系直接體現在公式中。
這類模型的優點是:處理單類問題時比較靈活,模型變量之間的關系比較清楚,模型可以通過增量學習獲得,可用于數據不完整的情況。其弱點在于模型的推導和學習比較復雜。
典型的生成式模型有:n元語法模型、HMM、樸素貝葉斯分類器、概率上下文無關文法等。
判別式模型符合傳統的模型分類思想,認為y(狀態序列)由x(觀測序列)決定,直接對后驗概率p(y|x)進行建模,它從x中提取特征,學習模型參數,使得條件概率符合一定形式的最優。
這種模型的優點是:處理多分類問題或分辨某一類與其他類之間的差異比較靈活,模型簡單,容易建立和學習。其弱點在于模型的描述能力有限,變量之間的關系不清楚,而且大多數判別式模型是有監督的學習方法,不能擴展成無監督學習方法。
典型的判別式模型有:最大熵模型、條件隨機場、支持向量機、最大熵馬爾可夫模型、感知機等。
動態貝葉斯網絡(DBN)用于處理隨時間變化的動態系統中的推斷和預測問題。其中,隱馬爾科夫模型(HMM)在語音識別、漢語自動分詞與詞性標注和統計機器翻譯等若干語音語言處理任務中得到了廣泛應用;卡爾曼濾波器則在信號處理領域有廣泛的應用。
馬爾可夫網絡下的條件隨機場廣泛應用于自然語言處理中的序列標注、特征選擇、機器翻譯等任務,玻爾茲曼機近年來被用于依存句法分析和語義角色標注等。
下圖從縱橫兩個維度詮釋了概率圖模型的演變過程。橫向:由點到線(序列結構)、到面(圖結構)??v向:在一定條件下生成式模型轉變為判別式模型,樸素貝葉斯演變為邏輯回歸,隱馬爾可夫模型演變為線性鏈式條件隨機場,生成式有向圖模型演變為通用條件隨機場。