張秋劍 星環科技 金融事業部總監
內容來源:AI 先行者大會《金融知識圖譜的應用與探索》
今天的分享分為以下幾個部分,知識圖譜的實現基礎、理論基礎和技術基礎,還包括三個案例,跟金融都是相關的。
首先講的是實現基礎,這個時間軸貫穿于知識圖譜的前世今生,發展到今天大概50-60年,其中最早誕生的是語義網絡。語義網絡可以理解為,現存的詞匯都是可以串聯起來的,比如說“麻雀是鳥,朱鹮也是一種鳥,朱鹮又是國家一級保護動物,一級國家保護動物包括揚子鱷、大熊貓。大熊貓本身又是哺乳動物?!边@樣就可以對某一領域的知識甚至是全領域的知識,可以通過網絡的方式進行鏈接,這樣就構建了一個語義網絡,它是對知識表示的奠基。
到了80年代,人工智能領域又把哲學中的本體論引入進來,剛才講到的“麻雀”、“鳥”和“朱鹮”等等,需要標識哪些是主體,這樣就引進了本體論。接下來互聯網的誕生,從萬維網誕生到超文本的鏈接,像維基百科,使得互聯網把數據鏈接起來,出現了數據鏈接這樣非常重要的跨越。
這樣非常重要的三段歷程,語義網絡本體論,以及從文本鏈接到數據鏈接,成為構成知識網絡的基礎。Google在2012年推出了全世界第一款知識圖譜的產品。
google對于知識圖譜有一個非常重要的定義,things not strings。過去人們通過搜索引擎獲取大量信息,其中相當多是我們不想要的,當然也包括廣告,甚至有一些噪音。比如搜索“貴州茅臺”,實際上關注的是這只股票,希望在檢索的時候更精準的告訴我們想要的,不要有太多臃腫的知識。Google在自己的知識圖譜里就是這樣去構建的。ppt右下角,在檢索貴州茅臺,會有一個簡單的知識庫的總結,包括實時股價,歸屬,總資產規模,包括子公司等等。更加精準定義我們想要的東西,展現字符串背后隱含的對象和事物。我們的目標就是洞察語義。
簡單回顧了歷史,講了一下知識圖譜的實現基礎,接下來回顧知識圖譜的理論基礎。知識圖譜中很重要的一點就是知識,知識從何而來。過去知識的獲取主要有三種方式。第一種是進化,更多的是人與自然的互馴,在相互馴化的過程中,適者生存,把最先進的知識傳承下去。第二種是經驗,經驗是日常生活中司空見慣的方式,例如“一朝被蛇咬,十年怕井繩”,這就是一個典型的經驗。第三種是文化傳承,從古代的圖騰到近現代的文字、書籍和影像資料等,更廣泛的讓我們獲取知識和傳承知識的方式。
到了近現代,除了前三種方式之外,又有了計算機這種新的方式,計算機能幫我們獲取知識、存儲知識、傳播知識、理解知識。理解知識就是廣義上講的機器學習,包括人工智能。
在計算機去發現知識的方向,過去被廣泛研究的主要是五種方式。第一種方式是填補現有知識的空白,比如填字游戲,根據字母的排列關系把答案填補上去。第二種方式是模仿大腦,例如現在比較火的神經網絡,用機器去構建神經元。第三種方式是模擬進化,主要用在機器人的領域,讓機器人通過自學習自迭代的方式去成長。第四種方式是系統性的減少不確定性,說白了就是統計學,ppt右上角是典型的貝葉斯定理。第五種方式是注意新舊知識之間的相似性,類似svm,精準的去找到一個二分類的方法。
做一下總結,發現知識有五種方式,相對應的是五大學派。統計學就是貝葉斯學派,svm就是類推學派,模擬進化就是進化生物學學派,模仿大腦的就是聯結學派,神經網絡分支。填補現有知識空白是符號學派。其中的理論依據,還是根據基礎學科去做借鑒,比如說統計學、心理學、生物學、腦科學和哲學,同樣用到了很多算法,比如貝葉斯分類器,內推學派主要是svm內核機,進化學派主要是遺傳編碼,神經學派主要是反向傳播,符號學派是逆向演繹。
對應的應用場景,統計學用在風險控制的場景,支持向量機用在推薦類的場景,生物學主要是機器人場景,神經網絡用在深度學習,符號學派有很多專家系統的應用。
關于五大學派,有一本書叫終極算法,不同的學派在某個領域去解決不同的問題,有沒有一種終極算法把這五個合并在一起?可以參考下這本書。
五個學派,模仿人的大腦,模仿人的心,模仿人的智。其實知識圖譜關注的是人類的語言思考以及推理,如何通過機器的方式來實現,構成了知識圖譜的理論基礎。
剛講了理論基礎,這里講講技術,這里用了 nlp的圖片,知識圖譜主要還是在自然語言處理的領域。
這是我總結的知識圖譜全棧,從底層到上層有四層。
最底層是理論層,理論層就是剛才提到的幾個比較關鍵的點,比如說本體論、語義網絡、語義超鏈接、數據鏈接以及知識庫。
在數據層,舉例的都是一些通用的數據源,比如說freebase,這個是google收購了,knowledge vault,這個是google開放的知識圖譜庫,包括維基數據,imagenet等,這些都是公開的,大家從網上能夠查到。
實現層,大概分成六個步驟,分別是知識獲取、知識抽取、知識融合、知識存儲、知識推理、知識建模和知識發現,知識獲取是獲取外部數據的方式,包括爬蟲和實時入庫的技術方法;知識抽取就是,對三元組進行知識的抽取,包括實體抽取、關系抽取和屬性的抽??;知識融合就是,抽取出來之后,存在很多的數據冗余和噪聲,要去做實體的消歧,數據的整合;知識存儲,剛才講了,實際是要構建一個三元組RDF的數據結構,如果把所有的頂點和邊構造出來之后,要對他進行圖數據庫的存儲;知識推理,剛才也講到了,如果要做一些深層次的知識問答,就要做很多的訓練,無論有監督的還是半監督的;知識建模更多的是去理解語義,涉及到屬性的映射,實體的連接;知識發現,兩大主要的應用是知識的檢索和知識的問答。這些構建了知識圖譜的實現層。
再往上就是應用領域,大概分成兩個方向,一個是通用領域,比如搜索引擎、機器人和物聯網等等。在專業領域基本都是行業,例如交通、能源、金融,包括醫療健康。
剛才講的是技術的全棧,這里是解決方案構建的實現路徑。首先就是知識的采集和獲取。現在的數據無非兩塊,內部數據和外部數據。對于外部數據,入庫后要做知識的抽取,主要是對三元組的抽取,實體關系和屬性的抽取。對抽取的知識可以去構建一個簡單的搜索引擎應用。把自然語言處理結合進來之后,就要對知識進行消岐和補全,如果有一些行業屬性數據,要從這里去做補全。融合之后的數據,首先放在類似ES的存儲里邊,通過知識表示,一方面去構建搜索引擎,再一個就是結合知識推理,對知識問答類的應用去產品化,例如siri、微軟小冰和小米音箱。在知識推理這塊,更多的用到了符號學和類推學的算法去實現。對知識表示化后的數據進行深加工,去做關系抽取、屬性映射、實體連接,可以把頂點和邊全部結構化,存儲在圖數據庫里。構建了自己的圖數據庫,可以為行業做一些專用的知識圖譜,比如企業族譜、證券的智能投研和監管科技。
剛才提到了知識圖譜的一些數據源,這里也摘錄了一些信息,比如freebase,Google的knowledge vault等。
剛才講了知識圖譜的構建步驟,對幾個比較抽象的步驟做展開。第一個就是知識抽取,知識抽取就是自然語言理解和知識表示的結合。剛才提到了自然語言處理兩個非常重要的步驟,第一個就是文本的預處理,涉及到數據的清理、降噪、數據的集成、數據的離散化;第二個步驟,就是做分詞、做標注,更深入一點的是做語法的解析和依存度的解析,這個層面實現后做三元組的抽取。把關系、實體和屬性抽取出來。再后邊就是知識表示,實現關系、實體和屬性之間的關聯,構建三元組。
剛才多次提到三元組,到底什么是三元組,一部分是一些概念、實體、語義、內容、屬性。 我們對于語言的理解,主要還是通過主謂賓的方式去構建,主謂賓就是典型的一個三元組,把它應用到知識圖譜就是RDF。RDF有非常多的構建方式,下面舉了兩種例子。一種是實體、關系、實體的方式,一種是實體、屬性、屬性值的方式。舉個例子,某某法人京東,構建了一個非常簡單的三元組,可以理解某某是京東的法人。
舉一個小的案例,這是我們幫一個券商做的企業族譜,如何把上市公司任職的高管關系全部遍歷出來,從源數據庫抽取三張表,分別是高管信息表、任職表、公司信息表。這樣就可以把對應的高管字段、高管任職的字段以及所在的公司屬性字段抽取出來,構建成高管任職關系的三元組。
某某和所有有資金關聯的公司,全部都在上面,有些是法人關系,有些是財務投資,有些是并購,有些是控股。
這是我們幫券商做的應用,每個人都有自己的股票app,當我們去購買某一個個股的時候,個股對應的公司所在的行業,對應的關聯公司,以及個股所在的板塊,板塊對應的上市公司個股,都可以構建為知識圖譜通過app推送給客戶。假設用戶購買的是“蘇寧云商”個股,可以看到行業屬性里,會把“京東”個股關聯進來,它們都屬于互聯網電商行業?!疤K寧”物流這塊就會跟順豐關聯起來?!疤K寧”本身所處的板塊有家電背景,會跟美的、格力關聯,藍色的是關聯公司,橙色的是產品,綠色的是上游,棕色的是下游。
前面講了知識抽取和知識表示,這里簡單講一下圖數據庫。最近兩年圖數據庫非常火,像neo4j、Stellardb、GraphX、TITAN、OrientDB。圖數據庫是知識圖譜非常重要的技術架構,對圖數據庫的存儲、檢索要求越來越高,希望更多去兼容sql語法。現在很難去構建多層屬性,更多的去平鋪,平鋪開之后有個問題,點和邊會非常的多,現在遇到一些案例,上百億個點,上千億條邊。海量的數據,計算引擎怎么設計,比方說現在比較好的分布式計算架構是不是能更好的去優化,包括點邊是否能實現增刪改查,對圖的遍歷能否做到秒級返回,這是我們關注的一些點。
這里對圖數據庫的存儲結構做簡單的展示,目前主流的圖數據庫是通過RDF的方式去構建,GraphX把頂點和邊分別存儲,屬性和屬性值和點邊產生依賴。TITAN把頂點、邊和屬性全部拆分開去構建。Neo4j是RDF去構建,通過指針跳轉的方式去連接,各有千秋。
最后一部分講下案例,今天來的很多講師來自一線互聯網公司,更多關注的是搜索引擎和知識問答這些方面,星環是專門做企業級市場的公司,更多關注的是企業級知識圖譜。
第一個例子是銀行的案例,銀行信貸里擔保鏈的分析。用戶檢索出目前某一個授信企業客戶目前的信貸狀況,可以看到信貸的不良率、是否有違約以及逾期的狀況,這是一個非?;A的信息報表的展示。當我們發現該企業有疑點的時候,就可以去檢查它某一次的授信里面的關聯關系。比如該次授信,企業的擔保人是不是存在一些問題。右邊的知識圖譜中,紅色是我們查閱的實體,實體與它產生的擔保關系就可以全部遍歷出來,和給該企業做擔保的上級是否存在擔保關系。這樣全部都能遍歷出來,在遍歷出來的圖譜可以看到企業是不是存在閉環,或者出現雙向或者交叉的圖形。在過去,人工的方式很難做到,尤其一些體量比較大的銀行,企業的經營范圍面向全國的時候。目前構建企業擔保類的知識圖譜非??欤闅v一個大企業能做到小時級。
這是一個監管科技的應用,這是我們幫銀監會去做的案例,在福建省銀監做的銀監眼的案例。福建省有七個地市,抓一些關鍵性的監控指標,比如存款指標、貸款指標以及不良率的指標、流動性指標 。這是一個應急看板,可以看到有一些關鍵性的數據,比方說不良率、地區的存款分布、房產貸款,橫坐標是地市。
檢索是相對比較復雜的,有疑點提示,指標概覽,當我們去關注某一個疑點的時候,可以做一些篩選,像資金流向、資金空轉、失信被執行等監管科技比較關心的指標,當我們去篩選的時候,把有疑點的一些企業和客戶抓取出來。
深入點擊進去之后,就可以對該企業形成關系圖譜,或者叫對公客戶的客戶畫像。比方跟該企業相關聯的交易關系,可以通過知識圖譜展示出來??招木褪菍嶓w,綠色就是跟企業產生交易的,全部都是有向圖,箭頭指向就是交易的流向。
第三個案例是證券,幫券商去構建的投研平臺,當去搜索個股的時候,除了個股F10的信息之外,還會有研報信息和新聞熱點信息都可以在看板展示。在左下方,幫助個股構建了四類圖譜,第一個是公司圖譜,主要對企業內部,跟企業相關的高管、法人以及股東關系。
產業鏈圖譜,包括物流、家電、電商等。還有所處行業都會做展示。
跟投資相關會比較關注熱度,第一個就是情感分析,比如雪球指數、新浪、股吧。紅色表示反向,藍色表示中性,綠色表示正向。
右邊是情感走勢,可以看到個股在每一個互聯網平臺熱度的變化。這樣就是智能投研的知識圖譜。