精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
行業知識圖譜的構建及應用

目錄

  • 一、知識圖譜的機遇與挑戰▌知識圖譜上半場 1. 傳統知識工程2. 大數據知識工程3. 大數據知識工程到底解決了哪些問題?▌知識圖譜下半場 1. 應用場景轉變2. 新的趨勢3. 機遇4. 應對策略

  • 二、行業知識圖譜的構建與應用1. 知識圖譜整體結構描述2. 知識建模3. 知識抽取4. 知識融合5. 知識存儲6. 知識計算7. 知識應用8. 知識圖譜的自動構建


【說在前面】本人博客新手一枚,象牙塔的老白,職業場的小白。以下內容僅為個人見解,歡迎批評指正,不喜勿噴![認真看圖][認真看圖]

【補充說明】如果你對知識圖譜感興趣,歡迎先瀏覽我的另一篇隨筆:基于圖模型的智能推薦算法學習筆記

一、知識圖譜的機遇與挑戰

分享一下肖仰華教授的報告。報告深度剖析知識圖譜的發展進程,系統整理知識圖譜上半場的主要成果,分析知識圖譜下半場的挑戰與機遇,以期為各行業的認知智能實踐帶來有益的參考。

▌知識圖譜上半場1. 傳統知識工程

2. 大數據知識工程

① 大規模簡單知識表示

② 知識獲取

③ 基于知識圖譜的簡單推理

3. 大數據知識工程到底解決了哪些問題?

① 語言表達鴻溝

② 缺失的因果鏈條

③ 碎片化數據的關聯與融合

④ 深化行業數據的理解與洞察

⑤ 顯著提升了機器的自然語言理解水平

⑥ 基于知識圖譜的大規模知識服務

⑦ 知識圖譜可視化已大量應用

⑧ 大數據知識工程理論體系日趨完善

▌知識圖譜下半場1. 應用場景轉變

2. 新的趨勢

① 繁雜的應用場景

② 深度的知識應用

③ 密集的專家知識

④ 有限的數據資源

3. 機遇

4. 應對策略

知識表示方面:

① 與其他知識表示的協同表示與推理

② 知識圖譜的多模態表示

③ 知識圖譜的個性化表示

知識獲取方面:

① 發展低成本知識獲取方法

② 注重多粒度知識獲取

③ 發展大規模常識知識獲取

④ 復雜知識獲取機制與方法

知識應用方面:

① 知識圖譜應用透明化

② 基于知識圖譜的可解釋人工智能

③ 發展符號知識指導下的機器學習模型

▌總結

二、行業知識圖譜的構建與應用

分享一下PlantData的文章:行業知識圖譜構建與應用。

1. 知識圖譜整體結構描述

知識圖譜結構拓撲圖如圖所示:

企業全量數據應用挑戰及應對策略:

(1)多源異構數據難以融合

使用知識圖譜(本體)對各類數據建模,基于可動態變化的數據模型(概念-實體-屬性-關系),實現統一建模。

(2)數據模式動態變遷困難

使用可支持數據模式動態變化的知識圖譜的數據存儲。

(3)非結構化數據計算機難以理解

利用信息抽取技術。

(4)數據使用專業程度過高

(5)分散的數據難以統一消費利用

在知識融合的基礎上,基于語義檢索、知識問答、圖計算、推理、可視化等技術,提供數據檢索/分析/利用,統一平臺。

2. 知識建模

(1)以實體為主體目標,實現對不同來源的數據進行映射與合并。(實體抽取與合并)

(2)利用屬性來表示不同數據源中針對實體的描述,形成對實體的全方位描述。(屬性映射與歸并)

(3)利用關系來描述各類抽象建模成實體的數據之間的關聯關系,從而支持關聯分析。(關系抽?。?/p>

(4)通過實體鏈接技術,實現圍繞實體的多種類型數據的關聯存儲。(實體鏈接)

(5)使用事件機制描述客觀世界中動態發展,體現事件與實體間的關聯;并利用時序描述事件的發展狀況。(動態事件描述)

知識建模工具:Protégé(本體編輯器,較局限)

3. 知識抽取

知識抽取的主要策略如圖所示(針對結構化、半結構化、非結構化數據的處理方式不同):

知識抽取中的文本信息抽取,主要包括:實體識別、關系抽取、事件抽取、概念抽取。信息抽取主要有兩大類工具:

  • OpenIE:面向開放領域抽取信息、關系類型事先未知、基于語言學模式進行抽取、規模大、精度相對較低。典型工具:ReVerb、TextRunner(準確率低,實用性不強,一般不用)

  • CloseIE:面向特定領域抽取信息、預先定義好抽取的關系類型、基于領域專業知識抽取、規模小、精度比較高。典型工具:DeepDive(主要是針對實體識別,缺乏對關系/事件/概念的抽?。?/p>

非結構化文本數據的處理包括以下步驟:

  • 分詞、詞性標注、語法解析、依存分析

  • NER命名實體識別、實體鏈接

  • 關系抽取、事件抽取

其中,事件抽取可以分為預定義事件抽取和開放域事件抽取,行業知識圖譜中主要為預定義事件抽取。采用模式匹配方法,包括三個步驟:

  • 準備事件觸發詞表

  • 候選事件抽?。簩ふ液杏|發詞的句子

  • 事件元素識別:根據事件模版抽取相應的元素

還有基于機器學習模型的抽?。篠VM、邏輯回歸、CRF、LSTM等:

補充說明,關于知識表示,歡迎先瀏覽我的另一篇隨筆:基于圖模型的智能推薦算法學習筆記,這里不再贅述。

  • 基于數理邏輯的知識表示:RDF(資源描述框架)、OWL(RDF Schema 的擴展)、SPARQL(RDF查詢語言)

  • 基于向量空間學習的分布式知識表示:Rescal、NTN、TransE(Embedding)

4. 知識融合

(1)數據層融合:實體鏈接技術

即等同性判斷:給定不同數據源中的實體,判斷其是否指向同一個真實世界實體(實體屬性與關系的合并)。

  • 基于實體知識的鏈接

  • 基于篇章主題的鏈接

  • 融合實體知識和篇章主題的鏈接

實體鏈接工具:Wikipedia Miner、DBpedia Spotlight等,大部分都是針對百科類的知識庫工作的,基本不支持中文的處理。

(2)語義描述層融合:Schema Mapping

  • 概念上下位關系合并

  • 概念的屬性定義合并

當然還有一些別的需要考慮,例如多源知識融合、沖突檢測與解決、跨語言融合、知識驗證等。

例如,通過人機交互接口對錯誤信息進行人工糾正,并以此作為種子案例,通過強化學習加強模型的識別精度和魯棒性。

5. 知識存儲

知識圖譜是基于圖的數據結構,其存儲方式主要有兩種方式:RDF存儲圖數據庫。

  • 基于關系數據庫的存儲

  • 基于原生圖的存儲

  • 基于混合存儲

下面展示各大圖數據庫的對比:

6. 知識計算

(1)基于圖論的相關算法:

  • 圖遍歷:廣度優先遍歷、深度優先遍歷

  • 最短路徑查詢: Dijkstra(迪杰斯特拉算法)、Floyd(弗洛伊德算法)

  • 路徑探尋:給定兩個或多個節點,發現它們之間的關聯關系

  • 權威節點分析:PageRank算法

  • 族群發現:最大流算法

  • 相似節點發現:基于節點屬性、關系的相似度算法

(2)本體推理:使用本體推理進行新知識發現或沖突檢測。

  • 基于表運算及改進的方法:FaCT 、Racer、Pellet Hermit等

  • 基于一階查詢重寫的方法(Ontology based data access,基于本體的數據訪問)

  • 基于產生式規則的算法(如rete):Jena 、Sesame、OWLIM等

  • 基于Datalog轉換的方法:KAON、RDFox等

  • 回答集程序Answer set programming

本體知識推理工具:RDFox。

(3)基于規則的推理:使用規則引擎,編寫相應的業務規則,通過推理輔助業務決策。

  • 在知識圖譜基礎知識的基礎上,專家依據行業應用的業務特征進行規則的定義。

  • 引擎基于基礎知識與所定義的規則,執行推理過程給出推理結果。

基于規則推理工具:Drools 規則定義。

7. 知識應用

智能問答(基于語義解析的方法 基于信息檢索的方法)、語義搜索(基于實體鏈接)、可視化決策支持(D3.js、ECharts)等。

舉例金融業的基于知識圖譜的風險管理:

  • 知識獲取部分:需要內部 外部,需要特別注意完整性原則(信息不對稱是很多風險的根源)

  • 知識融合部分:需要內部 外部,需要特別注意準確性原則(本體一致性、數據標準統一性、本地表現狀態一致性)

  • 知識計算部分:需要特別注意適用性原則

  • 知識應用部分:人機交互接口 貸款全流程:有效控制貸款準入、提升貸款決策有效性審批額度時:防止多頭授信、規避關聯企業互相擔保貸后監控中:檢測資金流入關聯企業、參與民間借貸保金過程中:識別企業的關聯資產、彌補損失

8. 知識圖譜的自動構建

可構建的圖譜:例如公司圖譜、產品圖譜、?物圖譜、智能預警等。在行業應用中使用知識圖譜,大致有如下幾種方式:

  • 可以使用現有的套裝工具,在現有套裝工具的基礎上進行擴充:LOD2、Stardog

  • 可以使用各生命周期過程中的相應工具進行組合使用,針對性開發或擴展生命周期中特定工具

如果您對異常檢測感興趣,歡迎瀏覽我的另一篇博客:異常檢測算法演變及學習筆記

如果您對智能推薦感興趣,歡迎瀏覽我的另一篇博客:智能推薦算法演變及學習筆記 、CTR預估模型演變及學習筆記

如果您對時間序列分析感興趣,歡迎瀏覽我的另一篇博客:時間序列分析中預測類問題下的建模方案 、深度學習中的序列模型演變及學習筆記

如果您對數據挖掘感興趣,歡迎瀏覽我的另一篇博客:數據挖掘比賽/項目全流程介紹 、機器學習中的聚類算法演變及學習筆記

如果您對人工智能算法感興趣,歡迎瀏覽我的另一篇博客:人工智能新手入門學習路線和學習資源合集(含AI綜述/python/機器學習/深度學習/tensorflow)、人工智能領域常用的開源框架和庫(含機器學習/深度學習/強化學習/知識圖譜/圖神經網絡)

如果你是計算機專業的應屆畢業生,歡迎瀏覽我的另外一篇博客:如果你是一個計算機領域的應屆生,你如何準備求職面試?

如果你是計算機專業的本科生,歡迎瀏覽我的另外一篇博客:如果你是一個計算機領域的本科生,你可以選擇學習什么?

如果你是計算機專業的研究生,歡迎瀏覽我的另外一篇博客:如果你是一個計算機領域的研究生,你可以選擇學習什么?

如果你對金融科技感興趣,歡迎瀏覽我的另一篇博客:如果你想了解金融科技,不妨先了解金融科技有哪些可能?

之后博主將持續分享各大算法的學習思路和學習筆記:hello world: 我的博客寫作思路

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
知識圖譜關鍵技術及行業應用解讀
哪些黑科技正在改變金融?深度解剖知識圖譜的四大應用
知識圖譜|知識圖譜的典型應用
知識圖譜怎么用來進行知識和數據管理?
最全知識圖譜介紹:關鍵技術、開放數據集、應用案例匯總
知識圖譜正處在預爆發頂點,哪些才是你應該關注的核心問題?
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 许昌市| 馆陶县| 新源县| 扶余县| 湄潭县| 房产| 陕西省| 洞头县| 海丰县| 浠水县| 西城区| 宽甸| 景泰县| 苏尼特右旗| 浠水县| 平谷区| 襄城县| 安达市| 临朐县| 巍山| 吉木乃县| 清水县| 原平市| 邹城市| 水富县| 如皋市| 开江县| 承德市| 杭锦后旗| 丽江市| 大竹县| 泸定县| 怀柔区| 临猗县| 武义县| 弥渡县| 桃园县| 磐石市| 阿拉善右旗| 上高县| 雷州市|