本文根據幕布上這篇思維導圖總結而得無需AI基礎,小白也能看懂的知識圖譜技術與應用 對知識圖譜了解還不多,后續會跟進。。。 一、什么是知識圖譜?定義學術上:語義網絡(Semantic Network)的知識庫 應用中:多關系圖(Multi-relational Graph) 什么叫多關系圖?圖:由節點和邊構成,通常只包含一種類型的節點和邊 多關系圖:包含多種類型的節點和多種類型的邊
知識圖譜中的節點和邊節點: 通常用實體(Entity)來表達 實體:現實世界中的事物
邊 二、知識圖譜的表達屬性圖(Property Graph)運用前提:當知識圖擁有屬性時 運用場景:工業界 [圖片上傳失敗...(image-b7b9b9-1534511439797)] 圖片概述:李明李飛是父子關系,李明擁有138開頭的電話號,開通時間是2018 電話號屬性:2018年開通 李明屬性:25歲、職位總經理 RDF(資源描述框架)運用前提:不支持實體或關系擁有屬性 運用場景:學術界 三、知識抽取數據主要來自2種渠道業務本身的數據 包含在公司內的數據庫表 以結構化的方式存儲 只需簡單預處理即可輸入后續AI系統
網絡公開、抓取的數據 以網頁形式存在 屬于非結構化數據 需要借助自然語言處理等技術提取結構化信息
處理非結構化數據涉及的自然語言處理技術實體命名識別(Name Entity Recognition) 關系抽取(Relation Extraction) 實體統一(Entity Resolution) 有些實體寫法不一樣,但指向同一個實體 合并實體,減少種類,降低圖譜稀疏性
指代消解(Coreference Resolution)
四、知識圖譜的存儲基于RDF的存儲以三元組的方式來存儲數據 不包含屬性信息 數據易發布、易共享 多用于學術界場景 推薦使用:Jena
基于圖數據庫的存儲以屬性圖為基本的表示形式 節點和關系可以帶有屬性 高效的圖查詢和搜索 多用于工業界場景 推薦使用:Neo4j
五、金融知識圖譜的搭建搭建的核心: 對業務的理解 知識圖譜本身的設計
搭建步驟: 定義具體的業務問題 數據的收集和預處理 知識圖譜的設計 把數據存入知識圖譜 上層應用的開發,以及系統的評估
1. 定義具體的業務問題哪種業務問題適合用知識圖譜? 有強烈的可視化需求 經常涉及到關系的深度搜索 對關系查詢效率有實時性要求 數據多樣化,解決數據孤島問題 有能力、有成本搭建系統
哪種業務問題適合用傳統數據庫? 對可視化需求不高 很少涉及關系的深度搜索 關系查詢效率要求不高 數據缺乏多樣性 暫時沒有人力或成本不夠
案例需要解決的業務問題 2. 數據的收集 & 預處理確定數據源: 用戶的基本信息 用戶行為數據 運營商數據 網絡上的公開信息
3. 知識圖譜的設計常見問題 需要哪些實體、關系和屬性? 哪些屬性可以做為實體,哪些實體可以作為屬性? 哪些信息不需要放在知識圖譜中? 設計知識圖譜BAFE原則 Business-業務原則 從業務邏輯出發 觀察知識圖譜可以推導出業務邏輯 設計時想好未來業務可能的變化
Analytics-分析原則 與關系分析無關的實體不放進圖譜 Efficiency-效率原則 常用信息放進知識圖譜 對分析沒有太多作用的不放進圖譜 訪問效率低的不放進圖譜
Redundancy-冗余原則 重復性信息、高頻信息可放入傳統數據庫 4. 把數據存入知識圖譜10億節點以下規模的圖譜 使用Neo4j 超過10億節點的龐大數據量 5. 上層應用的開發,以及系統的評估基于規則的方法論不一致性驗證 基于規則提取特征 特征一般基于深度的搜索 如:申請人二度關系里有多少個實體觸碰了黑名單?
[圖片上傳失敗...(image-13d414-1534511439797)] 基于模式的判斷 基于概率的方法社區挖掘:從數據圖中找出一些社區,進行進一步分析 標簽傳播:核心在于節點之間信息的傳遞 基于概率的方法的缺點:需要足夠多的數據 基于動態網絡的分析六、知識圖譜在其他行業的應用教育行業依據交互、評測、互動數據,理解學生當前的知識體系 根據邏輯進行個性化教育、因材施教 證券行業最為常見:“一個事件發生了,對哪些公司產生什么樣的影響?” 如:公司1高管的負面事件,對其他公司的影響
|