少妇脱了内裤让我添,久久久久亚洲精品无码网址蜜桃,性色av免费观看,久久人妻av无码中文专区

分享

知識圖譜簡介

 shawnsun007 2021-03-10

本文根據幕布上這篇思維導圖總結而得無需AI基礎,小白也能看懂的知識圖譜技術與應用
對知識圖譜了解還不多,后續會跟進。。。

一、什么是知識圖譜?

定義

學術上:語義網絡(Semantic Network)的知識庫
應用中:多關系圖(Multi-relational Graph)

什么叫多關系圖?

圖:由節點和邊構成,通常只包含一種類型的節點和邊
多關系圖:包含多種類型的節點和多種類型的邊


圖與多關系圖的區別

知識圖譜中的節點和邊

節點

  • 通常用實體(Entity)來表達

  • 實體:現實世界中的事物

  • 通常用關系(Relation)來表達

  • 關系:不同實體之間的某種聯系
    [圖片上傳失敗...(image-ffd958-1534511439797)]

二、知識圖譜的表達

屬性圖(Property Graph)

運用前提:當知識圖擁有屬性時
運用場景:工業界
[圖片上傳失敗...(image-b7b9b9-1534511439797)]
圖片概述:李明李飛是父子關系,李明擁有138開頭的電話號,開通時間是2018
電話號屬性:2018年開通
李明屬性:25歲、職位總經理

RDF(資源描述框架)

運用前提:不支持實體或關系擁有屬性
運用場景:學術界

三、知識抽取

數據主要來自2種渠道

  1. 業務本身的數據

    • 包含在公司內的數據庫表

    • 以結構化的方式存儲

    • 只需簡單預處理即可輸入后續AI系統

  2. 網絡公開、抓取的數據

    • 以網頁形式存在

    • 屬于非結構化數據

    • 需要借助自然語言處理等技術提取結構化信息

處理非結構化數據涉及的自然語言處理技術

  • 實體命名識別(Name Entity Recognition)

    • 從文本里提取出實體

    • 對每個實體做分類/打標簽
      [圖片上傳失敗...(image-c1bd24-1534511439797)]

  • 關系抽取(Relation Extraction)

    • 把實體間的關系從文本中提取出來
      [圖片上傳失敗...(image-df8184-1534511439797)]

  • 實體統一(Entity Resolution)

    • 有些實體寫法不一樣,但指向同一個實體

    • 合并實體,減少種類,降低圖譜稀疏性

  • 指代消解(Coreference Resolution)

    • 分清文中出現的代詞到底指向哪個實體
      [圖片上傳失敗...(image-772b6-1534511439797)]

四、知識圖譜的存儲

基于RDF的存儲

  • 以三元組的方式來存儲數據

  • 不包含屬性信息

  • 數據易發布、易共享

  • 多用于學術界場景

  • 推薦使用:Jena

基于圖數據庫的存儲

  • 以屬性圖為基本的表示形式

  • 節點和關系可以帶有屬性

  • 高效的圖查詢和搜索

  • 多用于工業界場景

  • 推薦使用:Neo4j

五、金融知識圖譜的搭建

搭建的核心:

  1. 對業務的理解

  2. 知識圖譜本身的設計

搭建步驟:

  1. 定義具體的業務問題

  2. 數據的收集和預處理

  3. 知識圖譜的設計

  4. 把數據存入知識圖譜

  5. 上層應用的開發,以及系統的評估

1. 定義具體的業務問題

哪種業務問題適合用知識圖譜?

  • 有強烈的可視化需求

  • 經常涉及到關系的深度搜索

  • 對關系查詢效率有實時性要求

  • 數據多樣化,解決數據孤島問題

  • 有能力、有成本搭建系統

哪種業務問題適合用傳統數據庫?

  • 對可視化需求不高

  • 很少涉及關系的深度搜索

  • 關系查詢效率要求不高

  • 數據缺乏多樣性

  • 暫時沒有人力或成本不夠

案例需要解決的業務問題

  • P2P網貸環境下的反欺詐風控

2. 數據的收集 & 預處理

確定數據源:

  1. 用戶的基本信息

    • 大多存儲在業務表里,可直接提取使用: 如姓名、年齡、學歷等

    • 個別字段需要進一步處理: 同一實體如用不同名稱填寫,則需要對齊

  2. 用戶行為數據

    • 需要通過簡單的處理,提取有效的信息: 如:“用戶在某個頁面停留時長”

  3. 運營商數據

  4. 網絡上的公開信息

    • 需要信息抽取相關技術

3. 知識圖譜的設計

常見問題
需要哪些實體、關系和屬性?
哪些屬性可以做為實體,哪些實體可以作為屬性?
哪些信息不需要放在知識圖譜中?
設計知識圖譜BAFE原則
Business-業務原則
從業務邏輯出發

  • 觀察知識圖譜可以推導出業務邏輯

  • 設計時想好未來業務可能的變化

Analytics-分析原則
與關系分析無關的實體不放進圖譜
Efficiency-效率原則

  • 常用信息放進知識圖譜

  • 對分析沒有太多作用的不放進圖譜

  • 訪問效率低的不放進圖譜

Redundancy-冗余原則
重復性信息、高頻信息可放入傳統數據庫

4. 把數據存入知識圖譜

10億節點以下規模的圖譜
使用Neo4j
超過10億節點的龐大數據量

  • 選擇支持準分布式的系統(OrientDB, JanusGraph)

  • 通過效率、冗余原則把信息存放在傳統數據庫中,減少知識圖譜信息量

5. 上層應用的開發,以及系統的評估

基于規則的方法論

不一致性驗證

  • 通過規則找出潛在的矛盾點

  • 如:李明、李飛注明同樣的公司電話,但兩人公司數據不一致

不一致性驗證

基于規則提取特征

  • 特征一般基于深度的搜索

  • 如:申請人二度關系里有多少個實體觸碰了黑名單?

[圖片上傳失敗...(image-13d414-1534511439797)]

基于模式的判斷

  • 適用于找出團體欺詐

  • 核心在于通過一些模式找到有可能存在風險的團體或者子圖(sub-graph),然后對這部分子圖做進一步的分析

  • 如:三個實體共享很多信息,可看做為團體并進一步分析

多點共享信息
基于概率的方法

社區挖掘:從數據圖中找出一些社區,進行進一步分析
標簽傳播:核心在于節點之間信息的傳遞
基于概率的方法的缺點:需要足夠多的數據

基于動態網絡的分析
  • 聚焦時間變化與風險之間的關聯

  • 如:從T到T+1時刻的圖譜結構變化,暗示著潛在風險

    圖譜結構變化

六、知識圖譜在其他行業的應用

教育行業

依據交互、評測、互動數據,理解學生當前的知識體系
根據邏輯進行個性化教育、因材施教

證券行業

最為常見:“一個事件發生了,對哪些公司產生什么樣的影響?”
如:公司1高管的負面事件,對其他公司的影響


高管負面事件

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發現有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發表

    請遵守用戶 評論公約

    類似文章 更多

    主站蜘蛛池模板: 久久精品一本到东京热| 精品国产拍国产天天人| 黄又色又污又爽又高潮动态图| 成年永久一区二区三区免费视频| 少妇被粗大的猛烈进出动视频| 国产精品午夜性视频| 无码伊人66久久大杳蕉网站谷歌| 人妻巨大乳hd免费看| 天干天干啦夜天干天2017| 妺妺窝人体色www聚色窝仙踪| 久99久热只有精品国产15| 亚洲国产欧美日韩另类| 国产波霸爆乳一区二区| 精品无码中文字幕在线| 麻豆国产97在线 | 中文| 国产女人高潮抽搐喷水视频| 18禁成人黄网站免费观看| 精品久久久久久国产潘金莲| 国产精品国产三级国产an| 99久久免费只有精品国产| 国产精品无码av片在线观看播放| 日本一卡二卡3卡四卡网站精品| 日韩av无码一区二区三区不卡| 精品乱码一区二区三四五区| 国产乱子伦精品无码码专区| 亚洲性夜色噜噜噜在线观看不卡| 欧美日韩亚洲精品瑜伽裤| 无码av中文字幕一区二区三区| 久久久精品妓女影院妓女网| 亚洲av福利无码无一区二区| 大帝a∨无码视频在线播放| 欧美牲交a欧美牲交aⅴ免费真| 亚洲成av人片天堂网九九| 播放灌醉水嫩大学生国内精品| 国内熟妇人妻色无码视频在线| 国产成人无码aⅴ片在线观看导航| 久久国产精品福利一区二区三区| 国精产品自偷自偷综合下载| 丰满无码人妻熟妇无码区| 亚洲欧美成人另类激情| 亚洲高清毛片一区二区|