知識圖譜是一種將現(xiàn)實(shí)世界中的實(shí)體和它們之間關(guān)系結(jié)構(gòu)化表示的工具,通常儲存在圖數(shù)據(jù)庫中。實(shí)體可以是對象、事件、情境或概念,圖譜中的關(guān)系顯示了這些實(shí)體之間的關(guān)聯(lián)和意義。 知識圖譜不僅保存數(shù)據(jù)和關(guān)系,還依賴一些組織原則來整理這些信息。這些原則就像是數(shù)據(jù)的規(guī)則或分類系統(tǒng),幫助我們更好地分析數(shù)據(jù)。知識圖譜的主要價值在于 有時候,知識圖譜的概念會顯得過于復(fù)雜。你可能會聽到它如何整合不同的數(shù)據(jù)源和解決數(shù)據(jù)孤島問題,這確實(shí)是知識圖譜的一個應(yīng)用,尤其適合數(shù)據(jù)集成的場景。但如果僅僅從連接大量數(shù)據(jù)和多個數(shù)據(jù)源的角度來看,創(chuàng)建和實(shí)施知識圖譜可能會顯得很復(fù)雜和耗時。 其實(shí),知識圖譜并不一定要非常龐大和復(fù)雜。我們可以根據(jù)具體的業(yè)務(wù)需求,創(chuàng)建一個小規(guī)模的圖譜來解決特定的問題。 知識圖譜的工作原理你可能聽說過知識圖譜在搜索引擎中的應(yīng)用。谷歌的知識圖譜改變了我們在網(wǎng)上搜索和獲取信息的方式。 它把關(guān)于人物、地點(diǎn)和事物的事實(shí)組織成一個有結(jié)構(gòu)的網(wǎng)絡(luò)。當(dāng)你在谷歌上搜索時,它會利用這些實(shí)體之間的聯(lián)系,在相關(guān)的上下文中提供最相關(guān)的結(jié)果,比如在谷歌的“知識面板”中展示信息。 西安的Google知識面板包括該網(wǎng)站的圖片、地圖、描述、省份、城市定位、政府駐地、海拔等。 谷歌知識圖譜中的實(shí)體代表了我們所認(rèn)知的世界,標(biāo)志著從“ 關(guān)鍵特性一般來說,知識圖譜概括為三個關(guān)鍵組成部分: Nodes 節(jié)點(diǎn)節(jié)點(diǎn)表示并存儲有關(guān)實(shí)體的詳細(xì)信息,例如人物、地點(diǎn)、物體或機(jī)構(gòu)。每個節(jié)點(diǎn)都有一個(或多個)標(biāo)簽來標(biāo)識節(jié)點(diǎn)的類型,并且可能包含一個或多個屬性(屬性)。節(jié)點(diǎn)有時也被稱為頂點(diǎn)。 例如,在一個電商知識圖譜中,節(jié)點(diǎn)通常代表的實(shí)體包括人物(客戶和潛在客戶)、產(chǎn)品和訂單: Relationships 關(guān)系關(guān)系將兩個節(jié)點(diǎn)連接起來,顯示實(shí)體之間的關(guān)系。與節(jié)點(diǎn)一樣,每個關(guān)系都有一個標(biāo)簽,用于標(biāo)識關(guān)系類型,并且可能包含一個或多個屬性。 關(guān)系有時也被稱為邊。 在電商示例中,客戶和訂單節(jié)點(diǎn)之間存在關(guān)系,這種關(guān)系捕捉了客戶與其訂單之間的“下單”關(guān)系: 組織原則組織原則是一種框架,用來根據(jù)特定需求安排節(jié)點(diǎn)和關(guān)系。不同于很多數(shù)據(jù)設(shè)計(jì),知識圖譜可以靈活地融合多種組織原則。 組織原則的復(fù)雜程度可以從簡單到復(fù)雜不等,例如,從“產(chǎn)品線 -> 產(chǎn)品類別 -> 產(chǎn)品分類”這種簡單層級,到解釋圖中數(shù)據(jù)的完整業(yè)務(wù)詞匯的復(fù)雜模式。可以把組織原則看作是覆蓋在知識圖譜數(shù)據(jù)和關(guān)系上的一層概念地圖或元數(shù)據(jù)層。 這個模型使用與知識圖譜其他部分相同的節(jié)點(diǎn)和關(guān)系結(jié)構(gòu)來描述組織原則,這意味著你可以用查詢從實(shí)例數(shù)據(jù)中提取信息,也可以從組織原則中獲取數(shù)據(jù)。 以電商為例,一個組織原則可能是產(chǎn)品類型和類別的分類: 關(guān)于本體論當(dāng)你學(xué)習(xí)知識圖譜時,可能會遇到一些關(guān)于 本體論其實(shí)就是用來描述某個特定領(lǐng)域里各種概念和它們之間關(guān)系的一種規(guī)則;我們通常用 簡單來說,本體論就是一種組織信息的方式。 本體論往往很復(fù)雜,定義和維護(hù)它們需要花費(fèi)很多時間和精力。所以,在決定是否需要本體論時,關(guān)鍵是要考慮你想用知識圖譜解決什么問題。很多情況下,其實(shí)不需要本體論。比如,在電商網(wǎng)站上,用產(chǎn)品分類來組織信息就足夠了,可以滿足推薦產(chǎn)品的需求。 知識圖譜是一個不斷發(fā)展和擴(kuò)展的系統(tǒng),在早期階段,可以簡化設(shè)計(jì),更快地實(shí)現(xiàn)價值。如果你選擇了合適的技術(shù)來構(gòu)建知識圖譜,就可以根據(jù)需要逐步擴(kuò)展和進(jìn)化。這樣,如果將來需要本體論,也可以隨時添加,而不必在一開始就強(qiáng)迫自己去構(gòu)建它們。 知識圖譜示例讓我們來看看一個知識圖譜可能的樣子。下面是一個電商場景的簡單知識圖譜示例,顯示了以圓形表示的節(jié)點(diǎn)以及它們之間的關(guān)系,以箭頭表示。組織原則也以節(jié)點(diǎn)和關(guān)系的形式存儲,因此圖中使用了不同的顏色陰影來區(qū)分哪些節(jié)點(diǎn)和關(guān)系是實(shí)例數(shù)據(jù),哪些是組織原則:
這個圖表清楚地展示了實(shí)例數(shù)據(jù)和組織原則如何共存于同一個知識圖譜中。 知識圖譜與圖數(shù)據(jù)庫創(chuàng)建知識圖譜的第一步是先在腦海中構(gòu)建一個圖數(shù)據(jù)模型,然后再將它實(shí)現(xiàn)到數(shù)據(jù)庫中。 雖然有很多不同類型的數(shù)據(jù)庫可供選擇,但選對數(shù)據(jù)庫可以讓設(shè)計(jì)過程更簡單,開發(fā)和實(shí)施的速度更快,也能更容易適應(yīng)未來的變化和改進(jìn)。 屬性圖原生屬性圖數(shù)據(jù)庫(比如 使用屬性圖數(shù)據(jù)庫,你可以獲得以下優(yōu)勢:
屬性圖 vs. 三元組存儲 (RDF)雖然屬性圖和三元組存儲(也叫RDF數(shù)據(jù)庫)都能用來構(gòu)建知識圖譜,但三元組存儲有一些明顯的缺陷。 三元組存儲把所有數(shù)據(jù)都表示成“ 因?yàn)樵賗fication和單一屬性的方法在一開始就要做出一些艱難的設(shè)計(jì)決定,所以三元組存儲在處理復(fù)雜數(shù)據(jù)時往往不夠靈活。基于這種方法構(gòu)建的知識圖譜不僅設(shè)計(jì)起來更麻煩,實(shí)施時間也更長,后續(xù)要做修改也很困難。 屬性圖 vs. 關(guān)系數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫和其他不是專門為圖設(shè)計(jì)的方法,在設(shè)計(jì)上也會遇到類似的問題。關(guān)系數(shù)據(jù)庫和文檔數(shù)據(jù)庫都不直接存儲關(guān)系,它們需要在運(yùn)行時通過查詢代碼中的連接或查找值來創(chuàng)建關(guān)系。因?yàn)檫@些關(guān)系是在代碼里而不是數(shù)據(jù)里,所以每個應(yīng)用程序和數(shù)據(jù)使用都需要自己來實(shí)現(xiàn)這些關(guān)系。SQL(關(guān)系數(shù)據(jù)庫的查詢語言)要求你在查詢中定義每個連接。因此,當(dāng)關(guān)系變多時,管理知識圖譜就變得更困難,運(yùn)行時的速度也會變慢。 應(yīng)用場景知識圖譜是一個強(qiáng)大的工具,用來存儲和組織數(shù)據(jù),幫助我們更深入地理解這些數(shù)據(jù)。為了了解如何利用知識圖譜,我們來看幾個具體的例子。 雖然這不是所有應(yīng)用場景的完整列表,但這些例子能展示知識圖譜在現(xiàn)實(shí)世界中的實(shí)際用途。 企業(yè)搜索應(yīng)用中的生成式AI在生成式AI應(yīng)用中,知識圖譜用于捕獲并組織特定領(lǐng)域或公司專有的信息。它不僅處理結(jié)構(gòu)化數(shù)據(jù),還能夠處理較不組織化的數(shù)據(jù)。 GraphRAG是一種將大型語言模型與知識圖譜結(jié)合的技術(shù),正成為專有領(lǐng)域數(shù)據(jù)AI應(yīng)用(也稱為RAG應(yīng)用)的核心。通過數(shù)據(jù)關(guān)系提供的上下文,知識圖譜可以提高響應(yīng)的準(zhǔn)確性,并改善結(jié)果的可解釋性。Gartner將知識圖譜視為“高質(zhì)量”技術(shù),認(rèn)為它是如今生成式AI的重要組成部分。 金融服務(wù)、銀行和保險業(yè)中的欺詐檢測和分析在金融領(lǐng)域,知識圖譜將交易、參與者和相關(guān)信息組織成一個網(wǎng)絡(luò),幫助公司快速識別可疑活動、調(diào)查潛在欺詐,并隨著欺詐模式的變化不斷更新知識圖譜。像路徑查找和社區(qū)檢測這樣的算法為機(jī)器學(xué)習(xí)提供了重要的線索,揭示了更復(fù)雜的欺詐網(wǎng)絡(luò)。 主數(shù)據(jù)管理在主數(shù)據(jù)管理中,知識圖譜提供了一個有組織的、去重的客戶數(shù)據(jù)庫,包括所有客戶及其互動信息。這對于有多個部門或應(yīng)用系統(tǒng)的公司尤其重要。沒有知識圖譜,可能難以獲得準(zhǔn)確的客戶視圖。知識圖譜通過將不同應(yīng)用中的客戶行為進(jìn)行鏈接,幫助獲得一個全面的客戶視圖。 供應(yīng)鏈管理在供應(yīng)鏈管理中,知識圖譜展示了供應(yīng)商、原材料、產(chǎn)品和物流之間的關(guān)系,這些元素共同支持公司的運(yùn)營。通過端到端的供應(yīng)鏈可見性,管理者能夠識別潛在的薄弱環(huán)節(jié)并預(yù)測可能的中斷。圖算法,如最短路徑,可以幫助實(shí)時優(yōu)化供應(yīng)鏈,找到從A到B的最直接路線。 調(diào)查性新聞在調(diào)查性新聞中,知識圖譜捕捉了調(diào)查中的關(guān)鍵實(shí)體(如公司、個人、銀行賬戶等)和活動。將這些實(shí)體相互關(guān)聯(lián),能夠發(fā)現(xiàn)隱藏的模式,比如不應(yīng)存在的遠(yuǎn)距離關(guān)系。調(diào)查人員可以使用實(shí)體解析技術(shù),揭示隱藏在虛假身份背后的真實(shí)活動。社區(qū)檢測和鏈接預(yù)測等算法也為進(jìn)一步調(diào)查提供了有價值的見解。 醫(yī)療研究中的藥物發(fā)現(xiàn)在醫(yī)療研究中,知識圖譜存儲了關(guān)于研究對象的信息,比如蛋白質(zhì)、基因組序列、環(huán)境數(shù)據(jù)和化學(xué)數(shù)據(jù)。這些圖譜可以揭示復(fù)雜的模式,幫助科學(xué)家更深入地了解蛋白質(zhì)及其功能,從而推動藥物發(fā)現(xiàn)和研究進(jìn)展。
|
|