博客專欄

EEPW首頁 > 博客 > 一文 Get 汽車知識的語義網絡及圖譜構建(1)

一文 Get 汽車知識的語義網絡及圖譜構建(1)

發(fā)布人:AI科技大本營 時間:2022-10-19 來源:工程師 發(fā)布文章
作者 | 趙星澤、余淼、謝南、李本陽

出品 | AI科技大本營(ID:rgznai100)知識圖譜的概念最早由 Google 在2012 年提出, 旨在架構更智能的搜索引擎,2013年之后開始在學術界和產業(yè)界普及,目前很多大型互聯網公司都在積極部署本企業(yè)的知識圖譜,Facebook、百度、阿里、騰訊、美團等企業(yè)的落地應用場景如下圖所示。圖片作為人工智能核心技術驅動力,知識圖譜可以緩解深度學習依賴海量數據訓練,需要大規(guī)模算力的問題,能夠廣泛適配不同的下游任務,且具有良好的解釋性。目前,這一技術已廣泛應用于搜索、推薦、廣告、風控、智能調度、語音識別、機器人等多個業(yè)務領域。
從落地行業(yè)來看,目前知識圖譜的應用主要集中在電商、醫(yī)療、金融等商業(yè)和服務領域,關于汽車知識的語義網絡及知識圖譜構建缺少系統(tǒng)性的指導方法。本文以汽車領域知識為例,圍繞車系、車型、經銷商、廠商、品牌等實體及相互關系,提供一種從零搭建領域圖譜的思路。
圖片如何進行圖譜構建?構建挑戰(zhàn)知識圖譜是真實世界的語義表示,其基本組成單位是“實體-關系-實體”,“實體-屬性-屬性值”的三元組(Triplet),實體之間通過關系相互聯結,從而構成語義網絡。圖譜構建中會面臨較大的挑戰(zhàn),但構建之后,可在數據分析、推薦計算、可解釋性等多個場景中展現出豐富的應用價值。其中,構建挑戰(zhàn)包括:

  • Schema 難定義。目前尚無統(tǒng)一成熟的本體構建流程,且特定領域本體定義通常需專家參與;

  • 數據類型異構。通常情況下,一個知識圖譜構建中面對的數據源不會是單一類型,面對結構各異的數據,知識轉模及挖掘的難度較高;

  • 依賴專業(yè)知識。領域知識圖譜通常依賴較強的專業(yè)知識,例如車型對應的維修方法,涉及機械、電工、材料、力學等多個領域知識,且此類關系對于準確度的要求較高,需要保證知識足夠正確;

  • 數據質量無保證。挖掘或抽取信息需要知識融合或人工校驗,才能作為知識助力下游應用。

構建后將獲得的收益:

  • 知識圖譜統(tǒng)一知識表示。通過整合多源異構數據,形成統(tǒng)一視圖;
  • 語義信息豐富。通過關系推理可以發(fā)現新關系邊,獲得更豐富的語義信息;
  • 可解釋性強。顯式的推理路徑對比深度學習結果具有更強的解釋性;
  • 高質量且能不斷積累。根據業(yè)務場景設計合理的知識存儲方案,實現知識更新和累積。

架構設計技術架構主要分為構建層、存儲層及應用層三大層,架構圖如下:圖片

  • 層。包括Schema定義,結構化數據轉,非結構化數據挖掘,以及知識融合;

  • 存儲層。包括知識的存儲和索引,知識更新,元數據管理,以及支持基本的知識查詢;

  • 服務層。包括智能推理、結構化查詢等業(yè)務相關的下游應用層。


圖片

構建步驟及流程

依據架構圖,具體構建流程可分為四步:本體設計、知識獲取、知識入庫,以及應用服務設計及使用。

本體構建本體(Ontology)是公認的概念集合,本體的構建是指依據本體的定義,構建出知識圖譜的本體結構和知識框架。基于本體構建圖譜的原因主要有以下幾點:

  • 明確專業(yè)術語、關系及其領域公理,當一條數據必須滿足Schema預先定義好的實體對象和類型后,才允許被更新到知識圖譜中。

  • 將領域知識與操作性知識分離,通過Schema可以宏觀了解圖譜架構及相關定義,無須再從三元組中歸納整理。

  • 實現一定程度的領域知識復用。在構建本體之前,可以先調研是否有相關本體已經被構建出來,這樣可以基于已有本體進行改進和擴展,達到事半功倍的效果。

  • 基于本體的定義,可以避免圖譜與應用脫節(jié),或者修改圖譜Schema比重新構建成本還要高的情況。

按照知識的覆蓋面來看,知識圖譜可以劃分為通用知識圖譜和領域知識圖譜,通用圖譜更注重廣度,強調融合更多的實體數量,但對精確度的要求不高,很難借助本體庫對公理、規(guī)則及約束條件進行推理和使用。而領域圖譜的知識覆蓋范圍較小,但知識深度更深,往往是在某一專業(yè)領域上的構建。

考慮對準確率的要求,領域本體構建多傾向于手工構建的方式,例如代表性的七步法、IDEF5方法等[1],該類方法的核心思想是,基于已有結構化數據,進行本體分析,將符合應用目的和范圍的本體進行歸納及構建,再對本體進行優(yōu)化和驗證,從而獲取初版本體定義。若想獲取更大范疇的領域本體,則可以從非結構化語料中補充,考慮手工構建過程較長,以汽車領域為例,提供一種半自動本體構建的方式。

構建詳細步驟如下:

  • 首先,收集大量汽車非結構化語料(如車系咨詢、新車導購文章等),作為初始個體概念集,利用統(tǒng)計方法或無監(jiān)督模型(TF-IDF、BERT等)獲取字特征和詞特征;
  • 其次,利用BIRCH聚類算法對概念間層次劃分,初步構建起概念間層級關系,并對聚類結果進行人工概念校驗和歸納,獲取本體的等價、上下位概念;
  • 最后,使用卷積神經網絡結合遠程監(jiān)督的方法,抽取本體屬性的實體關系,并輔以人工識別本體中的類及屬性的概念,構建起汽車領域本體。

上述方法可有效利用BERT等深度學習技術,更好地捕捉語料間的內部關系,使用聚類分層次對本體各模塊進行構建,輔以人工干預,能夠快速、準確的完成初步本體構建。下圖為半自動化本體構建示意圖:

圖片

利用Protégé本體構建工具[2],可以進行本體概念類、關系、屬性和實例的構建,下圖為本體構建可視化示例圖:圖片Protégé可以導出不同類型的Schema配置文件,其中owl.xml結構配置文件如下圖所示。該配置文件可直接在MySQL、JanusGraph中加載使用,實現自動化的創(chuàng)建Schema。
圖片知識獲取
知識圖譜的數據來源通常包括三類數據結構,分別為結構化數據、半結構化數據、非結構化數據。面向不同類型的數據源,知識抽取涉及的關鍵技術和需要解決的技術難點有所不同。結構化知識轉模結構化數據是圖譜最直接的知識來源,基本通過初步轉換就可以使用,相較其他類型數據成本最低,所以圖譜數據一般優(yōu)先考慮結構化數據。結構化數據可能涉及多個數據庫來源,通常需要使用ETL方法轉模,ETL即Extract(抽取)、Transform(轉換)、Load(裝載)。通過ETL流程可將不同源數據落到中間表,從而方便后續(xù)的知識入庫。下圖為車系實體屬性、關系表示例圖:圖片車系與品牌關系表:圖片非結構化知識抽取——三元組抽取除了結構化數據,非結構化數據中也存在著海量的知識(三元組)信息。一般來說,企業(yè)的非結構化數據量要遠大于結構化數據,挖掘非結構化知識能夠極大拓展和豐富知識圖譜。


*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。

數字通信相關文章:數字通信原理




關鍵詞: 汽車電子

相關推薦

技術專區(qū)

關閉
×

Digikey let's do
· 2025年第1期限时报名开启,5月8日截止
· Digikey助力,提供一站式免费器件支持
· 跟大佬一起 【DIY 功率监测与控制系统】