博客專欄

EEPW首頁 > 博客 > 概述:機器學習和大數據技術在信貸風控場景中的應用(2)

概述:機器學習和大數據技術在信貸風控場景中的應用(2)

發(fā)布人:數據派THU 時間:2022-01-16 來源:工程師 發(fā)布文章

1.基于知識圖譜技術的復雜網絡

在影視節(jié)目當中,我們經常看到警察辦案時會把嫌疑人、證人、受害人及他們之間的關聯關系等信息畫在墻上,用以分析案情,這就是典型的關系圖譜應用。墻上的畫便是圖,圖中有用的信息便是知識,將其進一步擴展到其他事物;人為實體,在圖中我們稱之為點,人之間代表著關聯關系的連線,在圖中我們稱之為邊,就這樣點與邊共同組成了我們的關系圖譜。

10.jpg

構建關系圖譜的底層還是大數據的技術:基于龐大的用戶數據,從不同的數據源抽取出來存入到圖數據庫里,所以數據是構建關系圖譜的基礎。一種是以關系型數據庫存儲的結構化數據,例如:IP地址,經緯度,設備指紋等,另一種是爬蟲采集的非機構化數據,例如行為記錄、網上的瀏覽記錄。實踐應用中我們利用機器學習、自然語言處理技術把這些數據變成結構化的數據也存入到圖譜里。

從用戶大數據和基于大數據的關系圖譜體系我們可以實現以下目的:

2.1 資料偽造識別

校驗用戶信息可以用來判斷借款人是否可能存在欺詐風險,使用關系圖譜做交叉校驗,雖然不能保證百分之百的準確性,但是它在人工審核時便是一個有力的參考依據。欺詐用戶填寫的個人信息通常都是虛假的。例如:比如借款人張三和借款人李四填寫的是同一個公司電話,但張三填寫的公司和李四填寫的公司完全不一樣,這就成了一個風險點。我們將關系圖譜數據可視化,可以很直觀的發(fā)現兩者的矛盾,我們便可以判斷他們二人至少有一人存在欺詐風險。

2.2 團伙欺詐分析

在信貸場景中,團伙欺詐造成的損失更加嚴重,不過從繁復的數據中發(fā)現團伙的難度也很大?;谥R圖譜我們通常直觀分析多層級的數據,一度關聯、二度關聯、三度關聯,甚至是更多維度關聯。團伙雖然使用虛假信息進行授信、支用,但通常都有共有的信息,例如同一個WIFI,同一片區(qū)域。LOUVAIN、LPA、SLPA等社區(qū)發(fā)現算法、標簽傳播算法可以有效快速的發(fā)現團伙。

11.jpg

2.3 失聯客戶管理

對于貸后管理來說,用戶本人及緊急聯系人失聯是催收失敗最大的原因,這時可以利用關系圖譜去發(fā)現失聯用戶的潛在聯系人,提高催收成功率。例如張三是失聯用戶,李四和趙六是張三的聯系人也都失聯了,這時我們可以試圖通過李四的聯系人王五,或者與張三使用相同設備的用戶老王來達到失聯客戶管理的目的。

12.png

3.征信數據與信用評分卡

3.1征信與大數據

與國外相比,中國最大的差異在于征信體系的不完善。我們的人行征信系統(tǒng)覆蓋了8億人,但是可能只有4億左右是有信貸記錄的,剩下的無任何信貸記錄的,我們稱之為白戶。所以國內****對于大部分非中高端用戶實際上是不愿意也沒有能力提供金融服務的。沒有征信數據,那套國外搬過來的基于征信數據的方式方法就不管用了。

不過,我們很快發(fā)現,利用互聯網技術可以解決征信數據缺失的白戶問題,而這些看似與信貸記錄不相關的數據在一定程度上卻能夠評估是否能夠給該用戶借款:

(1)All data is credit data:互聯網可以提供每個信貸申請用戶龐大的、碎片化的、種類繁多的信息。這里面包括用戶提交的電子化信息(如身份證、營業(yè)執(zhí)照、房產證、學歷證、工資單、社保,****流水等),第三方權威機構的查詢信息(如公民身份證查詢中心、教育部學歷中心、法院訴訟信息查詢中心等可查詢信息),還包括了海量的互聯網碎片數據,如用戶的電商交易信息、微博等社交網絡數據,百度搜索引擎數據等。

(2)互聯網的高效性和便捷性使我們能以較低的成本、較短的時間,積累大量的用戶數據,為分析建模提供足夠的樣本量。

在信貸的業(yè)務實踐中,常用的行業(yè)大數據包括:

央行征信報告:一般持牌金融機構有央行征信介入權限,包括個人的執(zhí)業(yè)資格記錄、行政獎勵和處罰記錄、法院訴訟和強制執(zhí)行記錄、欠稅記錄等。

司法信息:最高法以及省市各級法院的最新公布名單,包括執(zhí)行法院、立案時間、執(zhí)行案號、執(zhí)行標的、案件狀態(tài)、執(zhí)行依據、執(zhí)行機構、生效法律文書確定的義務、被執(zhí)行人的履行情況、失信被執(zhí)行人的行為等信息。

公安信息:覆蓋公安系統(tǒng)涉案、在逃和有案底人員信息,包括案發(fā)時間、案件詳情如詐騙案/生產、銷售假****案等信息。

****信息:****儲蓄卡/****支出、收入、逾期等信息。

航旅信息:包含過去一年中,每個季度的飛行城市、飛行次數、座位層次等數據。

社交信息:包含社交賬號匹配類型、社交賬號性別、社交賬號粉絲數等。

運營商信息:核查運營商賬戶在網時長、在網狀態(tài)、消費檔次、通話習慣等信息。

網貸黑名單:根據個人姓名和身份證號碼驗證是否有網貸逾期、黑名單信息。

駕駛證狀態(tài),租車黑名單,電商消費記錄等也是可以考量的因素

正是因為大數據技術的發(fā)展才形成了帶著強烈中國特色的官方+民間結合的征信體系,支撐互聯網信貸脫離蠻荒可以實現高速發(fā)展,信貸從業(yè)者可以在合規(guī)的前提下獲取對提升效率有用的用戶信息完善風控策略。

3.2 機器學習與評分卡

評分卡我們應該是最為熟悉的,芝麻信用分就是一個典型的信用評分,支付寶官方利用自身積累及外部征信渠道獲取的各種數據從五個維度對一個用戶進行評分,而這個評分對于每個用戶來說是透明的,這也非常好幫助用戶理解和改善自身的信用狀況。

從和信貸業(yè)內的小伙伴溝通來看,芝麻的信用評分還是比較有區(qū)分度的,這與阿里的大數據積累息息相關,阿里體系內積累了大量用戶特有數據可以對用戶形象進行更好的刻畫。

13.jpg

這套評分卡的背后其實是一套依賴在大數據基礎上的機器學習算法,因此在本身擁有大量數據的基礎上如何挖掘出一套有效的客戶評分這就是機器學習需要做的事情。

機器學習中目前應用最廣泛的就是有監(jiān)督學習:這類模型最復雜的地方在于模型的訓練過程,算法人員根據這些歷史用戶的表現打上標簽(逾期/不逾期),基于這些用戶大量數據,使用不同的算法(一般來說都會使用邏輯回歸算法)來對這些用戶進行評分,得到一個在各維度評價指標來看都能過關的模型,并用這個模型來預測未來的數據表現。

14.png

目前********體系、網貸體系基本都是使用類似的方法構建評分卡,當然不同的場景、不同的行業(yè)所用的評分卡也不盡相同?;谶@套評分卡我們基本上可以在用戶申請環(huán)節(jié)實現量化風險的目的?;诖髷祿臋C器學習并不是完全改變傳統(tǒng)風控,實際是豐富傳統(tǒng)風控的數據緯度和量化風險的方式。

結語

本文簡單介紹了大數據和機器學習在信貸風控領域的應用場景。機器學習聽起來很高大上,在實際工作中也經常會遇到一味炒作概念的人,過分夸大機器學習所能起到的作用,或者盲目的追求高深復雜的算法。不過無論是機器學習還是大數據其本質還是為了服務業(yè)務,提高業(yè)務的效率降低成本是其最根本的目的。

隨著信貸行業(yè)的不斷發(fā)展,機器學習和大數據技術的越來越成熟,二者結合的應用場景相信也會愈加豐富,相信在這塊未來會有更多新穎的應用場景。

*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



關鍵詞: 深度學習

相關推薦

技術專區(qū)

關閉