隨機(jī)森林個(gè)人信用風(fēng)險(xiǎn)評(píng)估研究

時(shí)間:2022-12-18 03:32:20

導(dǎo)語(yǔ):隨機(jī)森林個(gè)人信用風(fēng)險(xiǎn)評(píng)估研究一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢(xún)客服老師,歡迎參考。

隨機(jī)森林個(gè)人信用風(fēng)險(xiǎn)評(píng)估研究

一、文獻(xiàn)綜述

近年來(lái),隨著消費(fèi)金融市場(chǎng)的迅速發(fā)展,越來(lái)越多的消費(fèi)金融機(jī)構(gòu)涌入,以螞蟻花唄、借唄、京東白條為代表的消費(fèi)金融服務(wù)盛行。從受眾群體來(lái)看,消費(fèi)貸款的發(fā)放對(duì)象是個(gè)人,還款來(lái)源主要為工資、獎(jiǎng)金、投資收益、生產(chǎn)經(jīng)營(yíng)性收入等。這些來(lái)源易受多種外部因素影響,包括宏觀經(jīng)濟(jì)變化、所在企業(yè)經(jīng)營(yíng)狀況、個(gè)人健康及意外等。與此同時(shí),與企業(yè)相比個(gè)人的流動(dòng)性和不確定性更高,借款人還款行為易受個(gè)體思想觀念、態(tài)度、行為習(xí)慣等主觀因素的影響。因此,個(gè)人信用風(fēng)險(xiǎn)成為風(fēng)控的核心,如何把各借款人紛繁復(fù)雜的信息數(shù)據(jù)映射成其自身詳細(xì)的信用水平成為這一行業(yè)亟待解決的問(wèn)題。在個(gè)人信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域,國(guó)內(nèi)外的研究主要集中在個(gè)人信用風(fēng)險(xiǎn)的指標(biāo)選取和個(gè)人信用風(fēng)險(xiǎn)評(píng)估方法及模型構(gòu)建兩個(gè)方面,后者居多。信用風(fēng)險(xiǎn)指標(biāo)的選取,主要基于傳統(tǒng)信貸的指標(biāo)選擇和基于消費(fèi)場(chǎng)景多樣性對(duì)指標(biāo)體系的補(bǔ)充優(yōu)化。BillFair和Earllsaac(2015)提出的FICO信用分模型是個(gè)人信用評(píng)估領(lǐng)域最早且在銀行使用最廣泛的。FICO模型根據(jù)違約風(fēng)險(xiǎn)來(lái)計(jì)算客戶(hù)的信譽(yù),它所選用的指標(biāo)主要有五類(lèi):信用償還歷史、信用賬戶(hù)數(shù)、使用信用的年限、正在使用的信用類(lèi)型以及新開(kāi)立的信用賬戶(hù)[1]。MariolaChrzanowska(2008)以一家在波蘭經(jīng)營(yíng)的外資銀行中的個(gè)人客戶(hù)貸款為例,通過(guò)單一和集成的方法,發(fā)現(xiàn)“已償還貸款的份額”是體現(xiàn)個(gè)人信用等級(jí)最重要的指標(biāo)[2]。龍新庭、王曉華(2013)指出德國(guó)國(guó)際項(xiàng)目咨詢(xún)IPC公司通過(guò)客戶(hù)的信用歷史、貸款申請(qǐng)書(shū)信息、個(gè)人聲譽(yù)等方面綜合評(píng)估其還款意愿[3]。消費(fèi)場(chǎng)景的多樣性使得實(shí)踐中基于互聯(lián)網(wǎng)的個(gè)人信用風(fēng)險(xiǎn)指標(biāo)在構(gòu)成上與傳統(tǒng)的金融機(jī)構(gòu)有所不同,在其基礎(chǔ)上更多地獲取關(guān)于個(gè)人生活消費(fèi)的指標(biāo)。國(guó)內(nèi)首個(gè)個(gè)人信用評(píng)分——阿里巴巴芝麻信用分的評(píng)分標(biāo)準(zhǔn)主要由五部分組成:信用歷史(35%)、行為偏好(25%)、履約能力(20%)、身份特征(15%)和人脈關(guān)系(5%)[4]。不同于阿里巴巴的是,京東與騰訊達(dá)成深度合作,將自身的電商數(shù)據(jù)和騰訊的社交數(shù)據(jù)結(jié)合,所以京東白條能更精確地把握用戶(hù)的信用信息[5]。信用風(fēng)險(xiǎn)評(píng)估方法的實(shí)質(zhì)是將一個(gè)數(shù)據(jù)樣本總體按不同特征分為若干組的方法,個(gè)人信用評(píng)估模型構(gòu)建主要包括統(tǒng)計(jì)和非統(tǒng)計(jì)方法。統(tǒng)計(jì)方法主要包括判別分析法、Logistic回歸、K近鄰判別分析法等。何曉群等(2015)認(rèn)為信用風(fēng)險(xiǎn)評(píng)估模型是金融機(jī)構(gòu)開(kāi)展信貸工作的核心,模型結(jié)果則是信用評(píng)級(jí)的依據(jù)來(lái)源[6]。李萌(2005)將不良貸款率、T檢驗(yàn)、主成分分析相結(jié)合,基于Logistic回歸建立判斷信用風(fēng)險(xiǎn)的評(píng)估模型[7]。姚路(2017)在對(duì)個(gè)人基本信息、信貸擔(dān)保交易信息等認(rèn)知的基礎(chǔ)上建立多元線(xiàn)性回歸模型,間接地對(duì)信息主體進(jìn)行信用評(píng)價(jià)[8]。姜明輝等(2004)通過(guò)確定相應(yīng)的評(píng)估指標(biāo)體系,建立了基于K近鄰判別分析法的個(gè)人信用評(píng)估模型,并對(duì)模型應(yīng)用中需要注意的問(wèn)題進(jìn)行了分析[9]?;诮y(tǒng)計(jì)方法的信用風(fēng)險(xiǎn)評(píng)估模型需要對(duì)樣本數(shù)據(jù)進(jìn)行嚴(yán)格的假設(shè),如線(xiàn)性關(guān)系、正態(tài)分布等,這些都在一定程度上影響模型的適用性及使用效果[10]。非統(tǒng)計(jì)方法主要包括依托計(jì)算機(jī)技術(shù)的人工智能方法,以人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量機(jī)(SVM)、決策樹(shù)(DT)和隨機(jī)森林(RF)著名。HussainAliBekhet(2014)設(shè)計(jì)了兩種信用評(píng)分模型,并采用人工神經(jīng)網(wǎng)絡(luò)方法為約旦商業(yè)銀行貸款決策提供技術(shù)支持,證實(shí)人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用將改善信貸決策效率,幫助金融機(jī)構(gòu)節(jié)省分析時(shí)間和成本[11]。TonyBellottti和JonathanCrook(2008)運(yùn)用大型信用卡數(shù)據(jù)庫(kù)的信息,將支持向量機(jī)與Logistic回歸等傳統(tǒng)方法進(jìn)行對(duì)比研究,表明支持向量機(jī)更具競(jìng)爭(zhēng)力,還可用作特征選擇方法來(lái)分辨出決定違約風(fēng)險(xiǎn)大小最重要的特征[12]。姚瀟和余樂(lè)安(2012)將模糊隸屬度引入支持向量機(jī)進(jìn)行實(shí)證研究,結(jié)論表明模糊近似支持向量機(jī)能夠顯著地提高信用風(fēng)險(xiǎn)分類(lèi)精度[13]。龐素琳和鞏吉璋(2009)以德國(guó)銀行個(gè)人信貸數(shù)據(jù)為樣本,采用C5.0算法(DT模型的一種)構(gòu)建信用評(píng)估模型,并使用了Boosting算法技術(shù)提升模型對(duì)樣本數(shù)據(jù)的擬合度,最后通過(guò)參數(shù)調(diào)節(jié)進(jìn)一步提高分類(lèi)精確率[14]。GasparCano等(2017)對(duì)不同的數(shù)據(jù)集用RF算法進(jìn)行特征選擇并用其對(duì)數(shù)據(jù)集分類(lèi),結(jié)果表明由RF選出相關(guān)變量并據(jù)此進(jìn)行分類(lèi)的性能效果比SVM和ANN更具優(yōu)勢(shì)[15]。戴昕琦(2018)把更加適合處理不平衡數(shù)據(jù)的SMOTE算法改進(jìn),再與RF模型結(jié)合運(yùn)用于供應(yīng)鏈金融信用風(fēng)險(xiǎn)管理研究中,發(fā)現(xiàn)C-SMOTE-RF模型在很大程度上減少了銀行的“取偽”概率,從而能幫助銀行更好地對(duì)風(fēng)險(xiǎn)企業(yè)進(jìn)行識(shí)別[16]。隨機(jī)森林(RF)的提出者BreimanLeo(2001)指出RF明顯優(yōu)于單個(gè)分類(lèi)決策樹(shù)模型[17]。方匡南等(2010)將RF算法用于零售信貸領(lǐng)域的信用卡違約風(fēng)險(xiǎn)識(shí)別,并發(fā)現(xiàn)RF算法無(wú)須對(duì)數(shù)據(jù)樣本標(biāo)準(zhǔn)化預(yù)處理,且比SVM、單一決策樹(shù)以及Logistic回歸有更高的準(zhǔn)確率[18]。綜上所述,RF算法是基于決策樹(shù)的集成式算法,一般無(wú)須對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化預(yù)處理,且分類(lèi)性能優(yōu)于傳統(tǒng)統(tǒng)計(jì)方法和SVM等智能算法。大數(shù)據(jù)技術(shù)使得用于個(gè)人信用風(fēng)險(xiǎn)評(píng)估的數(shù)據(jù)指標(biāo)的可獲得性變強(qiáng),數(shù)據(jù)維度變大,導(dǎo)致風(fēng)險(xiǎn)預(yù)測(cè)時(shí)間變長(zhǎng),成本變高。而RF算法是采用多棵決策樹(shù)分類(lèi)產(chǎn)生結(jié)果并以加法投票的方式得出最終結(jié)果。RF算法中單棵決策樹(shù)每個(gè)節(jié)點(diǎn)的選擇與分裂都是基于該節(jié)點(diǎn)隨機(jī)選取的特征確定的,因此信用指標(biāo)之間的自相關(guān)性會(huì)使決策樹(shù)之間的選擇與分裂規(guī)則相似;各決策樹(shù)選擇的相似性會(huì)使得以加法投票方式確定的最終分類(lèi)結(jié)果呈現(xiàn)“一邊倒”,這樣會(huì)極大地降低分類(lèi)準(zhǔn)確度。因此,考慮到個(gè)人信用風(fēng)險(xiǎn)評(píng)估時(shí)數(shù)據(jù)維度及數(shù)據(jù)的預(yù)測(cè)能力,在傳統(tǒng)隨機(jī)森林模型的基礎(chǔ)上加入XGBoost算法來(lái)對(duì)指標(biāo)進(jìn)行降維,剔除關(guān)系密切和對(duì)預(yù)測(cè)信用風(fēng)險(xiǎn)影響小的指標(biāo),并采用實(shí)際的數(shù)據(jù)集驗(yàn)證了模型的合理性和有效性,為個(gè)人信用風(fēng)險(xiǎn)評(píng)估提供更好的決策支持。

二、改進(jìn)的隨機(jī)森林模型建立

構(gòu)建的改進(jìn)的隨機(jī)森林模型(即XGBoost-RF模型)如圖1所示。第一階段運(yùn)用XGBoost算法進(jìn)行特征選擇,輸出數(shù)據(jù)樣本中的特征重要性柱狀圖,這樣不僅能最直觀地看到每個(gè)指標(biāo)的特征重要性得分,而且能提升模型的解釋性;此外,從中篩選出的影響較大的特征指標(biāo),也能為個(gè)人信用評(píng)估指標(biāo)選擇提供參考。第二階段運(yùn)用隨機(jī)森林(RF)算法對(duì)第一階段篩選出的指標(biāo)進(jìn)行分類(lèi)。XGBoost算法是基于梯度提升樹(shù)(GBDT)模型原理改進(jìn)后的算法。與RF算法在特征選擇時(shí)運(yùn)用Gini指數(shù)計(jì)算節(jié)點(diǎn)不純度不同的是,XGBoost是通過(guò)該特征每棵樹(shù)中分裂次數(shù)的和計(jì)算的。與神經(jīng)網(wǎng)絡(luò)的“黑箱操作”相反,XGBoost所用決策樹(shù)內(nèi)在的可解釋性降低了算法計(jì)算的復(fù)雜度,提升了整個(gè)模型的可解釋性??山忉屝砸彩切庞迷u(píng)估的一個(gè)重要組成部分,因此將其用于對(duì)各個(gè)特征指標(biāo)的重要性進(jìn)行估計(jì)十分合適,一般重要性分?jǐn)?shù)越高則該特征指標(biāo)越重要,該特征指標(biāo)在數(shù)據(jù)集中的貢獻(xiàn)越大。RF算法是由LeoBreiman和AdeleCutler[17]提出的一種集成分類(lèi)器,但它摒棄了單棵決策樹(shù)容易產(chǎn)生過(guò)擬合現(xiàn)象的缺點(diǎn),RF算法最終的分類(lèi)決策fRF(x)由式(1)得出:fRF(x)=argmaxΣnk=1I(hk(x,θk)=Y)Y(1)其中,hk(x,θk)是單棵決策樹(shù)分類(lèi)器,是用CART算法構(gòu)建的未剪枝的分類(lèi)樹(shù),其中θk是服從獨(dú)立同分布的隨機(jī)變量,決定單棵樹(shù)的生長(zhǎng)過(guò)程;Y為目標(biāo)變量,表示是否違約,在本文中用1(違約)和0(未違約)分別表示;I(•)表示滿(mǎn)足括號(hào)中表達(dá)式的樣本個(gè)數(shù)。式(1)為使用多數(shù)投票法來(lái)確定最終分類(lèi)結(jié)果的表達(dá)式。對(duì)于隨機(jī)森林算法中的單棵決策樹(shù),首先在每一節(jié)點(diǎn)隨機(jī)選擇m個(gè)特征,再?gòu)倪@m個(gè)特征中根據(jù)Gini指數(shù)最優(yōu)分割選擇最優(yōu)特征進(jìn)行該節(jié)點(diǎn)的分裂。Gini指數(shù)由式(2)得出:Gini(Q)=Σjj=1Pj(1-Pj)=1-Σjj=1Pj2(2)其中,Q為S個(gè)數(shù)據(jù)樣本的集合;Pj為隨機(jī)數(shù)據(jù)樣本屬于j類(lèi)別的概率,近似值可用SjJS表示;J為數(shù)據(jù)集的類(lèi)別總數(shù),本文中J包括違約與未違約兩類(lèi)。通過(guò)求Gini(Q,F(xiàn))的最小值得到Gini指數(shù)最優(yōu)分割,Gini(Q,F(xiàn))表達(dá)式如式(3)所示:Gini(Q,F(xiàn))=SSjGini(Qj)+SSjGini(Q-j)(3)因此,使得Gini(Q,F(xiàn))值最小的特征即為該節(jié)點(diǎn)應(yīng)選擇的最優(yōu)特征。其中,Sj為屬于j類(lèi)別的樣本個(gè)數(shù),S-j為不屬于j類(lèi)別的樣本個(gè)數(shù),F(xiàn)為分裂特征。

三、數(shù)據(jù)選擇與處理

本文采用著名的德國(guó)信用數(shù)據(jù)集(數(shù)據(jù)集網(wǎng)址為http://archive.ics.uci.edu/)來(lái)驗(yàn)證模型的可行性和有效性。因?yàn)榈聡?guó)信用數(shù)據(jù)集的指標(biāo)比較全面,對(duì)個(gè)人信用風(fēng)險(xiǎn)評(píng)估指標(biāo)的構(gòu)建具有借鑒意義;基于互聯(lián)網(wǎng)的信貸也大多以此信用指標(biāo)體系為根基,在其基礎(chǔ)上進(jìn)行細(xì)分補(bǔ)充。德國(guó)信用數(shù)據(jù)集是德國(guó)一銀行記錄使用信用卡的個(gè)人特征及違約與否的數(shù)據(jù)集,一共有1000個(gè)客戶(hù)的基本信息,包含了700個(gè)好客戶(hù)(客戶(hù)信用良好,沒(méi)有信用違約記錄)和300個(gè)壞客戶(hù)(客戶(hù)信用較差,有違約記錄)。每個(gè)客戶(hù)的信息都包含24個(gè)屬性指標(biāo),由7個(gè)離散型指標(biāo)、13個(gè)連續(xù)型指標(biāo)構(gòu)成,其他4個(gè)指標(biāo)未知,以及每個(gè)客戶(hù)的類(lèi)別,取“1”代表“好”客戶(hù),“0”代表“壞”客戶(hù)。該數(shù)據(jù)集指標(biāo)可分為個(gè)人指標(biāo)、信用指標(biāo)和經(jīng)濟(jì)指標(biāo)三大類(lèi)。個(gè)人指標(biāo)主要是描述個(gè)人自然信息,包括婚姻狀況、性別、年齡等信息,透過(guò)這些信息商業(yè)銀行能夠間接獲悉申請(qǐng)人的還款意愿和還款能力;信用指標(biāo)包括貸款信息、信用卡信息、歷史信用信息等,從中可了解貸款申請(qǐng)人的信用風(fēng)險(xiǎn)、債務(wù)壓力及其歷史信用;經(jīng)濟(jì)指標(biāo)包括貸款申請(qǐng)人的職位、工齡、收入等信息,是衡量貸款申請(qǐng)人還款能力的重要指標(biāo)。而4個(gè)未知指標(biāo)對(duì)信用分類(lèi)預(yù)測(cè)能力非常小,因此將其作為無(wú)關(guān)指標(biāo)剔除。

四、結(jié)果分析

經(jīng)濟(jì)金融領(lǐng)域中的指標(biāo)錯(cuò)綜復(fù)雜,個(gè)人信用指標(biāo)更是如此,指標(biāo)變量間的相關(guān)性等降低了模型預(yù)測(cè)及信用風(fēng)險(xiǎn)評(píng)估的有效性。因此,對(duì)數(shù)據(jù)樣本的原始指標(biāo)進(jìn)行篩選來(lái)建立風(fēng)險(xiǎn)評(píng)估指標(biāo)體系,有助于個(gè)人信用的審核以及風(fēng)險(xiǎn)的重點(diǎn)監(jiān)控。(一)基于XGBoost的信用指標(biāo)篩選。首先采用XGBoost算法用Python軟件進(jìn)行編程計(jì)算,得到所有指標(biāo)的特征重要性分?jǐn)?shù)。圖2是德國(guó)數(shù)據(jù)集指標(biāo)的特征重要性分?jǐn)?shù)柱狀圖。再根據(jù)XGBoost特征重要性得分進(jìn)行指標(biāo)篩選。從圖2可以看出,f3(信貸用途)、f1(信貸期限)、f9(擔(dān)保人)、f5(儲(chǔ)蓄賬戶(hù)情況)、f2(信用歷史)、f0(經(jīng)常性賬戶(hù)情況)這幾個(gè)指標(biāo)的特征重要性得分較高,可見(jiàn)這些指標(biāo)對(duì)借款人違約風(fēng)險(xiǎn)影響較大;而f19(是否為外籍工作者)、f12(年齡)和f13(其他分期付款方式)重要性得分較低,影響較小,這與實(shí)際經(jīng)驗(yàn)基本吻合。同時(shí),考慮到德國(guó)數(shù)據(jù)集樣本量較多,進(jìn)入分類(lèi)步驟的指標(biāo)不能過(guò)少,同時(shí)從排名第15位的特征指標(biāo)開(kāi)始,其重要性得分大幅度下降,因此根據(jù)特征重要性柱狀圖選取特征重要性,得分前14位的指標(biāo)進(jìn)入第二階段的RF算法對(duì)數(shù)據(jù)樣本進(jìn)行分類(lèi),所選指標(biāo)包括f0、f1、f2、f3、f4、f5、f6、f7、f8、f9、f10、f15、f16、f17。由圖2可以發(fā)現(xiàn),除f3(信貸用途)、f1(信貸期限)等顯性指標(biāo)對(duì)個(gè)人信用風(fēng)險(xiǎn)影響重大外,f9(擔(dān)保人)對(duì)個(gè)人信用風(fēng)險(xiǎn)的影響不容忽視。擔(dān)保人的資金實(shí)力、信用水平對(duì)貸款申請(qǐng)者個(gè)人信用風(fēng)險(xiǎn)影響重大,而擔(dān)保人的選擇體現(xiàn)了貸款申請(qǐng)者的“人脈關(guān)系”。但國(guó)內(nèi)現(xiàn)有的個(gè)人信用評(píng)分機(jī)制,鮮少選擇諸如“擔(dān)保人”等“人脈關(guān)系”相關(guān)指標(biāo)。因此,評(píng)估個(gè)人信用風(fēng)險(xiǎn)時(shí),在不違背保護(hù)隱私的前提下,應(yīng)完善對(duì)“人脈關(guān)系”的調(diào)查與審核,以降低貸款申請(qǐng)者個(gè)人信用風(fēng)險(xiǎn)。(二)基于RF算法的個(gè)人信用分類(lèi)分析。依據(jù)得到的14個(gè)屬性指標(biāo),運(yùn)用隨機(jī)森林(RF)算法對(duì)1000條數(shù)據(jù)樣本進(jìn)行分類(lèi)測(cè)試,并將結(jié)果與傳統(tǒng)RF算法對(duì)比,得到以下結(jié)果及結(jié)論。(1)利用未經(jīng)XGBoost篩選的原始數(shù)據(jù)集建立100棵決策樹(shù)分類(lèi)可以發(fā)現(xiàn):在5倍交叉驗(yàn)證下,節(jié)點(diǎn)分裂時(shí)隨機(jī)選取的指標(biāo)個(gè)數(shù)m為15時(shí),平均分類(lèi)準(zhǔn)確率為68.6%;當(dāng)m取10時(shí),平均分類(lèi)準(zhǔn)確率為70.6%;當(dāng)m取5時(shí),平均分類(lèi)準(zhǔn)確率為64.2%。結(jié)論1:在交叉驗(yàn)證倍數(shù)不變的情況下使用德國(guó)信用數(shù)據(jù)集進(jìn)行分類(lèi),當(dāng)把每一節(jié)點(diǎn)分裂時(shí)隨機(jī)選取的指標(biāo)個(gè)數(shù)設(shè)置較大時(shí),那么在一定范圍內(nèi)減小指標(biāo)個(gè)數(shù),分類(lèi)效果會(huì)變好,而如果指標(biāo)選取的個(gè)數(shù)過(guò)少,分類(lèi)效果會(huì)減弱。結(jié)論1的得出表明德國(guó)信用數(shù)據(jù)集中存在對(duì)預(yù)測(cè)個(gè)人信用風(fēng)險(xiǎn)影響較小的冗余指標(biāo)或者某些指標(biāo)間存在自相關(guān)性。(2)利用原始數(shù)據(jù)集和經(jīng)XGBoost篩選后的數(shù)據(jù)集建立100棵決策樹(shù)分類(lèi)可以發(fā)現(xiàn):在5倍交叉驗(yàn)證下,每一節(jié)點(diǎn)分裂時(shí)隨機(jī)選取的指標(biāo)個(gè)數(shù)均為10時(shí),篩選后數(shù)據(jù)集的分類(lèi)準(zhǔn)確率分別為0.73、0.735、0.63、0.72、0.69,與之對(duì)應(yīng)的原始數(shù)據(jù)集的分類(lèi)準(zhǔn)確率分別為0.73、0.715、0.67、0.69、0.72;而且,在大部分子樣本中,經(jīng)XGBoost篩選過(guò)的數(shù)據(jù)集得出的分類(lèi)準(zhǔn)確率比原始數(shù)據(jù)集得出的準(zhǔn)確率高;當(dāng)選取的指標(biāo)個(gè)數(shù)m取5時(shí),原始數(shù)據(jù)集的平均分類(lèi)準(zhǔn)確率為64.2%,而新數(shù)據(jù)集的平均分類(lèi)準(zhǔn)確率為69.7%。

2:利用XGBoost特征選擇后建立的新數(shù)據(jù)集在同樣的倍數(shù)交叉驗(yàn)證下,不論是單次的分類(lèi)準(zhǔn)確率還是平均分類(lèi)準(zhǔn)確率都不亞于原始數(shù)據(jù)集的分類(lèi)結(jié)果,甚至更高。(三)基于ROC曲線(xiàn)的模型性能比較ROC曲線(xiàn)是用于展示試驗(yàn)中效果是否優(yōu)良的一種圖形,一般通過(guò)ROC曲線(xiàn)下的面積AUC來(lái)衡量模型效果,曲線(xiàn)下面積AUC的值越大,可認(rèn)為效果越好。對(duì)改進(jìn)前后兩種方案的性能進(jìn)行ROC曲線(xiàn)分析,其ROC曲線(xiàn)及其比較結(jié)果如圖3所示。將(a)和(b)放于同一坐標(biāo)軸進(jìn)行比較如(c)圖所示,發(fā)現(xiàn)除左上角兩曲線(xiàn)有所偏差之外其余基本重疊;從(d)圖可以看出明顯的差別:新數(shù)據(jù)集ROC曲線(xiàn)位于原數(shù)據(jù)集ROC曲線(xiàn)的上方,即利用新數(shù)據(jù)集的分類(lèi)性能比原始數(shù)據(jù)集要好,更具有準(zhǔn)確性。基于上述分析,可以得出改進(jìn)后的XGBoost-RF模型通過(guò)優(yōu)化數(shù)據(jù)指標(biāo)而使模型性能比改進(jìn)前更好,分類(lèi)準(zhǔn)確度更高。五、啟示與展望通過(guò)分析研究,可以發(fā)現(xiàn)以德國(guó)信用數(shù)據(jù)集為樣本,改進(jìn)后的隨機(jī)森林模型通過(guò)優(yōu)化特征選擇從而降低指標(biāo)維數(shù),最終提高了分類(lèi)準(zhǔn)確率,因此本文所構(gòu)建的XGBoost-RF模型具有一定的合理性和有效性。進(jìn)一步,研究得出的結(jié)論對(duì)互聯(lián)網(wǎng)金融下個(gè)人信用風(fēng)險(xiǎn)評(píng)估的啟示如下:(1)在對(duì)德國(guó)信用數(shù)據(jù)集進(jìn)行特征選擇時(shí)發(fā)現(xiàn)“擔(dān)保人”對(duì)個(gè)人信用有較大影響,但國(guó)內(nèi)現(xiàn)有的個(gè)人信用評(píng)分機(jī)制對(duì)于貸款申請(qǐng)者的諸如“擔(dān)保人”等“人脈關(guān)系”指標(biāo)缺乏重視,因此相關(guān)企業(yè)在保護(hù)個(gè)人隱私的前提下可以完善“人脈關(guān)系”相關(guān)指標(biāo)的信息采集。(2)在個(gè)人信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域,大數(shù)據(jù)帶來(lái)了豐富的數(shù)據(jù)信息,更完整地勾勒出個(gè)人信用狀況。利用所有的數(shù)據(jù)進(jìn)行評(píng)估成本高且效率低,因此應(yīng)該探索更有效的方法進(jìn)行個(gè)人信用指標(biāo)的篩選,文中提出的XGBoost-RF模型是一個(gè)很好的嘗試。(3)近年的研究集中在分類(lèi)算法的改進(jìn)上,而算法的推陳出新花費(fèi)時(shí)間成本很高。本文指出選擇好度量指標(biāo)會(huì)達(dá)到事半功倍的效果,因此改善現(xiàn)有的個(gè)人信用評(píng)估指標(biāo)體系具有根本性的作用。企業(yè)需要審視現(xiàn)有指標(biāo)體系,積極探索挖掘?qū)€(gè)人信用具有重大影響的其他因素。本文將XGBoost算法引入傳統(tǒng)的隨機(jī)森林算法(RF)來(lái)優(yōu)化信用指標(biāo)的選擇,突破了以往研究中數(shù)據(jù)維數(shù)大、關(guān)聯(lián)性強(qiáng)所帶來(lái)的局限性,不足之處在于有些因素卻未能充分考慮。鑒于國(guó)內(nèi)相關(guān)個(gè)人信用數(shù)據(jù)的保密性,本文利用了公開(kāi)的德國(guó)信用數(shù)據(jù)集。考慮到互聯(lián)網(wǎng)的個(gè)人信用數(shù)據(jù)指標(biāo)在構(gòu)成上有所差異,并且在現(xiàn)實(shí)中個(gè)人信用水平往往被分為多個(gè)等級(jí),不僅限于“好”客戶(hù)和“壞”客戶(hù),因此研究效果有所減弱,但構(gòu)建的個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型以及研究成果對(duì)現(xiàn)階段工作仍有借鑒作用。未來(lái)的研究可以考慮在信用等級(jí)細(xì)分情況下多元分類(lèi)的問(wèn)題,以及大數(shù)據(jù)背景下對(duì)個(gè)人信用風(fēng)險(xiǎn)影響重大的其余指標(biāo)。

作者:周永圣 崔佳麗 周琳云 孫紅霞 劉淑芹 單位:北京工商大學(xué)