ClementineC5.0模型預(yù)測(cè)CDMA客戶(hù)流失

時(shí)間:2022-08-11 11:22:00

導(dǎo)語(yǔ):ClementineC5.0模型預(yù)測(cè)CDMA客戶(hù)流失一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢(xún)客服老師,歡迎參考。

ClementineC5.0模型預(yù)測(cè)CDMA客戶(hù)流失

摘要:該文針對(duì)目前電信行業(yè)中一個(gè)日益嚴(yán)峻的問(wèn)題:客戶(hù)離網(wǎng)進(jìn)行研究,通過(guò)收集客戶(hù)的基本數(shù)據(jù)、消費(fèi)數(shù)據(jù)和繳費(fèi)行為等數(shù)據(jù),建立客戶(hù)流失預(yù)測(cè)模型,進(jìn)行客戶(hù)流失分析及預(yù)測(cè)。通過(guò)對(duì)大量相關(guān)技術(shù)和統(tǒng)計(jì)方法的研究,最終確定了clementine的C5.0模型作為電信客戶(hù)流失的預(yù)測(cè)模型。此模型對(duì)客戶(hù)流失預(yù)測(cè)有較高的準(zhǔn)確性,為電信經(jīng)營(yíng)分析系統(tǒng)作了有益的嘗試與探索。

關(guān)鍵詞:數(shù)據(jù)挖掘;客戶(hù)流失;統(tǒng)計(jì)分析;C5.0模型;cdma客戶(hù)

1概述

以中國(guó)電信云南某公司的項(xiàng)目支撐為基礎(chǔ),從統(tǒng)計(jì)數(shù)據(jù)來(lái)看,維持5%的老用戶(hù)增長(zhǎng),給電信公司帶來(lái)的利潤(rùn)將遠(yuǎn)遠(yuǎn)超過(guò)85%,而要想把一位非電信用戶(hù)發(fā)展成客戶(hù),其成本將比保留一位老客戶(hù)的成本高得多,統(tǒng)計(jì)數(shù)據(jù)表明成本是4倍左右,此時(shí),客戶(hù)對(duì)電信的忠實(shí)程序也將發(fā)生強(qiáng)烈的變化,由此給企業(yè)造成的損失將大大增加。從項(xiàng)目的實(shí)施情況來(lái)看,為了保證成功向客戶(hù)推銷(xiāo)運(yùn)營(yíng)商的產(chǎn)品,多數(shù)人都只愿意向老客戶(hù)推銷(xiāo)。因?yàn)橛纱烁冻龅拇鷥r(jià)比用戶(hù)要小得多,成功率也要高得多。通過(guò)這些數(shù)據(jù)我們可以看到防范老客戶(hù)的流失相比發(fā)展新用戶(hù)來(lái)說(shuō)就顯得尤為重要了,這也是普遍企業(yè)最為關(guān)注的問(wèn)題之一。

2研究現(xiàn)狀及C5.0模型特點(diǎn)

在我們國(guó)內(nèi),很多運(yùn)營(yíng)商為了應(yīng)對(duì)市場(chǎng)的競(jìng)爭(zhēng),多數(shù)都己經(jīng)建立了“電信經(jīng)營(yíng)分析系統(tǒng)”,這在一定程序上為深層次的數(shù)據(jù)分析提供了良好的數(shù)據(jù)處理分析平臺(tái)。而目前國(guó)內(nèi)在數(shù)據(jù)利用上確遠(yuǎn)遠(yuǎn)不及國(guó)外的層次深,國(guó)內(nèi)的數(shù)據(jù)應(yīng)用主要集中在固定報(bào)表處理、查詢(xún)分析和個(gè)人的主觀探索,在更高領(lǐng)域的應(yīng)用如數(shù)據(jù)挖掘還不太成熟,更談不上深層次的應(yīng)用。而這些在國(guó)外,很多知名的電信運(yùn)營(yíng)商卻已經(jīng)能夠很好地利用數(shù)據(jù)挖掘技術(shù),以便通過(guò)建立客戶(hù)流失的模型,提升利潤(rùn)空間及對(duì)一些流失概率比較高的客戶(hù)進(jìn)行有針對(duì)的保留工作,這樣做的目的可能有效地控制入網(wǎng)用戶(hù)的流失。

Clementine作為一個(gè)數(shù)據(jù)挖掘軟件,給運(yùn)營(yíng)商創(chuàng)造了很好的數(shù)據(jù)處理應(yīng)用平臺(tái),在此平臺(tái)下,運(yùn)營(yíng)商可以有效地使用一些商業(yè)技術(shù)準(zhǔn)確、快捷地建立預(yù)測(cè)的模型,而后把由此模型生成的數(shù)據(jù)使用在推銷(xiāo)應(yīng)用領(lǐng)域。參照行業(yè)執(zhí)行標(biāo)準(zhǔn)CRISP-DM模型,我們可以有效地改進(jìn)決策過(guò)程,這不僅可以數(shù)據(jù)到更優(yōu)商業(yè)成果的數(shù)據(jù)挖掘。而且還可以這樣可以分析出哪些屬性是影響客戶(hù)流失的重要因素?,F(xiàn)在比較流行的流程包括決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、邏輯回歸、聚類(lèi)關(guān)聯(lián)性分析等。本文選擇的是C5.0模型節(jié)點(diǎn)來(lái)進(jìn)行電信的客戶(hù)流失預(yù)測(cè)。該模型的工作原理是根據(jù)在每個(gè)級(jí)別提供最大信息收獲的字段分割樣本,目標(biāo)字段必須為分類(lèi)字段,允許進(jìn)行多次多于兩個(gè)子組的分割。它通常會(huì)根據(jù)不同的字段再次分割由第一次分割定義的每個(gè)子樣本,且此過(guò)程會(huì)重復(fù)下去直到無(wú)法繼續(xù)分割子樣本。

C5.0可以生成兩種模型:

1)決策樹(shù)是對(duì)由算法建立的分割的簡(jiǎn)單描述,每個(gè)終端(或“葉”)節(jié)點(diǎn)可描述訓(xùn)練數(shù)據(jù)的特定子集,而訓(xùn)練數(shù)據(jù)中的每個(gè)觀測(cè)值都完全屬于樹(shù)中的某個(gè)終端節(jié)點(diǎn)。

2)規(guī)則集則是嘗試對(duì)單個(gè)記錄進(jìn)行預(yù)測(cè)的一組規(guī)則,規(guī)則集源自決策樹(shù),并且在某種程度上表示在決策樹(shù)中建立的經(jīng)簡(jiǎn)化或提取的信息版本。對(duì)于所存在的問(wèn)題,例如缺失數(shù)據(jù)和大量輸入字段,C5.0模型十分穩(wěn)健,通常不需要花費(fèi)很長(zhǎng)的訓(xùn)練時(shí)間用于估計(jì)。同時(shí)C5.0模型與其他模型類(lèi)型相比更容易理解,解釋起來(lái)更簡(jiǎn)明易懂。

3建構(gòu)并應(yīng)用C5.0模型

在clementine中使用C5.0模型進(jìn)行電信客戶(hù)流失預(yù)測(cè)的過(guò)程包括:找到數(shù)據(jù)源:本例中數(shù)據(jù)源為基于Excel的電子表格,打開(kāi)Clementine,在對(duì)話(huà)框中選擇數(shù)據(jù)源項(xiàng),可以直接雙擊我們要使用的Excel進(jìn)行編輯,在導(dǎo)入文件中選擇要用的數(shù)據(jù)源。然后在選項(xiàng)板中選擇字段節(jié)點(diǎn),進(jìn)行類(lèi)型編輯,設(shè)置客戶(hù)流失項(xiàng)為輸出項(xiàng)。接下來(lái)在建模里根據(jù)需要選擇合適的特征選項(xiàng),此時(shí),該節(jié)點(diǎn)會(huì)根據(jù)設(shè)置的條件(如缺失的百分比)篩選出可刪除的字段,如預(yù)測(cè)變量,依據(jù)我們的挖掘需求,保留的預(yù)測(cè)變量,并按重要性進(jìn)行排序。生成過(guò)濾節(jié)點(diǎn)后,在里面可看到保留了對(duì)輸出(也就是客戶(hù)的流失標(biāo)志)有影響的項(xiàng),去掉了對(duì)輸出沒(méi)什么影響的項(xiàng)??偟耐诰蜻^(guò)程和過(guò)濾如圖1-圖2所示。

接著我們?cè)谀P屠锩孢x擇C5.0模型,編輯模型的選項(xiàng),有四種用于構(gòu)建C5.0模型的訓(xùn)練方法:1.輸出類(lèi)型:指定希望生成的結(jié)果模型是決策樹(shù)還是規(guī)則集,根據(jù)CDMA客戶(hù)的性質(zhì)和要預(yù)測(cè)的是流失項(xiàng),在此選用決策樹(shù)模型。2.群體字符:如果選中此選項(xiàng),C5.0將試圖組合輸出字段中具有相似樣式的符號(hào)值。3.使用推進(jìn):這是C5.0算法的一個(gè)特殊方法用于提高其準(zhǔn)確率。工作原理是在序列中構(gòu)建多個(gè)模型,第一個(gè)模型按常規(guī)方式進(jìn)行構(gòu)建;構(gòu)建第二個(gè)模型時(shí),將焦點(diǎn)集中于由第一個(gè)模型誤分類(lèi)的記錄;構(gòu)建第三個(gè)模型時(shí),將焦點(diǎn)集中于第二個(gè)模型的錯(cuò)誤,依此類(lèi)推。最后,通過(guò)將整個(gè)模型集應(yīng)用到觀測(cè)值,并使用加權(quán)投票過(guò)程將單獨(dú)的預(yù)測(cè)組合為一個(gè)總預(yù)測(cè)來(lái)分類(lèi)觀測(cè)值。推進(jìn)可以顯著提高C5.0模型的準(zhǔn)確性,但也需要更長(zhǎng)的訓(xùn)練時(shí)間。4.交互驗(yàn)證:此項(xiàng)使用一組模型(根據(jù)訓(xùn)練數(shù)據(jù)的子集構(gòu)建)來(lái)估計(jì)某個(gè)模型(根據(jù)全部數(shù)據(jù)集構(gòu)建)的準(zhǔn)確性,可以指定用于交互驗(yàn)證的折疊次數(shù)或模型數(shù)。

C5.0有兩種模式提供選擇:1.簡(jiǎn)單模式:將試圖生成盡可能精確的樹(shù),但有時(shí)可能會(huì)導(dǎo)致過(guò)度擬合,從而在將此模型應(yīng)用于新數(shù)據(jù)時(shí)導(dǎo)致性能偏低。2.專(zhuān)家模式有以下幾點(diǎn):a.修剪嚴(yán)重性:確定對(duì)生成的決策樹(shù)或規(guī)則集的修剪程度,增加該值可獲得一個(gè)更簡(jiǎn)潔的小型樹(shù),減小該值可獲得一個(gè)更精確的樹(shù)。b.每個(gè)子分支的最小記錄數(shù):可使用子組的大小限制樹(shù)的任何分支中的分割數(shù),增加該值有助于防止使用噪聲數(shù)據(jù)進(jìn)行過(guò)度訓(xùn)練。c.使用全局修剪:分兩個(gè)階段修剪樹(shù),第一個(gè)階段是本地修剪,此時(shí)將檢查子樹(shù)并折疊分支以提高模型的準(zhǔn)確性。第二個(gè)階段是全局修剪,在此階段中將把樹(shù)視作一個(gè)整體并折疊虛弱的子樹(shù)。d.辨別屬性:此項(xiàng)將在開(kāi)始構(gòu)建模型之前檢查預(yù)測(cè)變量的有效性,如果發(fā)現(xiàn)不相關(guān)的預(yù)測(cè)變量,系統(tǒng)會(huì)自動(dòng)把它從模型構(gòu)建過(guò)程中排除。這個(gè)選項(xiàng)對(duì)于那些具有很多預(yù)測(cè)變量字段的模型非常有效,而且還可以有效地防止數(shù)據(jù)過(guò)于擬合。

單擊對(duì)話(huà)框下面的“執(zhí)行”按鈕后,這樣會(huì)在右面的窗口中生成的C5.0的模型,打開(kāi)此模型,我們可看到統(tǒng)計(jì)后的數(shù)據(jù)及此模型的準(zhǔn)確度和時(shí)間等信息,另外我們還可以在該模型中導(dǎo)出PMML或者SQL等。如果模型的準(zhǔn)確度已經(jīng)達(dá)到我們的要求,接下來(lái)將生成的模型導(dǎo)入到業(yè)務(wù)支撐系統(tǒng)中,根據(jù)需要在導(dǎo)出模板中選擇數(shù)據(jù)庫(kù),輸入服務(wù)器地址及數(shù)據(jù)庫(kù)名稱(chēng)。模型選項(xiàng)和導(dǎo)入SQL數(shù)據(jù)庫(kù)如圖3-圖4所示。

4數(shù)據(jù)分析和總結(jié)

經(jīng)過(guò)上面的操作,再對(duì)其進(jìn)行分析整理后,可以看出CDMA客戶(hù)流失的一些特征,如在使用彩鈴的客戶(hù)群中,有24%的流失率,遠(yuǎn)遠(yuǎn)超過(guò)不使用彩鈴的用戶(hù),而在這些客戶(hù)群中,使用彩鈴并且在網(wǎng)時(shí)長(zhǎng)大于25的客戶(hù),其流失率更高,達(dá)46%以上。這是要重點(diǎn)關(guān)注的用戶(hù)群。分析結(jié)果如圖5所示。

而在FEE_ALL這一項(xiàng)中,高端客戶(hù)的流失率較低,CDMA流失最嚴(yán)重的客戶(hù)群在月消費(fèi)為10至40的客戶(hù),流失率在22%以上,這也是占比最多的一部分。如果CDMA用戶(hù)捆綁有其他業(yè)務(wù),如我的e家等,則流失率較低。而在網(wǎng)時(shí)長(zhǎng)這一項(xiàng)中,在網(wǎng)時(shí)長(zhǎng)小于15的客戶(hù)是流失率較小。

由本研究不難看出,目前電信的客戶(hù)流失率是一個(gè)非常值得關(guān)注的問(wèn)題,對(duì)運(yùn)營(yíng)商造成影響是非常大的,因此電信運(yùn)營(yíng)商應(yīng)該特別注意容易流失的客戶(hù)群。挽留老客戶(hù),發(fā)展新用戶(hù)。經(jīng)過(guò)多個(gè)數(shù)據(jù)樣本分析處理得出本文整體的技術(shù)路線是非??尚械模珻5.0模型對(duì)電信客戶(hù)流失預(yù)測(cè)的準(zhǔn)確性是相當(dāng)高的,可以為該電信分公司的經(jīng)營(yíng)分析支撐系統(tǒng)提供很好的參考實(shí)施價(jià)值。