數(shù)據(jù)挖掘算法分析論文
時(shí)間:2022-03-04 08:21:00
導(dǎo)語(yǔ):數(shù)據(jù)挖掘算法分析論文一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢(xún)客服老師,歡迎參考。
一、引言
異??蛻?hù)是在一段考察時(shí)期內(nèi)與客戶(hù)的一般行為模式不一致的對(duì)象,它們往往被稱(chēng)為孤立點(diǎn)。異??蛻?hù)分析(即孤立點(diǎn)挖掘)具有重要的現(xiàn)實(shí)意義,對(duì)于一個(gè)企業(yè)來(lái)說(shuō),這些數(shù)據(jù)往往比常規(guī)的客戶(hù)模型信息更有價(jià)值。本文針對(duì)銷(xiāo)售企業(yè),假設(shè)已經(jīng)用一定的方法探測(cè)到了孤立點(diǎn),接下來(lái)采用最小二乘法擬合直線(xiàn)中的斜率分析其性質(zhì),從而確定是積極的客戶(hù)還是消極的客戶(hù)。
二、最小二乘法擬合直線(xiàn)
最小二乘法是一種數(shù)學(xué)優(yōu)化技術(shù)。它以某一社會(huì)、經(jīng)濟(jì)或自然現(xiàn)象為對(duì)象,尋找一擬合曲線(xiàn),以滿(mǎn)足給定對(duì)象系統(tǒng)的一組觀測(cè)數(shù)據(jù)。通常要求選擇的擬合曲線(xiàn)會(huì)使各觀測(cè)數(shù)據(jù)到擬合曲線(xiàn)的誤差的平方和最小。
本文研究銷(xiāo)售企業(yè)(如商場(chǎng))異常客戶(hù)的性質(zhì)。設(shè)一段時(shí)期內(nèi)客戶(hù)的累計(jì)消費(fèi)金額為y,對(duì)應(yīng)的消費(fèi)時(shí)期為x。假定測(cè)得客戶(hù)的n個(gè)數(shù)據(jù)(x1,y1),…,(xn,yn),則在XOY平面上可以得到n個(gè)實(shí)驗(yàn)點(diǎn):Pi(xi,yi)(i=1,…n),這種圖形稱(chēng)為“散點(diǎn)圖”(如圖1,圖2)。在利用最小二乘法進(jìn)行分析時(shí),各種非線(xiàn)性關(guān)系的擬合曲線(xiàn)均可線(xiàn)性化,因此此處選擇直線(xiàn)y=ax+b作為擬合直線(xiàn),尋求x與y之間近似線(xiàn)性關(guān)系時(shí)的經(jīng)驗(yàn)公式。其中a為直線(xiàn)的斜率,b為直線(xiàn)在y軸上的截距。
如果Pi(i=1,…n)全部位于同一條直線(xiàn)上,則可認(rèn)為變量之間的關(guān)系為y=ax+b,但一般情況下不會(huì)如此。記估計(jì)值=axi+b,則各實(shí)驗(yàn)點(diǎn)與擬合直線(xiàn)之間的誤差為εi=-yi=(axi+b)-yi,它反映了用直線(xiàn)y=ax+b來(lái)描述(xi,yi)時(shí),估計(jì)值與觀測(cè)值yi之間的偏差大小。則有:
要求偏差越小越好。但由于εi可正可負(fù),簡(jiǎn)單求和可能將很大的誤差抵消掉,只有平方和才能反映二者在總體上的接近程度,這就是最小二乘原則。于是問(wèn)題歸結(jié)為根據(jù)這一要求來(lái)確定y=ax+b中的a和b,使得最小。因?yàn)镕(a,b)是關(guān)于a、b的二次函數(shù)并且非負(fù),所以其極小值總是存在的。根據(jù)羅彼塔法則,F(xiàn)取最小值時(shí),有:
于是得到了符合最小二乘原則的相應(yīng)解:
三、基于斜率的異??蛻?hù)挖掘算法
1.問(wèn)題描述
本文的目的是研究某一消費(fèi)時(shí)期內(nèi),異常客戶(hù)的消費(fèi)傾向。取異??蛻?hù)一年內(nèi)各月份的累計(jì)消費(fèi)金額為參考,記錄的數(shù)據(jù)如下(表1,表2)。根據(jù)其散點(diǎn)圖(圖1,圖2)可以看出,客戶(hù)的累計(jì)消費(fèi)金額隨時(shí)間都呈上升趨勢(shì),所以難以觀察出該客戶(hù)是否對(duì)商場(chǎng)保持持久的忠誠(chéng)度,是否有轉(zhuǎn)向競(jìng)爭(zhēng)對(duì)手的可能。基于斜率的異??蛻?hù)挖掘算法正是要解決識(shí)別客戶(hù)性質(zhì)這一問(wèn)題。
2.算法描述
算法:Outlier_Analysis。根據(jù)輸出的a值來(lái)判斷異??蛻?hù)的性質(zhì):積極的或消極的。
輸入:客戶(hù)數(shù)據(jù),即參考點(diǎn),由有序點(diǎn)對(duì)(xi,yi)表示;參考點(diǎn)的個(gè)數(shù)n。
輸出:a(直線(xiàn)的斜率),b(直線(xiàn)在y軸上的截距)。
方法:
(1)初始化a、b。
(2)對(duì)客戶(hù)的n個(gè)觀測(cè)數(shù)據(jù)(即n個(gè)記錄點(diǎn))進(jìn)行相關(guān)數(shù)據(jù)計(jì)算:
(3)ifa<0then
客戶(hù)購(gòu)買(mǎi)金額呈減少趨勢(shì),為消極客戶(hù)
else
客戶(hù)購(gòu)買(mǎi)金額呈上升趨勢(shì),為積極客戶(hù)
四、結(jié)論
把客戶(hù)在一段時(shí)間內(nèi)(可按年進(jìn)行縱向比較,也可按月、季度等進(jìn)行橫向比較)的購(gòu)買(mǎi)總金額作為參考點(diǎn),取連續(xù)的n個(gè)參考點(diǎn),根據(jù)最小二乘法原來(lái)對(duì)它們做直線(xiàn)擬和。取閾值為0,根據(jù)直線(xiàn)性質(zhì),如果擬合直線(xiàn)的斜率小于這個(gè)閾值,則這個(gè)客戶(hù)在這段時(shí)間內(nèi)對(duì)該企業(yè)的購(gòu)買(mǎi)金額持續(xù)減少,并且斜率的絕對(duì)值越大,客戶(hù)的購(gòu)買(mǎi)金額持續(xù)減少的越厲害。反之,若斜率大于這個(gè)閾值,則這個(gè)客戶(hù)在這段時(shí)間內(nèi)對(duì)該企業(yè)的購(gòu)買(mǎi)金額持續(xù)增加,并且斜率越大,客戶(hù)的購(gòu)買(mǎi)金額持續(xù)增加的越厲害。根據(jù)這一分析結(jié)果,商場(chǎng)可有效識(shí)別異常客戶(hù)的性質(zhì),從而有針對(duì)性地進(jìn)行目標(biāo)營(yíng)銷(xiāo)——采取有效策略加強(qiáng)與消極客戶(hù)的溝通,以改善客戶(hù)對(duì)商場(chǎng)的已有認(rèn)知;繼續(xù)保持與積極客戶(hù)的良好關(guān)系,以提升其生命周期價(jià)值。
熱門(mén)標(biāo)簽
數(shù)據(jù)分析論文 數(shù)據(jù)挖掘論文 數(shù)據(jù)安全論文 數(shù)據(jù)管理論文 數(shù)據(jù)庫(kù)論文 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)誤差 數(shù)據(jù)采集 數(shù)據(jù)通信論文 數(shù)據(jù) 心理培訓(xùn) 人文科學(xué)概論