網(wǎng)絡(luò)爬蟲基本原理范文

時(shí)間:2023-11-20 17:28:40

導(dǎo)語:如何才能寫好一篇網(wǎng)絡(luò)爬蟲基本原理,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。

網(wǎng)絡(luò)爬蟲基本原理

篇1

>> ASP網(wǎng)站數(shù)據(jù)庫的安全漏洞和防范策略的研究 GoogleHacking的入侵原理及防范策略 網(wǎng)站數(shù)據(jù)庫的安全防范及對(duì)策 主動(dòng)監(jiān)聽技術(shù)原理及防范策略研究 網(wǎng)站統(tǒng)計(jì)中的數(shù)據(jù)收集原理 基于ThinkPHP的野外數(shù)據(jù)采集系統(tǒng)網(wǎng)站的搭建與研究 學(xué)校網(wǎng)站存在的安全隱患及防范策略 GPS數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)及實(shí)施研究 視頻數(shù)據(jù)采集系統(tǒng)的原理及其應(yīng)用 淺析數(shù)據(jù)采集系統(tǒng)中典型的模數(shù)轉(zhuǎn)換原理 典型網(wǎng)絡(luò)欺騙攻擊原理及防范的研究 網(wǎng)站注入式攻擊的原理與防范 網(wǎng)站數(shù)據(jù)庫的安全防范及對(duì)策淺談 淺析網(wǎng)站數(shù)據(jù)庫的安全防范及對(duì)策 計(jì)算機(jī)數(shù)據(jù)安全的探討及防范策略 基于云計(jì)算的數(shù)據(jù)安全風(fēng)險(xiǎn)及防范策略 測(cè)試系統(tǒng)的數(shù)據(jù)采集及通訊 DLL木馬的原理及其防范策略 閥門數(shù)據(jù)采集系統(tǒng)的硬件研究 基于數(shù)據(jù)采集平臺(tái)的高職院校師資隊(duì)伍建設(shè)策略研究 常見問題解答 當(dāng)前所在位置:l。因此,只需要使用變量替換代表每頁地址變化的字符即可獲得相應(yīng)的頁面地址。目前,一個(gè)Web頁面的分頁頁面中內(nèi)容的超鏈接一般表示如下:連接

,只需要編寫適當(dāng)?shù)拇a既可以獲取該頁內(nèi)容所對(duì)應(yīng)的URL鏈接。在動(dòng)態(tài)生成的頁面中大多數(shù)內(nèi)容頁面中都包含相同的html標(biāo)記,因此可以根據(jù)已定義規(guī)則的標(biāo)記提取相關(guān)的需要部分的內(nèi)容。例如:每個(gè)Web頁面都有相應(yīng)的標(biāo)題,代碼中呈現(xiàn)為標(biāo)題,編寫相應(yīng)的MID截取函數(shù)就可以獲得兩個(gè)title標(biāo)簽之間標(biāo)題,也可以用正則表達(dá)式來獲取,如:body("標(biāo)題","","")[3]。

圖1 網(wǎng)站數(shù)據(jù)采集基本原理圖

3 網(wǎng)站防采集策略

目前,常用的網(wǎng)站數(shù)據(jù)防采集策略包括以下幾種:

1)通過在單位時(shí)間內(nèi)限制固定IP地址對(duì)同一個(gè)網(wǎng)站所有站點(diǎn)的訪問次數(shù)來避免網(wǎng)站數(shù)據(jù)采集。

一般情況下,用戶在正常訪問某一個(gè)網(wǎng)站時(shí)不會(huì)在極短的時(shí)間內(nèi)多次訪問同一個(gè)網(wǎng)站,只有網(wǎng)絡(luò)引擎爬蟲和網(wǎng)站數(shù)據(jù)采集工具會(huì)造成這樣的現(xiàn)象。但是這種方法容易造成誤判,并且如何設(shè)計(jì)時(shí)間的閾值是這種方法的關(guān)鍵。

2)通過人工的方式屏蔽可疑的訪問源IP。

網(wǎng)站的管理人員通過在后臺(tái)設(shè)置計(jì)數(shù)器來記錄訪問的源IP及在單位時(shí)間內(nèi)的訪問頻率,進(jìn)而通過人工干預(yù)的方式判斷并屏蔽可疑的IP地址。這種方法適用于小型的網(wǎng)站,大型的網(wǎng)站可能需要大量的人力來進(jìn)行,同時(shí)這種方法難以解決通過的方式進(jìn)行數(shù)據(jù)采集的問題。

3)將網(wǎng)站的內(nèi)容以flas、圖片或者PDF文檔的格式進(jìn)行呈現(xiàn)。

目前的搜索引擎爬蟲和網(wǎng)站數(shù)據(jù)采集工具還不具備對(duì)PDF文檔和圖片的識(shí)別和分析能力。這種方法能夠有效地避免網(wǎng)站數(shù)據(jù)被非法采集,但是它的適用面較窄,僅適用于一些用于多媒體視覺呈現(xiàn)的網(wǎng)站。

4)通過在網(wǎng)頁內(nèi)嵌套藏網(wǎng)站的版權(quán)信息或者利用水印技術(shù)對(duì)Web頁面進(jìn)行加密。

一般情況下,這些用于保護(hù)網(wǎng)站數(shù)據(jù)的信息被寫在了相應(yīng)的CSS文件中。這種方法雖然不能阻止網(wǎng)站數(shù)據(jù)被非法采集,但它能夠使得被采集的數(shù)據(jù)無法完整的呈現(xiàn)在其他網(wǎng)站中。因?yàn)?,網(wǎng)站數(shù)據(jù)采集工具或網(wǎng)絡(luò)爬蟲一般不會(huì)同時(shí)采集網(wǎng)站中的CSS文件,那些數(shù)據(jù)丟失了相應(yīng)的格式化設(shè)置,就被顯示出來了。

5)通過在網(wǎng)站中對(duì)訪問者設(shè)置權(quán)限來保護(hù)數(shù)據(jù)。

這種方法要求用戶只有在登錄了系統(tǒng)后才能夠?yàn)g覽網(wǎng)站的數(shù)據(jù)。自動(dòng)化的數(shù)據(jù)采集工具和網(wǎng)絡(luò)爬蟲無法對(duì)每一個(gè)網(wǎng)站進(jìn)行登錄,這種方法可極大程度上避免數(shù)據(jù)被采集,但同時(shí)網(wǎng)站的用戶友好性就降低了。

6)利用腳本語言對(duì)網(wǎng)站做隱藏分頁設(shè)置

由于網(wǎng)站數(shù)據(jù)采集工具和網(wǎng)絡(luò)爬蟲不會(huì)針對(duì)一個(gè)網(wǎng)站的隱藏分頁進(jìn)行數(shù)據(jù)的分析,因此,這種方法能夠有效地阻止自動(dòng)化工具對(duì)網(wǎng)站數(shù)據(jù)的采集。這種方法適用于對(duì)搜索引擎依賴度不高的網(wǎng)站,同時(shí)它無法阻止人工進(jìn)行網(wǎng)站數(shù)據(jù)的采集。

7)對(duì)于動(dòng)態(tài)的網(wǎng)站,可以采用隨機(jī)的模版避免非法數(shù)據(jù)采集。

由于網(wǎng)站數(shù)據(jù)采集工具是根據(jù)網(wǎng)頁特定的結(jié)構(gòu)來定位所需要采集的數(shù)據(jù),一旦網(wǎng)站的模版出現(xiàn)變更,采集工具中事前設(shè)定好的采集規(guī)則就會(huì)失效,這樣就可以避免網(wǎng)站的數(shù)據(jù)被非法地采集。這種方法造成的問題是破壞網(wǎng)站的用戶友好性。

8)在網(wǎng)頁中使用動(dòng)態(tài)不規(guī)則的html標(biāo)簽代替?zhèn)鹘y(tǒng)的靜態(tài)html標(biāo)簽。

在html標(biāo)簽中包含空格和不包含空格的效果是一樣的,因此包含和不包含和< div>標(biāo)簽,在頁面顯示中的效果也是一樣的。但是一般的網(wǎng)站數(shù)據(jù)采集工具中,這兩個(gè)是完全不同的標(biāo)記。因此,隨機(jī)地在每個(gè)頁面的html標(biāo)簽中添加若干個(gè)空格數(shù)就會(huì)導(dǎo)致網(wǎng)站數(shù)據(jù)采集工具相應(yīng)的規(guī)則失效。但是這種方法違反了網(wǎng)頁設(shè)計(jì)的規(guī)范。

4 結(jié)論

隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展和個(gè)人PC機(jī)的不斷普及,越來越多人參與到網(wǎng)站的建設(shè)和維護(hù)中。如何有效地避免網(wǎng)站中的數(shù)據(jù)被非法的采集是每一個(gè)網(wǎng)管員必須掌握技能。該文主要研究了網(wǎng)站數(shù)據(jù)采集的基本原理和八種常用的網(wǎng)站數(shù)據(jù)防采集的方法,希望能為網(wǎng)站的建設(shè)和維護(hù)提供更多的幫助,。

參考文獻(xiàn):

[1] 巫志勇.基于XMLHTTP的網(wǎng)站數(shù)據(jù)自動(dòng)采集[J].福建電腦,2007(01).

篇2

【關(guān)鍵詞】小世界模型;社團(tuán)分析;復(fù)雜網(wǎng)絡(luò)

0引言

隨著EMBA教育逐漸為社會(huì)各界所熟識(shí),EMBA培養(yǎng)院校的招生工作目前面臨巨大壓力。從市場(chǎng)競(jìng)爭(zhēng)的格局來看:一方面,國(guó)內(nèi)EMBA院校已經(jīng)達(dá)到64所,加上境外大學(xué)的教學(xué)項(xiàng)目,在國(guó)內(nèi)招生的EMBA項(xiàng)目已經(jīng)近百所,而且還有繼續(xù)擴(kuò)大的趨勢(shì),未來的競(jìng)爭(zhēng)會(huì)更加激烈。另一方面,隨著MBA和其他碩士教育的迅速普及,未來EMBA的申請(qǐng)人數(shù)量將呈逐年下降的趨勢(shì)。這使得市場(chǎng)競(jìng)爭(zhēng)態(tài)勢(shì)更加雪上加霜,商學(xué)院必須有所轉(zhuǎn)變,不能取得某一細(xì)分市場(chǎng)優(yōu)勢(shì)地位的EMBA項(xiàng)目,或者沒有建立自己品牌特色的項(xiàng)目將面臨生存危機(jī)。

在各培養(yǎng)院校的招生過程中,尤其是EMBA項(xiàng)目的市場(chǎng)調(diào)研中,如何在龐大的數(shù)據(jù)、人際關(guān)系網(wǎng)絡(luò)中找到關(guān)鍵節(jié)點(diǎn),進(jìn)而通過關(guān)鍵節(jié)點(diǎn)尋找到適合EMBA招生的生源群體,是目前EMBA招生環(huán)節(jié)中的關(guān)鍵問題。當(dāng)今社會(huì)的人際關(guān)系網(wǎng)絡(luò)錯(cuò)綜復(fù)雜,變化萬千,如何對(duì)人際關(guān)系進(jìn)行系統(tǒng)性的描述和梳理,劃分出相應(yīng)的群體并研究他們的共同特征,是系統(tǒng)科學(xué)中十分關(guān)鍵的問題。復(fù)雜網(wǎng)絡(luò)理論由于其具有小世界、集群等特性,十分適用于對(duì)社會(huì)網(wǎng)絡(luò)即人際關(guān)系網(wǎng)絡(luò)中的人群進(jìn)行分類與描述,進(jìn)而尋找出人際關(guān)系網(wǎng)絡(luò)的關(guān)鍵節(jié)點(diǎn)和群體,為尋找出潛在招生對(duì)象提供依據(jù)。

1相關(guān)工作

現(xiàn)代市場(chǎng)營(yíng)銷職能體系包括商品銷售、市場(chǎng)調(diào)查研究、生產(chǎn)與供應(yīng)、創(chuàng)造市場(chǎng)要求和協(xié)調(diào)平衡公共關(guān)系五大職能。對(duì)于高等教育市場(chǎng)來看,高等教育提供的產(chǎn)品就是教育,教育市場(chǎng)有市場(chǎng)的需求,同時(shí)也具備了價(jià)值交換的能力,所以教育活動(dòng)完全可以與市場(chǎng)接軌參與市場(chǎng)競(jìng)爭(zhēng)。人際關(guān)系網(wǎng)絡(luò)是一個(gè)錯(cuò)綜復(fù)雜、變化萬千的復(fù)雜系統(tǒng)。近年來隨著復(fù)雜網(wǎng)絡(luò)研究的興起,人們?cè)谶@些理論的指導(dǎo)下能夠更好的了解和解釋現(xiàn)實(shí)世界的很多現(xiàn)象,比如反映社區(qū)特性的“物以類聚、人以群分”現(xiàn)象、反映小世界特性的“六度分隔”現(xiàn)象,以及反映復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)的不對(duì)等特性的“馬太效應(yīng)”等等。在很好的理解和解釋了這些現(xiàn)象的基礎(chǔ)上,研究者開始嘗試?yán)眠@些理論去幫助人們利用這些現(xiàn)象,并開發(fā)了很多的實(shí)際的應(yīng)用和系統(tǒng)。例如:城市交通網(wǎng)絡(luò)、電子商務(wù)推薦系統(tǒng)、人際關(guān)系挖掘系統(tǒng)等。

近年來,學(xué)界關(guān)于復(fù)雜網(wǎng)絡(luò)的研究方興未艾。1998年Watts和Strogatz在Nature雜志上發(fā)表文章,引入了小世界(Small-World)網(wǎng)絡(luò)模型,以描述從完全規(guī)則網(wǎng)絡(luò)到完全隨機(jī)網(wǎng)絡(luò)的轉(zhuǎn)變。小世界網(wǎng)絡(luò)既具有與規(guī)則網(wǎng)絡(luò)類似的聚類特性,又具有與隨機(jī)網(wǎng)絡(luò)類似的較小的平均路徑長(zhǎng)度。二是1999年Barabasi和Albert在science上發(fā)表文章指出,許多實(shí)際的復(fù)雜網(wǎng)絡(luò)的連接度分布具有冪律形式。由于冪律分布沒有明顯的特征長(zhǎng)度,該類網(wǎng)絡(luò)又被稱為無標(biāo)度(Scale-Free)網(wǎng)絡(luò)。而后科學(xué)家們又研究了各種復(fù)雜網(wǎng)絡(luò)的各種特性。

在人際關(guān)系網(wǎng)絡(luò)獲取方面,由于網(wǎng)絡(luò)內(nèi)不僅節(jié)點(diǎn)眾多,而且關(guān)系的分類也多種多樣。因此獲取人際關(guān)系是一項(xiàng)非常復(fù)雜的工程,歷史上幾次比較大規(guī)模的實(shí)驗(yàn)也僅僅是采用書信或者政府檔案的方式,覆蓋面十分有限。隨著網(wǎng)絡(luò)的發(fā)展,互聯(lián)網(wǎng)的內(nèi)容日新月異,互聯(lián)網(wǎng)成為了最大的非結(jié)構(gòu)化數(shù)據(jù)庫,使從網(wǎng)絡(luò)中探索人際關(guān)系成為了可能。目前網(wǎng)絡(luò)的關(guān)系獲取方法主要有兩種:關(guān)系搜索引擎和社區(qū)資源。關(guān)系搜索引擎的的基本原理是利用網(wǎng)絡(luò)爬蟲從網(wǎng)頁中抽取出人名、地名、機(jī)構(gòu)名以及中文短語,再根據(jù)算法計(jì)算出他們存在關(guān)系的可能性。現(xiàn)階段國(guó)內(nèi)的關(guān)系搜索引擎有微軟人立方(http://renlifang.msra.cn/)、雅虎人物搜索和搜搜華爾茲(http://tag.soso.com/)。但是由于網(wǎng)頁的來源比較復(fù)雜,而且存在重名的問題,得到的結(jié)果往往不精確,難以真實(shí)的表現(xiàn)出真實(shí)的人際關(guān)系。第二種搜索方式則是利用網(wǎng)絡(luò)中現(xiàn)有的社區(qū)資源,對(duì)其信息進(jìn)行抓取,得到的信息雖然規(guī)模有限,但是可以確定所有節(jié)點(diǎn)信息,具有更強(qiáng)的結(jié)構(gòu)化特性,更加符合真實(shí)人際關(guān)系的無標(biāo)度和小世界特性。

2基于復(fù)雜網(wǎng)絡(luò)的招生生源社團(tuán)分析方法

2.1系統(tǒng)的設(shè)計(jì)目標(biāo)與創(chuàng)新點(diǎn)

在整個(gè)人際關(guān)系網(wǎng)絡(luò)中,存在一些子網(wǎng),它們對(duì)于其內(nèi)部的節(jié)點(diǎn)具有高類聚性,而對(duì)于子網(wǎng)外部節(jié)點(diǎn)的連接確相對(duì)稀疏的特性,我們稱之為人群的社團(tuán)結(jié)構(gòu)。

通過實(shí)現(xiàn)社團(tuán)劃分系統(tǒng),并對(duì)真實(shí)人際關(guān)系網(wǎng)絡(luò)進(jìn)行處理和分析,研究復(fù)雜網(wǎng)絡(luò)社團(tuán)劃分技術(shù)在未來人際關(guān)系網(wǎng)絡(luò)處理上的潛在應(yīng)用以及較以前撒網(wǎng)式處理方式的優(yōu)勢(shì)。本系統(tǒng)希望能夠?qū)φ猩吹娜穗H關(guān)系網(wǎng)絡(luò)進(jìn)行分析,尋找出人際關(guān)系中的關(guān)鍵節(jié)點(diǎn)以及關(guān)鍵社團(tuán)信息,以此為EMBA招生生源選取以及宣傳廣告的定向投放目標(biāo)選擇提供必要依據(jù)。

該方法是對(duì)傳統(tǒng)市場(chǎng)調(diào)查分析、廣告宣傳領(lǐng)域的再思考,相比廣泛撒網(wǎng)式的宣傳與調(diào)查,該方法具有效率高、定位準(zhǔn)確、耗費(fèi)人力物力較少、資源可重復(fù)利用性強(qiáng)等優(yōu)點(diǎn),十分適合于解決EMBA面臨的招生生源困難這一具體問題。

2.2網(wǎng)絡(luò)社區(qū)的選擇

選取網(wǎng)絡(luò)社區(qū)需要綜合考慮多方面因素:

(1)關(guān)系要真實(shí)有效,即網(wǎng)絡(luò)的好友關(guān)系能比較客觀的反映出現(xiàn)實(shí)生活中的好友關(guān)系。

(2)關(guān)系網(wǎng)絡(luò)要足夠大,僅僅包括幾千個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)能夠在非常短的時(shí)間內(nèi)遍歷完畢,不能夠反映出來真實(shí)人際關(guān)系非常難以獲取的特點(diǎn),不具有研究?jī)r(jià)值。

(3)關(guān)系網(wǎng)絡(luò)可以比較方便的獲得,部分網(wǎng)絡(luò)社區(qū)采用了加密設(shè)置,非注冊(cè)用戶不能夠獲得其他人的好友關(guān)系,雖然從技術(shù)上可以進(jìn)行破解,但是存在較大的風(fēng)險(xiǎn)。

(4)社區(qū)允許爬蟲進(jìn)行抓取,對(duì)于需要的頁面不存在robot.txt的限制。

(5)服務(wù)器比較強(qiáng)大,可以應(yīng)對(duì)每秒鐘幾百次(包括爬蟲的訪問次數(shù)在內(nèi))的請(qǐng)求。

經(jīng)過對(duì)國(guó)內(nèi)較大的幾家SNS(社會(huì)性網(wǎng)絡(luò)服務(wù))網(wǎng)站的測(cè)試分析,最終選取了聚友網(wǎng)(http://myspace.cn)作為實(shí)驗(yàn)的樣本。聚友網(wǎng)是以SNS為基礎(chǔ)的娛樂平臺(tái),是全球最大的在線交友平臺(tái)之一MySpace的中國(guó)本地化網(wǎng)站,符合以上幾點(diǎn)要求,且服務(wù)器可供校園網(wǎng)訪問。聚友網(wǎng)(Myspace),是以SNS為基礎(chǔ)的娛樂平臺(tái),是全球最大的在線交友平臺(tái)Myspace的中國(guó)本地化網(wǎng)站,提供免費(fèi)的微型博客、個(gè)人主頁、個(gè)人空間、電子相冊(cè)、博客空間、音樂盒視頻上傳空間等服務(wù)。我們所要采用的Myspace網(wǎng)絡(luò)是從該網(wǎng)站的眾多用戶中,使用網(wǎng)絡(luò)爬蟲技術(shù)獲得的其中的13569個(gè)用戶,網(wǎng)絡(luò)中包含了99185條關(guān)系,兩個(gè)節(jié)點(diǎn)之間的一條邊則意味著相應(yīng)的兩個(gè)用戶之間互為好友關(guān)系。

2.3招生生源社團(tuán)分析系統(tǒng)

招生生源社團(tuán)劃分系統(tǒng)包括爬蟲獲取信息、關(guān)系分析、數(shù)據(jù)讀入、數(shù)據(jù)顯示、社團(tuán)劃分和數(shù)據(jù)顯示六個(gè)個(gè)部分。網(wǎng)絡(luò)爬蟲系統(tǒng)將分析出的典型社會(huì)網(wǎng)絡(luò)信息,經(jīng)過關(guān)系分析處理,最終存儲(chǔ)成為網(wǎng)絡(luò)原始結(jié)構(gòu)數(shù)據(jù)。用戶可以使用社團(tuán)劃分系統(tǒng)讀入已有的人際關(guān)系網(wǎng)絡(luò)數(shù)據(jù),并讓系統(tǒng)對(duì)其進(jìn)行社團(tuán)劃分。在系統(tǒng)運(yùn)行算法完畢后,將會(huì)自動(dòng)保存對(duì)該人際關(guān)系網(wǎng)絡(luò)社團(tuán)劃分后的最終結(jié)果,用戶可以通過窗口查看各個(gè)社團(tuán)所包含的派系、節(jié)點(diǎn)等信息,被查看的社團(tuán)還可以用圖片的形式顯示出來。

其中各模塊的功能如下:

爬蟲模塊:負(fù)責(zé)從典型社交網(wǎng)絡(luò)中獲取社交信息。

關(guān)系分析模塊:負(fù)責(zé)將社交信息之間的關(guān)系進(jìn)行處理并存儲(chǔ)形成網(wǎng)絡(luò)原始結(jié)構(gòu)數(shù)據(jù)。

數(shù)據(jù)讀入:讀入系統(tǒng)需要分析的原始數(shù)據(jù)。

數(shù)據(jù)寫出:將經(jīng)過社團(tuán)劃分系統(tǒng)處理后的數(shù)據(jù)保存到文檔中。

數(shù)據(jù)顯示:在社團(tuán)劃分系統(tǒng)中顯示社團(tuán)劃分的結(jié)果。

社團(tuán)劃分:核心算法,分為2個(gè)部分。第一步,尋找原始數(shù)據(jù)中所有的派系;第二步,通過派系重疊矩陣劃分出k-派系社團(tuán)。

3實(shí)驗(yàn)與分析

3.1招生生源社團(tuán)分析系統(tǒng)

社團(tuán)劃分系統(tǒng)采用了復(fù)雜網(wǎng)絡(luò)社團(tuán)劃分技術(shù)中的派系過濾算法為其主要核心。本章主要是使用社團(tuán)劃分系統(tǒng)分析Myspace這一真實(shí)的人際關(guān)系網(wǎng)絡(luò),將獲得的社團(tuán)結(jié)果和統(tǒng)計(jì)結(jié)果與實(shí)際情況相對(duì)比,測(cè)試核心算法在系統(tǒng)中是否正確的運(yùn)行,并驗(yàn)證得出利用社團(tuán)劃分系統(tǒng)分析學(xué)生的人際關(guān)系網(wǎng)絡(luò),能夠得到合理的社團(tuán)結(jié)構(gòu),滿足尋找潛在生源的目的,為EMBA招生起到提高宣傳推廣效率的作用。

聚友網(wǎng)(Myspace),是以SNS為基礎(chǔ)的娛樂平臺(tái),是全球最大的在線交友平臺(tái)Myspace的中國(guó)本地化網(wǎng)站,提供免費(fèi)的微型博客、個(gè)人主頁、個(gè)人空間、電子相冊(cè)、博客空間、音樂盒視頻上傳空間等服務(wù)。我們所要采用的Myspace網(wǎng)絡(luò)是從該網(wǎng)站的眾多用戶中,使用網(wǎng)絡(luò)爬蟲技術(shù)獲得的其中的13569個(gè)用戶,網(wǎng)絡(luò)中包含了99185條關(guān)系,兩個(gè)節(jié)點(diǎn)之間的一條邊則意味著相應(yīng)的兩個(gè)用戶之間互為好友關(guān)系。下圖展示了Myspace的好友關(guān)系圖。

圖3Myspace網(wǎng)絡(luò)用戶關(guān)系展示

3.2系統(tǒng)分析結(jié)果

通過社團(tuán)劃分系統(tǒng)對(duì)Myspace網(wǎng)絡(luò)的分析,我們共獲得各派系共12446個(gè),派系社團(tuán)559個(gè)。下圖為使用社團(tuán)劃分系統(tǒng)分析Myspace網(wǎng)絡(luò)后,獲得的一個(gè)17-派系社團(tuán)結(jié)構(gòu)(k=17)和一個(gè)33-派系社團(tuán)結(jié)構(gòu)(k=33)。

圖4Myspace網(wǎng)絡(luò)的一個(gè)17-派系社團(tuán)(k=17)

圖5Myspace網(wǎng)絡(luò)的一個(gè)33-派系社團(tuán)(k=33)

3.3結(jié)果分析

選取Myspace網(wǎng)絡(luò)社團(tuán)劃分結(jié)果中的3-派系社團(tuán)(k=3)、4派系社團(tuán)(k=4)和5派系社團(tuán)(k=5)作為我們的分析目標(biāo)。

經(jīng)統(tǒng)計(jì)分析,Myspace網(wǎng)絡(luò)中3-派系社團(tuán)(k=3)、4派系社團(tuán)(k=4)和5派系社團(tuán)(k=5)的社團(tuán)大小分布圖(SizeDistribution)和重疊量分布圖(OverlapDistribution)如下圖所示。

我們可以看到,無論社團(tuán)大小分布圖還是重疊量分布圖都大致滿足冪律分布,且隨著k值的減小,曲線變得更為平滑。但是當(dāng)k值比較大時(shí),因?yàn)樯鐖F(tuán)較少,所以曲線呈現(xiàn)鋸齒狀圖樣,這可能是因?yàn)樵谑褂镁W(wǎng)絡(luò)爬蟲技術(shù)對(duì)Myspace網(wǎng)站進(jìn)行數(shù)據(jù)收集時(shí),由于該網(wǎng)站用戶數(shù)量十分的龐大,網(wǎng)絡(luò)爬蟲并沒有存儲(chǔ)所有的用戶信息,而只是選取了其中13569個(gè)用戶來組成的Myspace網(wǎng)絡(luò)。盡管Myspace網(wǎng)絡(luò)基本滿足應(yīng)有的小世界及無標(biāo)度特性,但從上圖可以看出,其數(shù)據(jù)集仍然存在著缺陷。

3.4小結(jié)

3.4.1測(cè)試結(jié)果

首先,系統(tǒng)總體效率需要提高,無論是派系過濾算法還是系統(tǒng)其它功能,在分析Myspace網(wǎng)絡(luò)中效率都顯得比較低,這在之前分析較小規(guī)模的網(wǎng)絡(luò)上并不是十分明顯。然后,社團(tuán)劃分的統(tǒng)計(jì)結(jié)果在大體上還是滿足冪律分布的,本文認(rèn)為這是因?yàn)镸yspace網(wǎng)絡(luò)數(shù)據(jù)集存在的缺陷引起的,并不是因?yàn)樯鐖F(tuán)劃分系統(tǒng)算法運(yùn)行的問題??紤]到Myspace網(wǎng)站龐大的用戶數(shù)量、測(cè)試條件與個(gè)人能力的限制,總體測(cè)試的結(jié)果還是可以接受的。最后,盡管派系過濾算法本身的時(shí)間復(fù)雜度偏高、計(jì)算量大,但是在更新更快的社團(tuán)劃分算法開發(fā)出來之前,它是分析大型復(fù)雜網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)最符合實(shí)際要求的算法。

3.4.2應(yīng)用驗(yàn)證

Mysapce網(wǎng)絡(luò)規(guī)模較大,因此要想直接觀察其社團(tuán)結(jié)構(gòu)是非常不方便的,所以我們采用社團(tuán)結(jié)構(gòu)的統(tǒng)計(jì)特性來進(jìn)行驗(yàn)證。對(duì)社團(tuán)劃分系統(tǒng)分析Myspace網(wǎng)絡(luò)所獲得的社團(tuán)結(jié)構(gòu)進(jìn)行統(tǒng)計(jì)分析,我們可以看出社團(tuán)劃分系統(tǒng)在大型人際關(guān)系網(wǎng)絡(luò)分析中依然可以獲得合理的結(jié)果。學(xué)校招生應(yīng)用中,即使面對(duì)大規(guī)模的學(xué)生人際關(guān)系網(wǎng)絡(luò),也能夠得到較為準(zhǔn)確的結(jié)果,這在提高學(xué)校招生宣傳的精準(zhǔn)度上有良好促進(jìn)作用。

4結(jié)束語

本文通過對(duì)市場(chǎng)營(yíng)銷理論的研究,對(duì)如何將教育營(yíng)銷理論融入到EMBA招生這一具體問題進(jìn)行了分析與探討。本文通過將復(fù)雜網(wǎng)絡(luò)理論引入教育營(yíng)銷中,分析人際關(guān)系網(wǎng)絡(luò)中的復(fù)雜網(wǎng)絡(luò)特性,尤其是其聚集聚團(tuán)性,并根據(jù)該性質(zhì)設(shè)計(jì)并實(shí)現(xiàn)了一套適用于EMBA招生生源獲取的人際關(guān)系社團(tuán)分析系統(tǒng)。對(duì)典型的社會(huì)網(wǎng)絡(luò)(Myspace網(wǎng)絡(luò))實(shí)例的分析結(jié)果表明,該社團(tuán)分析系統(tǒng)可以很好的對(duì)人際關(guān)系網(wǎng)絡(luò)社團(tuán)性質(zhì)進(jìn)行發(fā)現(xiàn)和獲取,為學(xué)校招生應(yīng)用中,即使面對(duì)大規(guī)模的學(xué)生人際關(guān)系網(wǎng)絡(luò),也能夠得到較為準(zhǔn)確的結(jié)果,這在提高學(xué)校招生宣傳的精準(zhǔn)度上有良好促進(jìn)作用。

【參考文獻(xiàn)】 

[1]張新民.中國(guó)EMBA教育透視[J].企業(yè)管理,2004(05). 

[2]曾小軍.民辦高校引入營(yíng)銷理念與招生策略研究[J].教育導(dǎo)刊,2009(09). 

[3]周廣訓(xùn).談高校營(yíng)銷的特點(diǎn)[J].中國(guó)成人教育,2004(09). 

[4]徐芳.教育營(yíng)銷和教育營(yíng)銷戰(zhàn)略[J].廣東職業(yè)技術(shù)師范學(xué)院學(xué)報(bào),2001(1):7. 

[5]林進(jìn)奎.營(yíng)銷創(chuàng)新與教育營(yíng)銷[J].東岳論叢,2004(03). 

篇3

關(guān)鍵詞:搜索引擎;通用搜索;垂直搜索

Internet的發(fā)展,給人類社會(huì)帶來了翻天覆地的變化,將人類文明推向一個(gè)新的高度的同時(shí),也給人類提供了無限的商機(jī)。它的到來,使信息技術(shù)成為當(dāng)今世界各國(guó)發(fā)展的主題。Internet的普及,網(wǎng)民數(shù)量的猛增,web資源的指數(shù)增加,都激勵(lì)著人們探索新的突破。以服務(wù)大眾出名的通用搜索引擎為我們指引了方向。它們?yōu)闊o數(shù)的網(wǎng)民提供了從無底的web中尋找資源的機(jī)會(huì)。然而,隨著Internet的發(fā)展,通用搜索引擎有時(shí)很難在龐大的信息庫中搜索到準(zhǔn)確的信息。它的缺陷,給垂直搜索引擎提供發(fā)展的空間,以及無限的潛力。垂直搜索的出現(xiàn),便是對(duì)通用搜索引擎的補(bǔ)充,在未來的時(shí)間里,它將與通用搜索引擎相輔相成,服務(wù)人類的同時(shí),共享新的金礦。

一、搜索引擎的涵義

所謂搜索引擎,是指在Internet下,網(wǎng)站根據(jù)用戶輸入的查詢條件(關(guān)鍵字),自動(dòng)從web資源里提取出與用戶輸入條件相關(guān)的信息的一類網(wǎng)站。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對(duì)信息進(jìn)行理解、提取、組織和處理,并為用戶提供檢索服務(wù),從而達(dá)到信息導(dǎo)航的目的。

隨著Google(谷歌)、baidu(百度)等搜索引擎在Internet上經(jīng)營(yíng)的成功,越來越多的IT企業(yè)開始進(jìn)軍搜索市場(chǎng),經(jīng)過IT精英的不斷開拓新領(lǐng)域,創(chuàng)造新價(jià)值。搜索引擎從廣義上可以將其劃分為通用搜索引擎和垂直搜索引擎。

二、通用搜索引擎與垂直搜索引擎的對(duì)比

隨著網(wǎng)絡(luò)的發(fā)展,它一方面讓我們更容易獲取到信息,另一方面,信息的爆炸發(fā)展,也徹頭徹尾地使我們陷入了無邊無際的信息海洋之中。在海量的信息頁面之前,我們想要找到自己需要的信息簡(jiǎn)直就如“大海撈針”。搜索引擎的橫空出世讓我們有了探索信息海洋的指南針。

(1)通用搜索引擎的最大優(yōu)點(diǎn)是,實(shí)現(xiàn)全文搜索,檢索到的信息量大,信息覆蓋范圍廣,同時(shí)引擎更新信息速度快。目前Internet上搜索引擎可索引到的網(wǎng)頁數(shù)量已超過110億頁,由于通用搜索引擎搜索范圍的廣,導(dǎo)致搜索的匹配度低,命中率低,層次結(jié)構(gòu)不清晰,而且重復(fù)連接較多,查詢結(jié)果信息量大,用戶很難在海量的鏈接結(jié)果中找到想要的信息。

(2)垂直搜索引擎是針對(duì)某一個(gè)特定行業(yè)的專業(yè)搜索引擎, 是通用搜索引擎的細(xì)分和延伸,是對(duì)網(wǎng)頁庫中的某類專門的信息進(jìn)行一次整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶。垂直搜索引擎是相對(duì)通用搜索引擎的信息量大、查詢不準(zhǔn)確、深度不夠等提出來的新的搜索引擎服務(wù)模式,通過針對(duì)某一特定領(lǐng)域、某一特定人群或某一特定需求提供的有一定價(jià)值的信息和相關(guān)服務(wù)。其特點(diǎn)是“專、精、深”,且具有行業(yè)色彩,相比較通用搜索引擎的海量信息無序化,垂直搜索引擎則顯得更加專注、具體和深入。

三、垂直搜索引擎的原理及組成

搜索引擎主要由搜索器、索引器、檢索器組成?;驹砗椭饕δ芙M件方面,垂直搜索引擎與通用搜索引擎基本相同。兩者主要的區(qū)別在于Spider爬行范圍和網(wǎng)頁信息處理深度兩方面。通用搜索引擎Spider爬行的范圍是面向幾乎所有網(wǎng)頁,而垂直搜索只爬行跟主題相關(guān)的網(wǎng)頁。因此,垂直搜索引擎能夠比通用搜索引擎更快速地找到相關(guān)主題的信息。

搜索器(Spider):也稱網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人等,是搜索引擎的靈魂。它根據(jù)特定算法負(fù)責(zé)抓取網(wǎng)頁,從抓取到的網(wǎng)頁里采集信息,對(duì)信息進(jìn)行分詞,分詞根據(jù)詞語的特殊屬性選擇分詞算法,并將信息與其關(guān)聯(lián)的URL保存進(jìn)服務(wù)器數(shù)據(jù)庫。搜索器必須保證及時(shí)的發(fā)現(xiàn)新網(wǎng)頁,定時(shí)的重新采集已有網(wǎng)頁信息更新保存數(shù)據(jù)庫數(shù)據(jù)。

索引器(Indexer):根據(jù)搜索器,即網(wǎng)絡(luò)蜘蛛采集后經(jīng)過分詞等處理后產(chǎn)生的關(guān)鍵字(keyword),建立從關(guān)鍵字到網(wǎng)頁URL(統(tǒng)一資源定位器)的關(guān)系索引倒排文檔,即建立索引數(shù)據(jù)庫。檢索器的功能是根據(jù)用戶輸入的查詢?cè)~,在索引數(shù)據(jù)庫中進(jìn)行查詢?cè)~與索引數(shù)據(jù)庫的匹配算法,然后將查詢結(jié)果按相關(guān)程度排序并輸出到瀏覽器上。

除了考慮核心的技術(shù)以及采用高效的算法外,必須在用戶體驗(yàn)上下功夫如結(jié)構(gòu)化的顯示搜索到的結(jié)果。比如,Google所使用的Ajax(異步JavaScript)技術(shù),用戶輸入查詢時(shí)能夠自動(dòng)提示,還有Google查詢后顯示的數(shù)據(jù),界面上字體等要比Baidu細(xì)致一個(gè)檔次。這些細(xì)節(jié)的原因,某種程度關(guān)系到搜索引擎在市場(chǎng)的占有額。

四、垂直搜索引擎的相關(guān)技術(shù)

1.頁面解析與頁面顯示排序。

網(wǎng)頁地址都是用URL(Uniform Resource Locator統(tǒng)一資源定位器)來表示,獲取網(wǎng)頁信息,必須找到URL,讀取該URL頁面的HTML、特定標(biāo)簽,高級(jí)的搜索引擎還能對(duì)JavaScript語句進(jìn)行解析。這是因?yàn)樵S多網(wǎng)站直接用JavaScript構(gòu)建出來,而且隨著Ajax技術(shù)的流行,很多信息包含在JavaScript標(biāo)簽里,為了提高采集信息的準(zhǔn)確率,提高搜索引擎的競(jìng)爭(zhēng)力,搜索引擎必須提供JavaScript解析器。

頁面排序是針對(duì)根據(jù)用戶關(guān)鍵字,查詢到的網(wǎng)頁列表,采用何種策略將網(wǎng)頁列表顯示在用戶面前,使用戶最想知道的結(jié)果顯示在最前面頁數(shù)發(fā)生的概率最大。主要的算法有:PageRank算法、HITS算法。在排序上,有些搜索引擎(如百度),則加入收費(fèi)這一方式,使排序成為搜索引擎的一大盈利模式。

2.?dāng)?shù)據(jù)存儲(chǔ)及分布式技術(shù)。

盡管垂直搜索引擎保存的網(wǎng)頁數(shù)量相對(duì)通用垂直搜索引擎小很多,但是,作為一個(gè)優(yōu)秀的商業(yè)垂直搜索引擎,必須在提高性能的同時(shí)減低成本,提升競(jìng)爭(zhēng)力。可以采用數(shù)據(jù)壓縮的技術(shù)對(duì)數(shù)據(jù)進(jìn)行壓縮存儲(chǔ),采用數(shù)據(jù)庫技術(shù),如索引等提高數(shù)據(jù)讀取速度,也可以采用分布式技術(shù),通過多臺(tái)服務(wù)器相互合作,以提高數(shù)據(jù)采集和更新速度。

3.網(wǎng)絡(luò)蜘蛛的爬行策略。

網(wǎng)絡(luò)蜘蛛(Robot或Spider)的搜索策略是指當(dāng)網(wǎng)絡(luò)蜘蛛搜索到一個(gè)文檔之后,下一步應(yīng)該轉(zhuǎn)移到哪一個(gè)文檔的方法問題。目前比較常見的搜索策略有以下幾種策略:(1)IP地址搜索策略;(2)深度優(yōu)先搜索策略;(3)廣度優(yōu)先搜索策略;(4)深度-廣度結(jié)合搜索策略。

4.中文分詞技術(shù)。

在Web應(yīng)用中,文本處理的速度往往是性能的關(guān)鍵,快速分詞具有很大的現(xiàn)實(shí)意義。Web文本分詞是Web信息處理的基礎(chǔ),如信息檢索、摘要形成、網(wǎng)頁過濾等都需要對(duì)Web文本進(jìn)行分詞處理。Web文本的正文主要由英文和中文構(gòu)成,由于英文的單詞與單詞之間有空格,所以不存在分詞問題。而中文的每一句中詞與詞之間是沒有空格的,因而必須采用某種技術(shù)將其分開。

分詞的方法很多,基本上分為兩類:第一類是基于字符串的匹配,將漢字串與一個(gè)機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功。主要有正向最大匹配法、逆向最大匹配法、最少切分等方法。第二類是基于統(tǒng)計(jì)的方法,從概率角度出發(fā),單字出現(xiàn)在詞匯中聯(lián)合概率是比較大的,因此當(dāng)相鄰的字越常出現(xiàn),則越有可能是一個(gè)詞?;谏鲜鲆瑢?duì)處理的材料進(jìn)行分析,得到相應(yīng)的單字出現(xiàn)的概率,然后對(duì)相鄰的字出現(xiàn)概率進(jìn)行統(tǒng)計(jì),若遠(yuǎn)大于單字出現(xiàn)的概率之和,則可能成為一個(gè)詞。實(shí)際應(yīng)用中,統(tǒng)計(jì)分詞方法都是與字典結(jié)合著來使用的,這樣既發(fā)揮匹配分詞的切分速度快、效率高的特點(diǎn),對(duì)利用了無詞典結(jié)合上下文識(shí)別生詞,并能消除歧義等優(yōu)點(diǎn)。

五、垂直搜索引擎的發(fā)展空間

“確解用戶之意,切返用戶之需” “用戶無法描述道他要找什么,除非讓他看到想找的東西”,這是消費(fèi)者(網(wǎng)絡(luò)使用者)對(duì)搜索引擎提出的更高要求。以盡可能多地收集到與專業(yè)相關(guān)的信息為主要目標(biāo)的垂直搜索引擎,比通用垂直搜索引擎在Internet上更加貼切消費(fèi)者的要求。專業(yè)化的集定領(lǐng)域的垂直搜索引擎有效地彌補(bǔ)了綜合性搜索引擎對(duì)專門領(lǐng)域及特定主題信息覆蓋率過低的問題。市場(chǎng)需求的多元化,決定著搜索引擎服務(wù)的多元化;通用搜索引擎開拓市場(chǎng)上的成功,為垂直搜索引擎的市場(chǎng)戰(zhàn)略提供了寶貴的借鑒經(jīng)驗(yàn),垂直搜索引擎的特點(diǎn),決定著它在Internet上占有一席之地,必將成為搜索行業(yè)的一大力量。

(作者單位:廣州市機(jī)電高級(jí)技工學(xué)校)

參考文獻(xiàn):

[1]王曉偉. 垂直搜索引擎若干關(guān)鍵技術(shù)的研究[J].浙江大學(xué)學(xué)報(bào),2007,(5).

[2]孫衛(wèi)喜.搜索引擎分析[J].高校實(shí)驗(yàn)室工作研究,2007,(3).

[3]李副銘.垂直搜索引擎的研究與設(shè)計(jì)[D].電子科技大學(xué)學(xué)報(bào),2009,(9).