84pao国产成人高清在线,91精品国自产拍在线观看不卡,久操一区

導(dǎo)語：如何才能寫好一篇網(wǎng)絡(luò)爬蟲基本原理，這就需要搜集整理更多的資料和文獻(xiàn)，歡迎閱讀由公務(wù)員之家整理的十篇范文，供你借鑒。

網(wǎng)絡(luò)爬蟲基本原理

篇1

>> ASP網(wǎng)站數(shù)據(jù)庫的安全漏洞和防范策略的研究 GoogleHacking的入侵原理及防范策略網(wǎng)站數(shù)據(jù)庫的安全防范及對(duì)策主動(dòng)監(jiān)聽技術(shù)原理及防范策略研究網(wǎng)站統(tǒng)計(jì)中的數(shù)據(jù)收集原理基于ThinkPHP的野外數(shù)據(jù)采集系統(tǒng)網(wǎng)站的搭建與研究學(xué)校網(wǎng)站存在的安全隱患及防范策略 GPS數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)及實(shí)施研究視頻數(shù)據(jù)采集系統(tǒng)的原理及其應(yīng)用淺析數(shù)據(jù)采集系統(tǒng)中典型的模數(shù)轉(zhuǎn)換原理典型網(wǎng)絡(luò)欺騙攻擊原理及防范的研究網(wǎng)站注入式攻擊的原理與防范網(wǎng)站數(shù)據(jù)庫的安全防范及對(duì)策淺談淺析網(wǎng)站數(shù)據(jù)庫的安全防范及對(duì)策計(jì)算機(jī)數(shù)據(jù)安全的探討及防范策略基于云計(jì)算的數(shù)據(jù)安全風(fēng)險(xiǎn)及防范策略測(cè)試系統(tǒng)的數(shù)據(jù)采集及通訊 DLL木馬的原理及其防范策略閥門數(shù)據(jù)采集系統(tǒng)的硬件研究基于數(shù)據(jù)采集平臺(tái)的高職院校師資隊(duì)伍建設(shè)策略研究常見問題解答當(dāng)前所在位置：l。因此，只需要使用變量替換代表每頁地址變化的字符即可獲得相應(yīng)的頁面地址。目前，一個(gè)Web頁面的分頁頁面中內(nèi)容的超鏈接一般表示如下：連接

，只需要編寫適當(dāng)?shù)拇a既可以獲取該頁內(nèi)容所對(duì)應(yīng)的URL鏈接。在動(dòng)態(tài)生成的頁面中大多數(shù)內(nèi)容頁面中都包含相同的html標(biāo)記，因此可以根據(jù)已定義規(guī)則的標(biāo)記提取相關(guān)的需要部分的內(nèi)容。例如：每個(gè)Web頁面都有相應(yīng)的標(biāo)題，代碼中呈現(xiàn)為標(biāo)題，編寫相應(yīng)的MID截取函數(shù)就可以獲得兩個(gè)title標(biāo)簽之間標(biāo)題，也可以用正則表達(dá)式來獲取，如：body（"標(biāo)題"，""，""）[3]。

圖1 網(wǎng)站數(shù)據(jù)采集基本原理圖

3 網(wǎng)站防采集策略

目前，常用的網(wǎng)站數(shù)據(jù)防采集策略包括以下幾種：

1）通過在單位時(shí)間內(nèi)限制固定IP地址對(duì)同一個(gè)網(wǎng)站所有站點(diǎn)的訪問次數(shù)來避免網(wǎng)站數(shù)據(jù)采集。

一般情況下，用戶在正常訪問某一個(gè)網(wǎng)站時(shí)不會(huì)在極短的時(shí)間內(nèi)多次訪問同一個(gè)網(wǎng)站，只有網(wǎng)絡(luò)引擎爬蟲和網(wǎng)站數(shù)據(jù)采集工具會(huì)造成這樣的現(xiàn)象。但是這種方法容易造成誤判，并且如何設(shè)計(jì)時(shí)間的閾值是這種方法的關(guān)鍵。

2）通過人工的方式屏蔽可疑的訪問源IP。

網(wǎng)站的管理人員通過在后臺(tái)設(shè)置計(jì)數(shù)器來記錄訪問的源IP及在單位時(shí)間內(nèi)的訪問頻率，進(jìn)而通過人工干預(yù)的方式判斷并屏蔽可疑的IP地址。這種方法適用于小型的網(wǎng)站，大型的網(wǎng)站可能需要大量的人力來進(jìn)行，同時(shí)這種方法難以解決通過的方式進(jìn)行數(shù)據(jù)采集的問題。

3）將網(wǎng)站的內(nèi)容以flas、圖片或者PDF文檔的格式進(jìn)行呈現(xiàn)。

目前的搜索引擎爬蟲和網(wǎng)站數(shù)據(jù)采集工具還不具備對(duì)PDF文檔和圖片的識(shí)別和分析能力。這種方法能夠有效地避免網(wǎng)站數(shù)據(jù)被非法采集，但是它的適用面較窄，僅適用于一些用于多媒體視覺呈現(xiàn)的網(wǎng)站。

4）通過在網(wǎng)頁內(nèi)嵌套藏網(wǎng)站的版權(quán)信息或者利用水印技術(shù)對(duì)Web頁面進(jìn)行加密。

一般情況下，這些用于保護(hù)網(wǎng)站數(shù)據(jù)的信息被寫在了相應(yīng)的CSS文件中。這種方法雖然不能阻止網(wǎng)站數(shù)據(jù)被非法采集，但它能夠使得被采集的數(shù)據(jù)無法完整的呈現(xiàn)在其他網(wǎng)站中。因?yàn)?，網(wǎng)站數(shù)據(jù)采集工具或網(wǎng)絡(luò)爬蟲一般不會(huì)同時(shí)采集網(wǎng)站中的CSS文件，那些數(shù)據(jù)丟失了相應(yīng)的格式化設(shè)置，就被顯示出來了。

5）通過在網(wǎng)站中對(duì)訪問者設(shè)置權(quán)限來保護(hù)數(shù)據(jù)。

這種方法要求用戶只有在登錄了系統(tǒng)后才能夠?yàn)g覽網(wǎng)站的數(shù)據(jù)。自動(dòng)化的數(shù)據(jù)采集工具和網(wǎng)絡(luò)爬蟲無法對(duì)每一個(gè)網(wǎng)站進(jìn)行登錄，這種方法可極大程度上避免數(shù)據(jù)被采集，但同時(shí)網(wǎng)站的用戶友好性就降低了。

6）利用腳本語言對(duì)網(wǎng)站做隱藏分頁設(shè)置

由于網(wǎng)站數(shù)據(jù)采集工具和網(wǎng)絡(luò)爬蟲不會(huì)針對(duì)一個(gè)網(wǎng)站的隱藏分頁進(jìn)行數(shù)據(jù)的分析，因此，這種方法能夠有效地阻止自動(dòng)化工具對(duì)網(wǎng)站數(shù)據(jù)的采集。這種方法適用于對(duì)搜索引擎依賴度不高的網(wǎng)站，同時(shí)它無法阻止人工進(jìn)行網(wǎng)站數(shù)據(jù)的采集。

7）對(duì)于動(dòng)態(tài)的網(wǎng)站，可以采用隨機(jī)的模版避免非法數(shù)據(jù)采集。

由于網(wǎng)站數(shù)據(jù)采集工具是根據(jù)網(wǎng)頁特定的結(jié)構(gòu)來定位所需要采集的數(shù)據(jù)，一旦網(wǎng)站的模版出現(xiàn)變更，采集工具中事前設(shè)定好的采集規(guī)則就會(huì)失效，這樣就可以避免網(wǎng)站的數(shù)據(jù)被非法地采集。這種方法造成的問題是破壞網(wǎng)站的用戶友好性。

8）在網(wǎng)頁中使用動(dòng)態(tài)不規(guī)則的html標(biāo)簽代替?zhèn)鹘y(tǒng)的靜態(tài)html標(biāo)簽。

在html標(biāo)簽中包含空格和不包含空格的效果是一樣的，因此包含和不包含和< div>標(biāo)簽，在頁面顯示中的效果也是一樣的。但是一般的網(wǎng)站數(shù)據(jù)采集工具中，這兩個(gè)是完全不同的標(biāo)記。因此，隨機(jī)地在每個(gè)頁面的html標(biāo)簽中添加若干個(gè)空格數(shù)就會(huì)導(dǎo)致網(wǎng)站數(shù)據(jù)采集工具相應(yīng)的規(guī)則失效。但是這種方法違反了網(wǎng)頁設(shè)計(jì)的規(guī)范。

4 結(jié)論

隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展和個(gè)人PC機(jī)的不斷普及，越來越多人參與到網(wǎng)站的建設(shè)和維護(hù)中。如何有效地避免網(wǎng)站中的數(shù)據(jù)被非法的采集是每一個(gè)網(wǎng)管員必須掌握技能。該文主要研究了網(wǎng)站數(shù)據(jù)采集的基本原理和八種常用的網(wǎng)站數(shù)據(jù)防采集的方法，希望能為網(wǎng)站的建設(shè)和維護(hù)提供更多的幫助，。

參考文獻(xiàn)：

[1] 巫志勇.基于XMLHTTP的網(wǎng)站數(shù)據(jù)自動(dòng)采集[J].福建電腦，2007（01）.

篇2

【關(guān)鍵詞】小世界模型；社團(tuán)分析；復(fù)雜網(wǎng)絡(luò)

0引言

隨著EMBA教育逐漸為社會(huì)各界所熟識(shí)，EMBA培養(yǎng)院校的招生工作目前面臨巨大壓力。從市場(chǎng)競(jìng)爭(zhēng)的格局來看：一方面，國(guó)內(nèi)EMBA院校已經(jīng)達(dá)到64所，加上境外大學(xué)的教學(xué)項(xiàng)目，在國(guó)內(nèi)招生的EMBA項(xiàng)目已經(jīng)近百所，而且還有繼續(xù)擴(kuò)大的趨勢(shì)，未來的競(jìng)爭(zhēng)會(huì)更加激烈。另一方面，隨著MBA和其他碩士教育的迅速普及，未來EMBA的申請(qǐng)人數(shù)量將呈逐年下降的趨勢(shì)。這使得市場(chǎng)競(jìng)爭(zhēng)態(tài)勢(shì)更加雪上加霜，商學(xué)院必須有所轉(zhuǎn)變，不能取得某一細(xì)分市場(chǎng)優(yōu)勢(shì)地位的EMBA項(xiàng)目，或者沒有建立自己品牌特色的項(xiàng)目將面臨生存危機(jī)。

在各培養(yǎng)院校的招生過程中，尤其是EMBA項(xiàng)目的市場(chǎng)調(diào)研中，如何在龐大的數(shù)據(jù)、人際關(guān)系網(wǎng)絡(luò)中找到關(guān)鍵節(jié)點(diǎn)，進(jìn)而通過關(guān)鍵節(jié)點(diǎn)尋找到適合EMBA招生的生源群體，是目前EMBA招生環(huán)節(jié)中的關(guān)鍵問題。當(dāng)今社會(huì)的人際關(guān)系網(wǎng)絡(luò)錯(cuò)綜復(fù)雜，變化萬千，如何對(duì)人際關(guān)系進(jìn)行系統(tǒng)性的描述和梳理，劃分出相應(yīng)的群體并研究他們的共同特征，是系統(tǒng)科學(xué)中十分關(guān)鍵的問題。復(fù)雜網(wǎng)絡(luò)理論由于其具有小世界、集群等特性，十分適用于對(duì)社會(huì)網(wǎng)絡(luò)即人際關(guān)系網(wǎng)絡(luò)中的人群進(jìn)行分類與描述，進(jìn)而尋找出人際關(guān)系網(wǎng)絡(luò)的關(guān)鍵節(jié)點(diǎn)和群體，為尋找出潛在招生對(duì)象提供依據(jù)。

1相關(guān)工作

現(xiàn)代市場(chǎng)營(yíng)銷職能體系包括商品銷售、市場(chǎng)調(diào)查研究、生產(chǎn)與供應(yīng)、創(chuàng)造市場(chǎng)要求和協(xié)調(diào)平衡公共關(guān)系五大職能。對(duì)于高等教育市場(chǎng)來看，高等教育提供的產(chǎn)品就是教育，教育市場(chǎng)有市場(chǎng)的需求，同時(shí)也具備了價(jià)值交換的能力，所以教育活動(dòng)完全可以與市場(chǎng)接軌參與市場(chǎng)競(jìng)爭(zhēng)。人際關(guān)系網(wǎng)絡(luò)是一個(gè)錯(cuò)綜復(fù)雜、變化萬千的復(fù)雜系統(tǒng)。近年來隨著復(fù)雜網(wǎng)絡(luò)研究的興起，人們?cè)谶@些理論的指導(dǎo)下能夠更好的了解和解釋現(xiàn)實(shí)世界的很多現(xiàn)象，比如反映社區(qū)特性的“物以類聚、人以群分”現(xiàn)象、反映小世界特性的“六度分隔”現(xiàn)象，以及反映復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)的不對(duì)等特性的“馬太效應(yīng)”等等。在很好的理解和解釋了這些現(xiàn)象的基礎(chǔ)上，研究者開始嘗試?yán)眠@些理論去幫助人們利用這些現(xiàn)象，并開發(fā)了很多的實(shí)際的應(yīng)用和系統(tǒng)。例如：城市交通網(wǎng)絡(luò)、電子商務(wù)推薦系統(tǒng)、人際關(guān)系挖掘系統(tǒng)等。

近年來，學(xué)界關(guān)于復(fù)雜網(wǎng)絡(luò)的研究方興未艾。1998年Watts和Strogatz在Nature雜志上發(fā)表文章，引入了小世界（Small-World）網(wǎng)絡(luò)模型，以描述從完全規(guī)則網(wǎng)絡(luò)到完全隨機(jī)網(wǎng)絡(luò)的轉(zhuǎn)變。小世界網(wǎng)絡(luò)既具有與規(guī)則網(wǎng)絡(luò)類似的聚類特性，又具有與隨機(jī)網(wǎng)絡(luò)類似的較小的平均路徑長(zhǎng)度。二是1999年Barabasi和Albert在science上發(fā)表文章指出，許多實(shí)際的復(fù)雜網(wǎng)絡(luò)的連接度分布具有冪律形式。由于冪律分布沒有明顯的特征長(zhǎng)度，該類網(wǎng)絡(luò)又被稱為無標(biāo)度（Scale-Free）網(wǎng)絡(luò)。而后科學(xué)家們又研究了各種復(fù)雜網(wǎng)絡(luò)的各種特性。

在人際關(guān)系網(wǎng)絡(luò)獲取方面，由于網(wǎng)絡(luò)內(nèi)不僅節(jié)點(diǎn)眾多，而且關(guān)系的分類也多種多樣。因此獲取人際關(guān)系是一項(xiàng)非常復(fù)雜的工程，歷史上幾次比較大規(guī)模的實(shí)驗(yàn)也僅僅是采用書信或者政府檔案的方式，覆蓋面十分有限。隨著網(wǎng)絡(luò)的發(fā)展，互聯(lián)網(wǎng)的內(nèi)容日新月異，互聯(lián)網(wǎng)成為了最大的非結(jié)構(gòu)化數(shù)據(jù)庫，使從網(wǎng)絡(luò)中探索人際關(guān)系成為了可能。目前網(wǎng)絡(luò)的關(guān)系獲取方法主要有兩種：關(guān)系搜索引擎和社區(qū)資源。關(guān)系搜索引擎的的基本原理是利用網(wǎng)絡(luò)爬蟲從網(wǎng)頁中抽取出人名、地名、機(jī)構(gòu)名以及中文短語，再根據(jù)算法計(jì)算出他們存在關(guān)系的可能性。現(xiàn)階段國(guó)內(nèi)的關(guān)系搜索引擎有微軟人立方（http：//renlifang.msra.cn/）、雅虎人物搜索和搜搜華爾茲（http：//tag.soso.com/）。但是由于網(wǎng)頁的來源比較復(fù)雜，而且存在重名的問題，得到的結(jié)果往往不精確，難以真實(shí)的表現(xiàn)出真實(shí)的人際關(guān)系。第二種搜索方式則是利用網(wǎng)絡(luò)中現(xiàn)有的社區(qū)資源，對(duì)其信息進(jìn)行抓取，得到的信息雖然規(guī)模有限，但是可以確定所有節(jié)點(diǎn)信息，具有更強(qiáng)的結(jié)構(gòu)化特性，更加符合真實(shí)人際關(guān)系的無標(biāo)度和小世界特性。

2基于復(fù)雜網(wǎng)絡(luò)的招生生源社團(tuán)分析方法

2.1系統(tǒng)的設(shè)計(jì)目標(biāo)與創(chuàng)新點(diǎn)

在整個(gè)人際關(guān)系網(wǎng)絡(luò)中，存在一些子網(wǎng)，它們對(duì)于其內(nèi)部的節(jié)點(diǎn)具有高類聚性，而對(duì)于子網(wǎng)外部節(jié)點(diǎn)的連接確相對(duì)稀疏的特性，我們稱之為人群的社團(tuán)結(jié)構(gòu)。

通過實(shí)現(xiàn)社團(tuán)劃分系統(tǒng)，并對(duì)真實(shí)人際關(guān)系網(wǎng)絡(luò)進(jìn)行處理和分析，研究復(fù)雜網(wǎng)絡(luò)社團(tuán)劃分技術(shù)在未來人際關(guān)系網(wǎng)絡(luò)處理上的潛在應(yīng)用以及較以前撒網(wǎng)式處理方式的優(yōu)勢(shì)。本系統(tǒng)希望能夠?qū)φ猩吹娜穗H關(guān)系網(wǎng)絡(luò)進(jìn)行分析，尋找出人際關(guān)系中的關(guān)鍵節(jié)點(diǎn)以及關(guān)鍵社團(tuán)信息，以此為EMBA招生生源選取以及宣傳廣告的定向投放目標(biāo)選擇提供必要依據(jù)。

該方法是對(duì)傳統(tǒng)市場(chǎng)調(diào)查分析、廣告宣傳領(lǐng)域的再思考，相比廣泛撒網(wǎng)式的宣傳與調(diào)查，該方法具有效率高、定位準(zhǔn)確、耗費(fèi)人力物力較少、資源可重復(fù)利用性強(qiáng)等優(yōu)點(diǎn)，十分適合于解決EMBA面臨的招生生源困難這一具體問題。

2.2網(wǎng)絡(luò)社區(qū)的選擇

選取網(wǎng)絡(luò)社區(qū)需要綜合考慮多方面因素：

（1）關(guān)系要真實(shí)有效，即網(wǎng)絡(luò)的好友關(guān)系能比較客觀的反映出現(xiàn)實(shí)生活中的好友關(guān)系。

（2）關(guān)系網(wǎng)絡(luò)要足夠大，僅僅包括幾千個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)能夠在非常短的時(shí)間內(nèi)遍歷完畢，不能夠反映出來真實(shí)人際關(guān)系非常難以獲取的特點(diǎn)，不具有研究?jī)r(jià)值。

（3）關(guān)系網(wǎng)絡(luò)可以比較方便的獲得，部分網(wǎng)絡(luò)社區(qū)采用了加密設(shè)置，非注冊(cè)用戶不能夠獲得其他人的好友關(guān)系，雖然從技術(shù)上可以進(jìn)行破解，但是存在較大的風(fēng)險(xiǎn)。

（4）社區(qū)允許爬蟲進(jìn)行抓取，對(duì)于需要的頁面不存在robot.txt的限制。

（5）服務(wù)器比較強(qiáng)大，可以應(yīng)對(duì)每秒鐘幾百次（包括爬蟲的訪問次數(shù)在內(nèi)）的請(qǐng)求。

經(jīng)過對(duì)國(guó)內(nèi)較大的幾家SNS（社會(huì)性網(wǎng)絡(luò)服務(wù)）網(wǎng)站的測(cè)試分析，最終選取了聚友網(wǎng)（http：//myspace.cn）作為實(shí)驗(yàn)的樣本。聚友網(wǎng)是以SNS為基礎(chǔ)的娛樂平臺(tái)，是全球最大的在線交友平臺(tái)之一MySpace的中國(guó)本地化網(wǎng)站，符合以上幾點(diǎn)要求，且服務(wù)器可供校園網(wǎng)訪問。聚友網(wǎng)（Myspace），是以SNS為基礎(chǔ)的娛樂平臺(tái)，是全球最大的在線交友平臺(tái)Myspace的中國(guó)本地化網(wǎng)站，提供免費(fèi)的微型博客、個(gè)人主頁、個(gè)人空間、電子相冊(cè)、博客空間、音樂盒視頻上傳空間等服務(wù)。我們所要采用的Myspace網(wǎng)絡(luò)是從該網(wǎng)站的眾多用戶中，使用網(wǎng)絡(luò)爬蟲技術(shù)獲得的其中的13569個(gè)用戶，網(wǎng)絡(luò)中包含了99185條關(guān)系，兩個(gè)節(jié)點(diǎn)之間的一條邊則意味著相應(yīng)的兩個(gè)用戶之間互為好友關(guān)系。

2.3招生生源社團(tuán)分析系統(tǒng)

招生生源社團(tuán)劃分系統(tǒng)包括爬蟲獲取信息、關(guān)系分析、數(shù)據(jù)讀入、數(shù)據(jù)顯示、社團(tuán)劃分和數(shù)據(jù)顯示六個(gè)個(gè)部分。網(wǎng)絡(luò)爬蟲系統(tǒng)將分析出的典型社會(huì)網(wǎng)絡(luò)信息，經(jīng)過關(guān)系分析處理，最終存儲(chǔ)成為網(wǎng)絡(luò)原始結(jié)構(gòu)數(shù)據(jù)。用戶可以使用社團(tuán)劃分系統(tǒng)讀入已有的人際關(guān)系網(wǎng)絡(luò)數(shù)據(jù)，并讓系統(tǒng)對(duì)其進(jìn)行社團(tuán)劃分。在系統(tǒng)運(yùn)行算法完畢后，將會(huì)自動(dòng)保存對(duì)該人際關(guān)系網(wǎng)絡(luò)社團(tuán)劃分后的最終結(jié)果，用戶可以通過窗口查看各個(gè)社團(tuán)所包含的派系、節(jié)點(diǎn)等信息，被查看的社團(tuán)還可以用圖片的形式顯示出來。

其中各模塊的功能如下：

爬蟲模塊：負(fù)責(zé)從典型社交網(wǎng)絡(luò)中獲取社交信息。

關(guān)系分析模塊：負(fù)責(zé)將社交信息之間的關(guān)系進(jìn)行處理并存儲(chǔ)形成網(wǎng)絡(luò)原始結(jié)構(gòu)數(shù)據(jù)。

數(shù)據(jù)讀入：讀入系統(tǒng)需要分析的原始數(shù)據(jù)。

數(shù)據(jù)寫出：將經(jīng)過社團(tuán)劃分系統(tǒng)處理后的數(shù)據(jù)保存到文檔中。

數(shù)據(jù)顯示：在社團(tuán)劃分系統(tǒng)中顯示社團(tuán)劃分的結(jié)果。

社團(tuán)劃分：核心算法，分為2個(gè)部分。第一步，尋找原始數(shù)據(jù)中所有的派系；第二步，通過派系重疊矩陣劃分出k-派系社團(tuán)。

3實(shí)驗(yàn)與分析

3.1招生生源社團(tuán)分析系統(tǒng)

社團(tuán)劃分系統(tǒng)采用了復(fù)雜網(wǎng)絡(luò)社團(tuán)劃分技術(shù)中的派系過濾算法為其主要核心。本章主要是使用社團(tuán)劃分系統(tǒng)分析Myspace這一真實(shí)的人際關(guān)系網(wǎng)絡(luò)，將獲得的社團(tuán)結(jié)果和統(tǒng)計(jì)結(jié)果與實(shí)際情況相對(duì)比，測(cè)試核心算法在系統(tǒng)中是否正確的運(yùn)行，并驗(yàn)證得出利用社團(tuán)劃分系統(tǒng)分析學(xué)生的人際關(guān)系網(wǎng)絡(luò)，能夠得到合理的社團(tuán)結(jié)構(gòu)，滿足尋找潛在生源的目的，為EMBA招生起到提高宣傳推廣效率的作用。

聚友網(wǎng)（Myspace），是以SNS為基礎(chǔ)的娛樂平臺(tái)，是全球最大的在線交友平臺(tái)Myspace的中國(guó)本地化網(wǎng)站，提供免費(fèi)的微型博客、個(gè)人主頁、個(gè)人空間、電子相冊(cè)、博客空間、音樂盒視頻上傳空間等服務(wù)。我們所要采用的Myspace網(wǎng)絡(luò)是從該網(wǎng)站的眾多用戶中，使用網(wǎng)絡(luò)爬蟲技術(shù)獲得的其中的13569個(gè)用戶，網(wǎng)絡(luò)中包含了99185條關(guān)系，兩個(gè)節(jié)點(diǎn)之間的一條邊則意味著相應(yīng)的兩個(gè)用戶之間互為好友關(guān)系。下圖展示了Myspace的好友關(guān)系圖。

圖3Myspace網(wǎng)絡(luò)用戶關(guān)系展示

3.2系統(tǒng)分析結(jié)果

通過社團(tuán)劃分系統(tǒng)對(duì)Myspace網(wǎng)絡(luò)的分析，我們共獲得各派系共12446個(gè)，派系社團(tuán)559個(gè)。下圖為使用社團(tuán)劃分系統(tǒng)分析Myspace網(wǎng)絡(luò)后，獲得的一個(gè)17-派系社團(tuán)結(jié)構(gòu)（k=17）和一個(gè)33-派系社團(tuán)結(jié)構(gòu)（k=33）。

圖4Myspace網(wǎng)絡(luò)的一個(gè)17-派系社團(tuán)（k=17）

圖5Myspace網(wǎng)絡(luò)的一個(gè)33-派系社團(tuán)（k=33）

3.3結(jié)果分析

選取Myspace網(wǎng)絡(luò)社團(tuán)劃分結(jié)果中的3-派系社團(tuán)（k=3）、4派系社團(tuán)（k=4）和5派系社團(tuán)（k=5）作為我們的分析目標(biāo)。

經(jīng)統(tǒng)計(jì)分析，Myspace網(wǎng)絡(luò)中3-派系社團(tuán)（k=3）、4派系社團(tuán)（k=4）和5派系社團(tuán)（k=5）的社團(tuán)大小分布圖（SizeDistribution）和重疊量分布圖（OverlapDistribution）如下圖所示。

我們可以看到，無論社團(tuán)大小分布圖還是重疊量分布圖都大致滿足冪律分布，且隨著k值的減小，曲線變得更為平滑。但是當(dāng)k值比較大時(shí)，因?yàn)樯鐖F(tuán)較少，所以曲線呈現(xiàn)鋸齒狀圖樣，這可能是因?yàn)樵谑褂镁W(wǎng)絡(luò)爬蟲技術(shù)對(duì)Myspace網(wǎng)站進(jìn)行數(shù)據(jù)收集時(shí)，由于該網(wǎng)站用戶數(shù)量十分的龐大，網(wǎng)絡(luò)爬蟲并沒有存儲(chǔ)所有的用戶信息，而只是選取了其中13569個(gè)用戶來組成的Myspace網(wǎng)絡(luò)。盡管Myspace網(wǎng)絡(luò)基本滿足應(yīng)有的小世界及無標(biāo)度特性，但從上圖可以看出，其數(shù)據(jù)集仍然存在著缺陷。

3.4小結(jié)

3.4.1測(cè)試結(jié)果

首先，系統(tǒng)總體效率需要提高，無論是派系過濾算法還是系統(tǒng)其它功能，在分析Myspace網(wǎng)絡(luò)中效率都顯得比較低，這在之前分析較小規(guī)模的網(wǎng)絡(luò)上并不是十分明顯。然后，社團(tuán)劃分的統(tǒng)計(jì)結(jié)果在大體上還是滿足冪律分布的，本文認(rèn)為這是因?yàn)镸yspace網(wǎng)絡(luò)數(shù)據(jù)集存在的缺陷引起的，并不是因?yàn)樯鐖F(tuán)劃分系統(tǒng)算法運(yùn)行的問題?？紤]到Myspace網(wǎng)站龐大的用戶數(shù)量、測(cè)試條件與個(gè)人能力的限制，總體測(cè)試的結(jié)果還是可以接受的。最后，盡管派系過濾算法本身的時(shí)間復(fù)雜度偏高、計(jì)算量大，但是在更新更快的社團(tuán)劃分算法開發(fā)出來之前，它是分析大型復(fù)雜網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)最符合實(shí)際要求的算法。

3.4.2應(yīng)用驗(yàn)證

Mysapce網(wǎng)絡(luò)規(guī)模較大，因此要想直接觀察其社團(tuán)結(jié)構(gòu)是非常不方便的，所以我們采用社團(tuán)結(jié)構(gòu)的統(tǒng)計(jì)特性來進(jìn)行驗(yàn)證。對(duì)社團(tuán)劃分系統(tǒng)分析Myspace網(wǎng)絡(luò)所獲得的社團(tuán)結(jié)構(gòu)進(jìn)行統(tǒng)計(jì)分析，我們可以看出社團(tuán)劃分系統(tǒng)在大型人際關(guān)系網(wǎng)絡(luò)分析中依然可以獲得合理的結(jié)果。學(xué)校招生應(yīng)用中，即使面對(duì)大規(guī)模的學(xué)生人際關(guān)系網(wǎng)絡(luò)，也能夠得到較為準(zhǔn)確的結(jié)果，這在提高學(xué)校招生宣傳的精準(zhǔn)度上有良好促進(jìn)作用。

4結(jié)束語

本文通過對(duì)市場(chǎng)營(yíng)銷理論的研究，對(duì)如何將教育營(yíng)銷理論融入到EMBA招生這一具體問題進(jìn)行了分析與探討。本文通過將復(fù)雜網(wǎng)絡(luò)理論引入教育營(yíng)銷中，分析人際關(guān)系網(wǎng)絡(luò)中的復(fù)雜網(wǎng)絡(luò)特性，尤其是其聚集聚團(tuán)性，并根據(jù)該性質(zhì)設(shè)計(jì)并實(shí)現(xiàn)了一套適用于EMBA招生生源獲取的人際關(guān)系社團(tuán)分析系統(tǒng)。對(duì)典型的社會(huì)網(wǎng)絡(luò)（Myspace網(wǎng)絡(luò)）實(shí)例的分析結(jié)果表明，該社團(tuán)分析系統(tǒng)可以很好的對(duì)人際關(guān)系網(wǎng)絡(luò)社團(tuán)性質(zhì)進(jìn)行發(fā)現(xiàn)和獲取，為學(xué)校招生應(yīng)用中，即使面對(duì)大規(guī)模的學(xué)生人際關(guān)系網(wǎng)絡(luò)，也能夠得到較為準(zhǔn)確的結(jié)果，這在提高學(xué)校招生宣傳的精準(zhǔn)度上有良好促進(jìn)作用。

【參考文獻(xiàn)】

[1]張新民.中國(guó)EMBA教育透視[J].企業(yè)管理，2004（05）.

[2]曾小軍.民辦高校引入營(yíng)銷理念與招生策略研究[J].教育導(dǎo)刊，2009（09）.

[3]周廣訓(xùn).談高校營(yíng)銷的特點(diǎn)[J].中國(guó)成人教育，2004（09）.

[4]徐芳.教育營(yíng)銷和教育營(yíng)銷戰(zhàn)略[J].廣東職業(yè)技術(shù)師范學(xué)院學(xué)報(bào)，2001（1）：7.

[5]林進(jìn)奎.營(yíng)銷創(chuàng)新與教育營(yíng)銷[J].東岳論叢，2004（03）.

篇3

關(guān)鍵詞：搜索引擎；通用搜索；垂直搜索

Internet的發(fā)展，給人類社會(huì)帶來了翻天覆地的變化，將人類文明推向一個(gè)新的高度的同時(shí)，也給人類提供了無限的商機(jī)。它的到來，使信息技術(shù)成為當(dāng)今世界各國(guó)發(fā)展的主題。Internet的普及，網(wǎng)民數(shù)量的猛增，web資源的指數(shù)增加，都激勵(lì)著人們探索新的突破。以服務(wù)大眾出名的通用搜索引擎為我們指引了方向。它們?yōu)闊o數(shù)的網(wǎng)民提供了從無底的web中尋找資源的機(jī)會(huì)。然而，隨著Internet的發(fā)展，通用搜索引擎有時(shí)很難在龐大的信息庫中搜索到準(zhǔn)確的信息。它的缺陷，給垂直搜索引擎提供發(fā)展的空間，以及無限的潛力。垂直搜索的出現(xiàn)，便是對(duì)通用搜索引擎的補(bǔ)充，在未來的時(shí)間里，它將與通用搜索引擎相輔相成，服務(wù)人類的同時(shí)，共享新的金礦。

一、搜索引擎的涵義

所謂搜索引擎，是指在Internet下，網(wǎng)站根據(jù)用戶輸入的查詢條件（關(guān)鍵字），自動(dòng)從web資源里提取出與用戶輸入條件相關(guān)的信息的一類網(wǎng)站。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息，對(duì)信息進(jìn)行理解、提取、組織和處理，并為用戶提供檢索服務(wù)，從而達(dá)到信息導(dǎo)航的目的。

隨著Google（谷歌）、baidu（百度）等搜索引擎在Internet上經(jīng)營(yíng)的成功，越來越多的IT企業(yè)開始進(jìn)軍搜索市場(chǎng)，經(jīng)過IT精英的不斷開拓新領(lǐng)域，創(chuàng)造新價(jià)值。搜索引擎從廣義上可以將其劃分為通用搜索引擎和垂直搜索引擎。

二、通用搜索引擎與垂直搜索引擎的對(duì)比

隨著網(wǎng)絡(luò)的發(fā)展，它一方面讓我們更容易獲取到信息，另一方面，信息的爆炸發(fā)展，也徹頭徹尾地使我們陷入了無邊無際的信息海洋之中。在海量的信息頁面之前，我們想要找到自己需要的信息簡(jiǎn)直就如“大海撈針”。搜索引擎的橫空出世讓我們有了探索信息海洋的指南針。

（1）通用搜索引擎的最大優(yōu)點(diǎn)是，實(shí)現(xiàn)全文搜索，檢索到的信息量大，信息覆蓋范圍廣，同時(shí)引擎更新信息速度快。目前Internet上搜索引擎可索引到的網(wǎng)頁數(shù)量已超過110億頁，由于通用搜索引擎搜索范圍的廣，導(dǎo)致搜索的匹配度低，命中率低，層次結(jié)構(gòu)不清晰，而且重復(fù)連接較多，查詢結(jié)果信息量大，用戶很難在海量的鏈接結(jié)果中找到想要的信息。

（2）垂直搜索引擎是針對(duì)某一個(gè)特定行業(yè)的專業(yè)搜索引擎，是通用搜索引擎的細(xì)分和延伸，是對(duì)網(wǎng)頁庫中的某類專門的信息進(jìn)行一次整合，定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶。垂直搜索引擎是相對(duì)通用搜索引擎的信息量大、查詢不準(zhǔn)確、深度不夠等提出來的新的搜索引擎服務(wù)模式，通過針對(duì)某一特定領(lǐng)域、某一特定人群或某一特定需求提供的有一定價(jià)值的信息和相關(guān)服務(wù)。其特點(diǎn)是“專、精、深”，且具有行業(yè)色彩，相比較通用搜索引擎的海量信息無序化，垂直搜索引擎則顯得更加專注、具體和深入。

三、垂直搜索引擎的原理及組成

搜索引擎主要由搜索器、索引器、檢索器組成?；驹砗椭饕δ芙M件方面，垂直搜索引擎與通用搜索引擎基本相同。兩者主要的區(qū)別在于Spider爬行范圍和網(wǎng)頁信息處理深度兩方面。通用搜索引擎Spider爬行的范圍是面向幾乎所有網(wǎng)頁，而垂直搜索只爬行跟主題相關(guān)的網(wǎng)頁。因此，垂直搜索引擎能夠比通用搜索引擎更快速地找到相關(guān)主題的信息。

搜索器（Spider）：也稱網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人等，是搜索引擎的靈魂。它根據(jù)特定算法負(fù)責(zé)抓取網(wǎng)頁，從抓取到的網(wǎng)頁里采集信息，對(duì)信息進(jìn)行分詞，分詞根據(jù)詞語的特殊屬性選擇分詞算法，并將信息與其關(guān)聯(lián)的URL保存進(jìn)服務(wù)器數(shù)據(jù)庫。搜索器必須保證及時(shí)的發(fā)現(xiàn)新網(wǎng)頁，定時(shí)的重新采集已有網(wǎng)頁信息更新保存數(shù)據(jù)庫數(shù)據(jù)。

索引器（Indexer）：根據(jù)搜索器，即網(wǎng)絡(luò)蜘蛛采集后經(jīng)過分詞等處理后產(chǎn)生的關(guān)鍵字（keyword），建立從關(guān)鍵字到網(wǎng)頁URL（統(tǒng)一資源定位器）的關(guān)系索引倒排文檔，即建立索引數(shù)據(jù)庫。檢索器的功能是根據(jù)用戶輸入的查詢?cè)~，在索引數(shù)據(jù)庫中進(jìn)行查詢?cè)~與索引數(shù)據(jù)庫的匹配算法，然后將查詢結(jié)果按相關(guān)程度排序并輸出到瀏覽器上。

除了考慮核心的技術(shù)以及采用高效的算法外，必須在用戶體驗(yàn)上下功夫如結(jié)構(gòu)化的顯示搜索到的結(jié)果。比如，Google所使用的Ajax（異步JavaScript）技術(shù)，用戶輸入查詢時(shí)能夠自動(dòng)提示，還有Google查詢后顯示的數(shù)據(jù)，界面上字體等要比Baidu細(xì)致一個(gè)檔次。這些細(xì)節(jié)的原因，某種程度關(guān)系到搜索引擎在市場(chǎng)的占有額。

四、垂直搜索引擎的相關(guān)技術(shù)

1．頁面解析與頁面顯示排序。

網(wǎng)頁地址都是用URL（Uniform Resource Locator統(tǒng)一資源定位器）來表示，獲取網(wǎng)頁信息，必須找到URL，讀取該URL頁面的HTML、特定標(biāo)簽，高級(jí)的搜索引擎還能對(duì)JavaScript語句進(jìn)行解析。這是因?yàn)樵S多網(wǎng)站直接用JavaScript構(gòu)建出來，而且隨著Ajax技術(shù)的流行，很多信息包含在JavaScript標(biāo)簽里，為了提高采集信息的準(zhǔn)確率，提高搜索引擎的競(jìng)爭(zhēng)力，搜索引擎必須提供JavaScript解析器。

頁面排序是針對(duì)根據(jù)用戶關(guān)鍵字，查詢到的網(wǎng)頁列表，采用何種策略將網(wǎng)頁列表顯示在用戶面前，使用戶最想知道的結(jié)果顯示在最前面頁數(shù)發(fā)生的概率最大。主要的算法有：PageRank算法、HITS算法。在排序上，有些搜索引擎（如百度），則加入收費(fèi)這一方式，使排序成為搜索引擎的一大盈利模式。

2．?dāng)?shù)據(jù)存儲(chǔ)及分布式技術(shù)。

盡管垂直搜索引擎保存的網(wǎng)頁數(shù)量相對(duì)通用垂直搜索引擎小很多，但是，作為一個(gè)優(yōu)秀的商業(yè)垂直搜索引擎，必須在提高性能的同時(shí)減低成本，提升競(jìng)爭(zhēng)力。可以采用數(shù)據(jù)壓縮的技術(shù)對(duì)數(shù)據(jù)進(jìn)行壓縮存儲(chǔ)，采用數(shù)據(jù)庫技術(shù)，如索引等提高數(shù)據(jù)讀取速度，也可以采用分布式技術(shù)，通過多臺(tái)服務(wù)器相互合作，以提高數(shù)據(jù)采集和更新速度。

3．網(wǎng)絡(luò)蜘蛛的爬行策略。

網(wǎng)絡(luò)蜘蛛（Robot或Spider）的搜索策略是指當(dāng)網(wǎng)絡(luò)蜘蛛搜索到一個(gè)文檔之后,下一步應(yīng)該轉(zhuǎn)移到哪一個(gè)文檔的方法問題。目前比較常見的搜索策略有以下幾種策略：（1）IP地址搜索策略；（2）深度優(yōu)先搜索策略；（3）廣度優(yōu)先搜索策略；（4）深度－廣度結(jié)合搜索策略。

4．中文分詞技術(shù)。

在Web應(yīng)用中，文本處理的速度往往是性能的關(guān)鍵，快速分詞具有很大的現(xiàn)實(shí)意義。Web文本分詞是Web信息處理的基礎(chǔ)，如信息檢索、摘要形成、網(wǎng)頁過濾等都需要對(duì)Web文本進(jìn)行分詞處理。Web文本的正文主要由英文和中文構(gòu)成，由于英文的單詞與單詞之間有空格，所以不存在分詞問題。而中文的每一句中詞與詞之間是沒有空格的，因而必須采用某種技術(shù)將其分開。

分詞的方法很多，基本上分為兩類：第一類是基于字符串的匹配，將漢字串與一個(gè)機(jī)器詞典中的詞條進(jìn)行匹配，若在詞典中找到某個(gè)字符串，則匹配成功。主要有正向最大匹配法、逆向最大匹配法、最少切分等方法。第二類是基于統(tǒng)計(jì)的方法，從概率角度出發(fā)，單字出現(xiàn)在詞匯中聯(lián)合概率是比較大的，因此當(dāng)相鄰的字越常出現(xiàn)，則越有可能是一個(gè)詞?；谏鲜鲆瑢?duì)處理的材料進(jìn)行分析，得到相應(yīng)的單字出現(xiàn)的概率，然后對(duì)相鄰的字出現(xiàn)概率進(jìn)行統(tǒng)計(jì)，若遠(yuǎn)大于單字出現(xiàn)的概率之和，則可能成為一個(gè)詞。實(shí)際應(yīng)用中，統(tǒng)計(jì)分詞方法都是與字典結(jié)合著來使用的，這樣既發(fā)揮匹配分詞的切分速度快、效率高的特點(diǎn)，對(duì)利用了無詞典結(jié)合上下文識(shí)別生詞，并能消除歧義等優(yōu)點(diǎn)。

五、垂直搜索引擎的發(fā)展空間

“確解用戶之意，切返用戶之需” “用戶無法描述道他要找什么，除非讓他看到想找的東西”，這是消費(fèi)者（網(wǎng)絡(luò)使用者）對(duì)搜索引擎提出的更高要求。以盡可能多地收集到與專業(yè)相關(guān)的信息為主要目標(biāo)的垂直搜索引擎，比通用垂直搜索引擎在Internet上更加貼切消費(fèi)者的要求。專業(yè)化的集定領(lǐng)域的垂直搜索引擎有效地彌補(bǔ)了綜合性搜索引擎對(duì)專門領(lǐng)域及特定主題信息覆蓋率過低的問題。市場(chǎng)需求的多元化，決定著搜索引擎服務(wù)的多元化；通用搜索引擎開拓市場(chǎng)上的成功，為垂直搜索引擎的市場(chǎng)戰(zhàn)略提供了寶貴的借鑒經(jīng)驗(yàn)，垂直搜索引擎的特點(diǎn)，決定著它在Internet上占有一席之地，必將成為搜索行業(yè)的一大力量。

（作者單位：廣州市機(jī)電高級(jí)技工學(xué)校）

參考文獻(xiàn)：

[1]王曉偉. 垂直搜索引擎若干關(guān)鍵技術(shù)的研究[J].浙江大學(xué)學(xué)報(bào)，2007，（5）．

[2]孫衛(wèi)喜．搜索引擎分析[J]．高校實(shí)驗(yàn)室工作研究，2007，（3）．

[3]李副銘．垂直搜索引擎的研究與設(shè)計(jì)[D]．電子科技大學(xué)學(xué)報(bào)，2009，（9）．

亚洲人人网,中文字幕在线欧美,91传媒视频在线观看,国产精品亚洲一区,爆操国产美女,好看的毛片网站,成人久久视频

網(wǎng)絡(luò)爬蟲基本原理范文

篇1

篇2

篇3

熱門標(biāo)簽

相關(guān)文章

相關(guān)期刊

網(wǎng)絡(luò)財(cái)富

網(wǎng)絡(luò)財(cái)富

網(wǎng)絡(luò)財(cái)富

衛(wèi)星與網(wǎng)絡(luò)

精品范文