淺談大數(shù)據(jù)挖掘與數(shù)據(jù)處理方法
時間:2022-11-06 05:14:12
導(dǎo)語:淺談大數(shù)據(jù)挖掘與數(shù)據(jù)處理方法一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:本文闡述了大數(shù)據(jù)挖掘的來歷、方式和技術(shù)體制還有對數(shù)據(jù)的處理方法。從數(shù)據(jù)本身和使用工具方面比較了大數(shù)據(jù)與數(shù)據(jù)挖掘的異同,并且提出了關(guān)于在大數(shù)據(jù)時代數(shù)據(jù)挖掘的發(fā)展路線?,F(xiàn)在科技的發(fā)展使大數(shù)據(jù)獲得了廣泛的關(guān)注、重視、和進(jìn)行開發(fā)從而加以實踐。現(xiàn)時代數(shù)據(jù)中非結(jié)構(gòu)化流式數(shù)據(jù)作為一種主要的數(shù)據(jù)形態(tài),而他的信息龐大和復(fù)雜使得傳統(tǒng)數(shù)據(jù)處理體制無法滿足對數(shù)據(jù)處理的要求,為了滿足新時代的對大數(shù)據(jù)的處理需要將大數(shù)據(jù)處理系統(tǒng)從流程設(shè)計向數(shù)據(jù)設(shè)計方向轉(zhuǎn)化,從而提高對數(shù)據(jù)處理的效率。
關(guān)鍵詞:大數(shù)據(jù);挖掘;數(shù)據(jù)處理;方法
現(xiàn)時代大數(shù)據(jù)的涌來,使得人們迫切的想加大對數(shù)據(jù)的研究與了解。數(shù)據(jù)挖掘因此成為了我們在對數(shù)據(jù)了解的路上的一個障礙,通過對大數(shù)據(jù)挖掘的闡述,將有助于我們加深了解數(shù)據(jù)的情況。在數(shù)據(jù)的處理方法上這里也將做出一個完整的闡述。
1.基本概念
數(shù)據(jù)挖掘,意思很明顯,就是表層意思,其就是從海量的數(shù)據(jù)中提取出有效的信息,也就是相當(dāng)于在數(shù)量大、信息不完全、信息不清晰的數(shù)據(jù)中,提煉出對人類有用的的信息和知識的過程。數(shù)據(jù)挖掘主要操作是在大量數(shù)據(jù)中利用分析工具發(fā)現(xiàn)數(shù)據(jù)與模型間關(guān)系,在這個過程中它可以幫助使用者尋找數(shù)據(jù)與數(shù)據(jù)之間的聯(lián)系,使模糊的因素變得明顯,所以數(shù)據(jù)挖掘被認(rèn)為是在這個信息時代解決信息貧乏的一種有效途徑。數(shù)據(jù)挖掘不僅融入了數(shù)據(jù)倉庫、模式識別、建模技術(shù)、還包括了機器學(xué)等多領(lǐng)域的理論基礎(chǔ)和技術(shù)。其中數(shù)據(jù)庫、數(shù)理統(tǒng)計、人工智能是數(shù)據(jù)挖掘的三大技術(shù)支持。大數(shù)據(jù)是通過高速采集、發(fā)現(xiàn)和解析海量信息,是一種全新的從大容量數(shù)據(jù)中獲取價值的技術(shù)結(jié)構(gòu)。有一個權(quán)威的機構(gòu)給過大數(shù)據(jù)以一定的定義,分別是四個"V"字開頭的字母:Volume(體量大),Velocity(速度快),Variety(種類雜),Value(價值大)。Volume是指數(shù)據(jù)的大小決定所考慮的數(shù)據(jù)的價值和潛在的信息;Velocity意思是對數(shù)據(jù)獲取的速度;Variety則意味著要在數(shù)量大、信息復(fù)雜的數(shù)據(jù)間發(fā)現(xiàn)其內(nèi)在關(guān)聯(lián);Value最重要,它是大數(shù)據(jù)的最終意義:挖掘數(shù)據(jù)中存在的價值。
2.相互聯(lián)系
當(dāng)前的大數(shù)據(jù)才剛開始發(fā)展,一切都是以數(shù)據(jù)挖掘為基礎(chǔ),相當(dāng)于其是對數(shù)據(jù)挖掘的概念再深化,所以可以說數(shù)據(jù)挖掘是大數(shù)據(jù)的開山鼻祖。大數(shù)據(jù)和數(shù)據(jù)挖掘都是朝著對數(shù)據(jù)進(jìn)行挖掘解析,提取有實用價值的信息為目的。雖然從表面上看,兩者區(qū)別在于大上,但深入就會發(fā)現(xiàn):數(shù)據(jù)挖掘的對象并不只是用于少量數(shù)據(jù),在對海量數(shù)據(jù)的處理上也同樣適用,只是由于挖掘方法和技術(shù)的革新,給與了一種新的說法稱作大數(shù)據(jù);另一方面:大數(shù)據(jù)的重點并不是在“大”,而是用全新的思想和一線技術(shù)去對海量數(shù)據(jù)進(jìn)行分析,提取其中有用的信息,進(jìn)行對未來的預(yù)估,或者根據(jù)其中的模式,創(chuàng)造新的產(chǎn)品和服務(wù)。所以大數(shù)據(jù)和數(shù)據(jù)挖掘在一定時間內(nèi)還會共存,其大致的區(qū)別就是如何體現(xiàn)出數(shù)據(jù)的價值。大數(shù)據(jù)是數(shù)據(jù)挖掘產(chǎn)業(yè)化的表現(xiàn)。信息是數(shù)據(jù)的價值,利益是技術(shù)的價值,數(shù)據(jù)挖掘是在專業(yè)技術(shù)領(lǐng)域中的一種專業(yè)名詞,在到了高端的商業(yè)領(lǐng)域就需要加以修飾升級。當(dāng)前大數(shù)據(jù)正成為增強國家競爭力的重要因素之一,被視為創(chuàng)新和生產(chǎn)力提升的下一個前沿,在世界范圍內(nèi)受到各國越來越大的重視,多國政府在對大數(shù)據(jù)的發(fā)展上給與了大力的扶持,甚至到了國家戰(zhàn)略的層面。
3.非結(jié)構(gòu)化數(shù)據(jù)處理流程
非結(jié)構(gòu)化處理流程主要包括信息采集、網(wǎng)頁分類和網(wǎng)頁預(yù)處理三個階段。
3.1信息采集
信息采集是將雜亂無章的信息從海量的網(wǎng)頁中提取出來保存到具有一定順序的數(shù)據(jù)庫中的過程。其主要面對是專業(yè)技術(shù)人群,因此其采集的信息在一定的范圍內(nèi),并且出于對性能和成本上的考慮不能對整個網(wǎng)絡(luò)進(jìn)行全方面閱覽,所以在信息采集的方面上要做到對信息的價值進(jìn)行判斷是否值得訪問,研究以何種策略進(jìn)行對web的訪問,盡可能的提升對信息采集的效率。通過預(yù)先設(shè)定的種子鏈接集,利用HTrP協(xié)議訪問并下載頁面,再用各種技術(shù)對頁面與主題之間的聯(lián)系進(jìn)行分析并且提取出待訪問的鏈接,使用種類不同的爬行策略循環(huán)的訪問網(wǎng)頁是信息采集的基本方法。介于內(nèi)容的主題信息采集和基于超鏈接的主題信息采集是信息采集基于主題的不同的兩種分類,基于內(nèi)容的信息采集需要建立一個針對主題的詞表;另一類則是基于網(wǎng)頁之間的引用關(guān)系。
3.2網(wǎng)頁預(yù)處理
網(wǎng)頁預(yù)處理主要是一個對一些數(shù)據(jù)進(jìn)行篩選的過程,保證信息的準(zhǔn)確性。網(wǎng)頁預(yù)處理部分這里主要是對網(wǎng)頁去重的介紹,基于URL的對比去重,適用哈希算法;用信息指紋的文本相似度算法去進(jìn)行內(nèi)容的對比去重,這兩種方法是對網(wǎng)頁去重的歸類。網(wǎng)頁去重需要先對文檔對象的特征抽取,對文檔內(nèi)容進(jìn)行分解,以若干組成文檔的特征集合表示,這一步驟主要是為了使特征比較計算相似度變得方便。之后需要針對特征的壓縮編碼,進(jìn)行專業(yè)處理,做到減少存儲空間,加快比較速度的作用。最后需要對文檔的相似度進(jìn)行計算個,這一步需要根據(jù)文檔特征重合比例來確定是否重復(fù)文檔。一般是對網(wǎng)頁進(jìn)行提取特征,大多是一組詞,適用特定的算法,轉(zhuǎn)化成一組代碼,也被稱為指紋。若兩個頁面相同指紋的數(shù)量大,則這兩個頁面內(nèi)容有很大部分是相同的。
3.3網(wǎng)頁分類
網(wǎng)頁分類是通過對數(shù)據(jù)挖掘算法得出來的分類模型,對數(shù)據(jù)進(jìn)行分類提煉,得出有價值的信息。人類所面臨的普遍問題是分類問題,并且分類問題對人們來說也是極其重要的。對物品進(jìn)行分類,可以促進(jìn)人們對世界的認(rèn)知,讓這個世界從雜亂無章變得有條有理。文本分類主要應(yīng)用在信息檢索、機器翻譯、信息審核、消息分類等任務(wù)。特征詞的選擇問題及其權(quán)重分配是文本分類的一個關(guān)鍵問題。
結(jié)語
當(dāng)前在大數(shù)據(jù)時代中,數(shù)據(jù)利用云存儲已經(jīng)成為一種趨勢。數(shù)據(jù)挖掘是整個數(shù)據(jù)應(yīng)用過程中最重要的一環(huán)。大數(shù)據(jù)的分析處理是通過把海量數(shù)據(jù)按照一定的分類方式分成不同的幾個版塊,同時利用數(shù)據(jù)技術(shù)進(jìn)行挖掘,也可以將數(shù)據(jù)挖掘技術(shù)加以整合,從而研制出更加高效準(zhǔn)確的方法對大數(shù)據(jù)進(jìn)行直接挖掘,將其中的規(guī)律和商機進(jìn)行提取,利用在人們的生活中,為人們更好地服務(wù),因此大數(shù)據(jù)挖掘在現(xiàn)在社會中具有極其重要的地位。如今社會的各個行業(yè)對數(shù)據(jù)挖掘和自然語言處理運用的需求極大,在這方面上蘊含的理論價值和商業(yè)價值極大,所以正確的使用方法對數(shù)據(jù)處理是極其重要的。
參考文獻(xiàn):
[1]高強,張鳳荔,王瑞錦,周帆.軌跡大數(shù)據(jù):數(shù)據(jù)處理關(guān)鍵技術(shù)研究綜述[J].軟件學(xué)報,2017,28(04):959-992.
[2]于躍.基于大數(shù)據(jù)挖掘的藥品不良反應(yīng)知識整合與利用研究[D].吉林大學(xué),2016.
[3]張東霞,苗新,劉麗平,張焰,劉科研.智能電網(wǎng)大數(shù)據(jù)技術(shù)發(fā)展研究[J].中國電機工程學(xué)報,2015,35(01):2-12.
[4]李德仁,張良培,夏桂松.遙感大數(shù)據(jù)自動分析與數(shù)據(jù)挖掘[J].測繪學(xué)報,2014,43(12):1211-1216.
作者:黃慶 單位:廣西質(zhì)量技術(shù)工程學(xué)校