大數(shù)據分析論文范文
時間:2023-03-24 09:27:07
導語:如何才能寫好一篇大數(shù)據分析論文,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
基本的大數(shù)據的處理流程可以分成數(shù)據采集、數(shù)據處理與集成、數(shù)據分析和數(shù)據解釋4個階段。首先獲取數(shù)據源的數(shù)據,因為在數(shù)據源端的數(shù)據包含各種各樣的結構,需要使用某種方法將其進行預處理,使數(shù)據成為某種可以用一種算法分析的統(tǒng)一數(shù)據格式,接著需要找到這種數(shù)據分析的算法,將預處理過的數(shù)據進行算法特定的分析,并將分析的結果用可視化等手段呈現(xiàn)至用戶端。
1.1數(shù)據采集
大數(shù)據的采集是整個流程的基礎,隨著互聯(lián)網技術和應用的發(fā)展以及各種終端設備的普及,使得數(shù)據的生產者范圍越來越大,數(shù)據的產量也越來越多,數(shù)據之間的關聯(lián)也越來越復雜,這也是大數(shù)據中“大”的體現(xiàn),所以需要提高數(shù)據采集速度和精度要求。
1.2數(shù)據處理與集成
數(shù)據的處理與集成主要是對前一步采集到的大量數(shù)據進行適當?shù)念A處理,包括格式化、去噪以及進一步集成存儲。因為數(shù)據采集步驟采集到的數(shù)據各種各樣,其數(shù)據結構也并不統(tǒng)一,不利于之后的數(shù)據分析,而且,一些數(shù)據屬于無效數(shù)據,需要去除,否則會影響數(shù)據分析的精度和可靠性,所以,需要將數(shù)據統(tǒng)一格式并且去除無效數(shù)據。通常會設計一些過濾器來完成這一任務。
1.3數(shù)據分析
在完成了數(shù)據的采集和處理后,需要對數(shù)據進行分析,因為在進行數(shù)據分析后才能體現(xiàn)所有大數(shù)據的重要價值。數(shù)據分析的對象是上一步數(shù)據的處理與集成后的統(tǒng)一格式數(shù)據,需要根據所需數(shù)據的應用需求和價值體現(xiàn)方向對這些原始樣本數(shù)據進一步地處理和分析?,F(xiàn)有的數(shù)據分析通常指采用數(shù)據倉庫和數(shù)據挖掘工具對集中存儲的數(shù)據進行分析,數(shù)據分析服務與傳統(tǒng)數(shù)據分析的差別在于其面向的對象不是數(shù)據,而是數(shù)據服務。
1.4數(shù)據解釋
數(shù)據解釋是對大數(shù)據分析結果的解釋與展現(xiàn),在數(shù)據處理流程中,數(shù)據結果的解釋步驟是大數(shù)據分析的用戶直接面對成果的步驟,傳統(tǒng)的數(shù)據顯示方式是用文本形式體現(xiàn)的,但是,隨著數(shù)據量的加大,其分析結果也更復雜,傳統(tǒng)的數(shù)據顯示方法已經不足以滿足數(shù)據分析結果輸出的需求,因此,數(shù)據分析企業(yè)會引入“數(shù)據可視化技術”作為數(shù)據解釋方式。通過可視化結果分析,可以形象地向用戶展示數(shù)據分析結果。
2云計算與大數(shù)據分析的關系
云計算是基于互聯(lián)網的相關服務的增加、使用和交付模式,通常涉及通過互聯(lián)網來提供動態(tài)易擴展且經常是虛擬化的資源,是一種按使用量付費的模式。這種模式提供可用的、便捷的、按需的網絡訪問,進入可配置的計算資源共享池(資源包括網絡、服務器、存儲、應用軟件、服務),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互。目前,國內外已經有不少成熟的云計算的應用服務。數(shù)據分析是整個大數(shù)據處理流程里最核心的部分。數(shù)據分析是以數(shù)據的價值分析為目的的活動,而基于大數(shù)據的數(shù)據分析通常表現(xiàn)為對已獲取的海量數(shù)據的分析,其數(shù)據來源可能是企業(yè)數(shù)據也可能是企業(yè)數(shù)據與互聯(lián)網數(shù)據的融合。從目前的趨勢來看,云計算是大數(shù)據的IT基礎,是大數(shù)據分析的支撐平臺,不斷增長的數(shù)據量需要性能更高的數(shù)據分析平臺承載。所以,云計算技術的不斷發(fā)展可以為大數(shù)據分析提供更為靈活、迅速的部署方案,使得大數(shù)據分析的結果更加精確。另一方面,云計算的出現(xiàn)為大數(shù)據分析提供了擴展性更強,使用成本更低的存儲資源和計算資源,使得中小企業(yè)也可以通過云計算來實現(xiàn)屬于自己的大數(shù)據分析產品。大數(shù)據技術本身也是云計算技術的一種延伸。大數(shù)據技術涵蓋了從數(shù)據的海量存儲、處理到應用多方面的技術,包括海量分布式文件系統(tǒng)、并行計算框架、數(shù)據庫、實時流數(shù)據處理以及智能分析技術,如模式識別、自然語言理解、應用知識庫等等。但是,大數(shù)據分析要走向云計算還要賴于數(shù)據通信帶寬的提高和云資源的建設,需要確保原始數(shù)據能遷移到云環(huán)境以及資源池可以隨需彈性擴展。
3基于云計算環(huán)境的Hadoop
為了給大數(shù)據處理分析提供一個性能更高、可靠性更好的平臺,研究者基于MapReduce開發(fā)了一個基于云計算環(huán)境的開源平臺Hadoop。Hadoop是一個以MapReduce算法為分布式計算框架,包括分布式文件系統(tǒng)(HDFS)、分布式數(shù)據庫(Hbase、Cassandra)等功能模塊在內的完整生態(tài)系統(tǒng),已經成為當前最流行的大數(shù)據處理平臺,并被廣泛認可和開發(fā)應用。基于Hadoop,用戶可編寫處理海量數(shù)據的分布式并行程序,并將其運行于由成百上千個節(jié)點組成的大規(guī)模計算機集群上。
4實例分析
本節(jié)以電信運營商為例,說明在云計算環(huán)境中基于Hadoop的大數(shù)據分析給大數(shù)據用戶帶來的價值。當前傳統(tǒng)語音和短信業(yè)務量下滑,智能終端快速增長,移動互聯(lián)網業(yè)務發(fā)展迅速,大數(shù)據分析可以為運營商帶來新的機會,幫助運營商更好地轉型。本文數(shù)據分析樣本來自于某運營商的個人語音和數(shù)據業(yè)務清單,通過Hadoop2.6.0在Ubuntu12.04系統(tǒng)中模擬了一個大數(shù)據分析平臺來處理獲得的樣本。希望通過對樣本數(shù)據的分析與挖掘,掌握樣本本身的一些信息。以上分析只是一些很基本的簡單分析,實際上樣本數(shù)據中所蘊含的價值要遠遠大于本文體現(xiàn)的。以上舉例意在說明基于云計算的大數(shù)據分析可以在數(shù)據分析上體現(xiàn)出良好的性能,為企業(yè)帶來更豐富更有效率的信息提取、分類,并從中獲益。
5結束語
篇2
關鍵詞:大數(shù)據分析;內部審計應用
近年來,大數(shù)據應用更加廣泛,它改變了固有的數(shù)據分析方式,將企業(yè)經營以及與之相關聯(lián)的企業(yè)和客戶信息進行收集和分析,通過新的思維處理數(shù)據與技術的難題。據調查顯示,目前我國很多優(yōu)秀企業(yè)都將大數(shù)據作為新一輪經濟增長點,從2012年開始就實現(xiàn)了持續(xù)增長,成了企業(yè)市場經營的巨大資料庫,提高了企業(yè)的整體技術水平和競爭能力。具體而言,大數(shù)據分析是一種能夠從各類信息中快速提取有用數(shù)據的一種新技術,對內部審計工作來說具有的意義不言而喻。下面就從大數(shù)據分析給內部審計帶來的機遇和挑戰(zhàn)入手,從實際出發(fā)做好應用性審計,帶動審計工作發(fā)生質的飛躍。
一、大數(shù)據分析給內部審計工作帶來的機遇和挑戰(zhàn)
(一)審計目標信息化技術使用的初期,內部審計工作依賴計算機技術,可以通過對數(shù)據的觀察和分析找到審計中存在的問題,為具體工作的開展提供參考。大數(shù)據分析技術的應用則將審計工作帶到了新的高度,它不僅能夠發(fā)現(xiàn)問題,還可以對風險進行評估,對效益進行分析,及時發(fā)現(xiàn)審計工作中存在的問題,降低內部控制風險,為企業(yè)發(fā)展做出預測性思考。(二)審計內容數(shù)字是傳統(tǒng)內部審計工作參考的重點,包括營業(yè)收入、費用支出、稅收情況等等。大數(shù)據分析則突破了原來數(shù)字化的限制,基本內涵和審計的內容不斷向外延展,打破了傳統(tǒng)數(shù)據結構化的樣式不足,在不同的時間范圍內可以生成復雜多變的數(shù)據,其中包括文本、音頻、視頻、xml等,構建出了審計的立體化方法。(三)分析技術大數(shù)據分析與內部審計應用的結合,最大的改變就在于技術的更新,大數(shù)據分析可以實現(xiàn)大數(shù)字的整合,從五大技術方面進行了完善。即可視化分析、數(shù)據挖掘算法、預測性分析、語義引擎和數(shù)據質量與管理。這些新技術可以通過標準化的形式,建立數(shù)據新模型,提取隱藏起來的內部審計信息,利用圖表展示數(shù)據分析的全過程,并做出前瞻性的判斷,從而提高數(shù)據的分析準確性。
二、大數(shù)據分析內部審計的方式
首先,數(shù)據驗證性分析朝著數(shù)據挖掘性分析轉變。即由原來的多維分析驗證數(shù)據變?yōu)橥诰蛐约夹g的使用,將數(shù)據倉庫和模型構建起來,做好聚類分析,找到規(guī)律性內容,并提取關聯(lián)性數(shù)據。例如,在電力審計過程中,可以建立起專門的數(shù)據資料庫,找到電力使用的具體數(shù)據,分析用電情況。其次,審計方式由事后發(fā)現(xiàn)問題變?yōu)轱L險預警。企業(yè)經營難免會遇到各種風險,對市場形勢進行分析,將可能存在的危機控制在萌芽階段,是大數(shù)據分析有別于傳統(tǒng)分析模式最大的特點。另外,大數(shù)據分析可以早期關注經濟運行情況,發(fā)掘數(shù)據敏感性波動,并集合社保審計、債務數(shù)據、經濟宏觀運行數(shù)據,實現(xiàn)信息庫的交叉使用,提升數(shù)據分析水平和審計能力。最后,單機審計向云審計方法的轉變。云審計是基于云數(shù)據庫設立的數(shù)據平臺,它依靠的是中心統(tǒng)計分析,通過網絡與“云”的對接,對審計成果進行共享。與此同時,在大數(shù)據分析云計算實施的過程中,必須堅持技術的創(chuàng)新與發(fā)展,建立預算、財務、執(zhí)政一體化策略,設立專門的數(shù)據平臺,提高信息化技術審核的質量,做好宏觀分析。
三、大數(shù)據分析在內部審計中的應用
大數(shù)據分析與內部審計的綜合應用是信息時代技術演變的新手段,在與內部審計結合使用的過程中必須堅持全面化使用,從制度流程、機構人員、審計業(yè)務以及技術上做好配合,全面推行新的審計方法。(一)創(chuàng)新大數(shù)據工作模式創(chuàng)新是進步的源泉,大數(shù)據分析的推行,與內部審計工作的結合,都必須堅持創(chuàng)新原則,對預算執(zhí)行審計有一個全面的認識。傳統(tǒng)的孤立審計已不適應大數(shù)據審計的要求,需要打破部門之間的界限,以審計項目為管理主線,成立大審計組,進行扁平化管理。結合各預算部門的財務數(shù)據,發(fā)現(xiàn)是否存在預算項目在連年結轉的情況下仍然安排新增預算、造成資金閑置的問題。通過對數(shù)據進行宏觀整體分析,發(fā)現(xiàn)是否存在預算執(zhí)行效率不高、分配下達預算不及時、撥付轉移支付資金超期等情況。(二)完善跟蹤審計方式通過建設審計數(shù)據綜合分析平臺,搭建關系國計民生的重點行業(yè)聯(lián)網審計系統(tǒng),用Hadoop等專業(yè)工具處理半結構化、非結構化數(shù)據,規(guī)范高效地匯集和處理大規(guī)模數(shù)據信息。例如,在地稅審計中,可利用地稅聯(lián)網審計系統(tǒng),集中進行全省地稅數(shù)據整理分析,探索“數(shù)據集中采集、集中統(tǒng)一分析、疑點分布落實、資源充分共享”的大數(shù)據審計模式,實現(xiàn)全省聯(lián)動審計。此外,還要對資金分配結構、資金使用流向、資金管理情況進行總體分析,全面反映預算執(zhí)行整體情況,實現(xiàn)對預算單位的審計監(jiān)督全覆蓋。(三)實現(xiàn)多數(shù)據融合,落實經濟責任審計運用關聯(lián)分析,找出數(shù)據間的相互聯(lián)系,分析關聯(lián)規(guī)則,發(fā)現(xiàn)異常聯(lián)系和異常數(shù)據,尋找審計疑點。在經濟責任審計中,可利用財政、稅務、社保、培訓等數(shù)據在橫向和縱向之間都做好關聯(lián)性研究,做好數(shù)據的全面跟蹤分析,實施和推行經濟責任審計模式,提高審計效率。另外,在深入挖掘數(shù)據過程中,還要利用數(shù)據倉庫和模型分析統(tǒng)計數(shù)據變動信息,分析關聯(lián)性內容,對體制機制性問題開展研究,挖掘行業(yè)性和趨勢性問題。
四、結束語
綜上所述,大數(shù)據技術的發(fā)展對審計工作提出了新的、更高的要求,也為審計提供了新的工具。傳統(tǒng)的大數(shù)據分析與內部審計工作的結合不夠緊密,技術應用不夠突出,且人才缺失?;诖髷?shù)據分析的新情況,內部審計工作必須從數(shù)據、資源、人才方面逐步積累資源,創(chuàng)新大數(shù)據分析的思路和模式,研究技術發(fā)展的情況,并建立覆蓋公司業(yè)務流程的審計信息化管理系統(tǒng),使公司各業(yè)務線在統(tǒng)一、透明、標準的審計監(jiān)控下陽光運行,確保大數(shù)據在內部審計中的高效應用。
參考文獻:
[1]王磊.數(shù)據挖掘技術在保險公司內部審計中的運用研究[D].山東財經大學,2015.
[2]梁秀根,黃鄧秋,蔡赟,魏連濤,梁國平.持續(xù)審計結合數(shù)據挖掘技術在內部審計中的探究和應用[A].全國內部審計理論研討優(yōu)秀論文集(2013)[C].2014:10.
篇3
統(tǒng)計學論文2000字(一):影響民族院校統(tǒng)計學專業(yè)回歸分析成績因素的研究論文
摘要:學習成績是評價學生素質的重要方面,也是教師檢驗教學能力、反思教學成果的重要標準。利用大連民族大學統(tǒng)計學專業(yè)本科生有關數(shù)據(專業(yè)基礎課成績、平時成績和回歸分析期末成績),建立多元線性回歸模型,對影響回歸分析期末成績的因素進行深入研究,其結果對今后的教學方法改進和教學質量提高具有十分重要的指導意義。
關鍵詞:多元線性回歸;專業(yè)基礎課成績;平時成績;期末成績
為了實現(xiàn)教學目標,提高教學質量,有效提高學生學習成績是很有必要的。我們知道專業(yè)基礎課成績必定影響專業(yè)課成績,而且平時成績也會影響專業(yè)課成績,這兩類成績與專業(yè)課成績基本上是呈正相關的,但它們之間的關系密切程度有多大?它們之間又存在怎樣的內在聯(lián)系呢?就這些問題,本文主要選取了2016級統(tǒng)計專業(yè)50名學生的四門專業(yè)基礎課成績以及回歸分析的平時成績和期末成績,運用SPSS統(tǒng)計軟件進行分析研究,尋求回歸分析期末成績影響因素的變化規(guī)律,擬合出關系式,從而為強化學生的后續(xù)學習和提高老師的教學質量提供了有利依據。
一、數(shù)據選取
回歸分析是統(tǒng)計專業(yè)必修課,也是統(tǒng)計學中的一個非常重要的分支,它在自然科學、管理科學和社會、經濟等領域應用十分廣泛。因此研究影響統(tǒng)計學專業(yè)回歸分析成績的相關性是十分重要的。
選取了統(tǒng)計專業(yè)50名學生的專業(yè)基礎課成績(包括數(shù)學分析、高等代數(shù)、解析幾何和概率論)、回歸分析的平時成績和期末成績,結合多元線性回歸的基礎理論知識[1-2],建立多元回歸方程,進行深入研究,可以直觀、高效、科學地分析各種因素對回歸分析期末成績造成的影響。
二、建立多元線性回歸模型1及數(shù)據分析
運用SPSS統(tǒng)計軟件對回歸分析期末成績的影響因素進行研究,可以得到準確、科學合理的數(shù)據結果,全面分析評價學生考試成績,對教師以后的教學工作和學生的學習會有較大幫助。自變量x1表示數(shù)學分析成績,x2表示高等代數(shù)成績,x3表示解析幾何成績,x4表示概率論成績,x5表示平時成績;因變量y1表示回歸分析期末成績,根據經驗可知因變量y1和自變量xi,i=1,2,3,4,5之間大致成線性關系,可建立線性回歸模型:
(1)
線性回歸模型通常滿足以下幾個基本假設,
1.隨機誤差項具有零均值和等方差,即
(2)
這個假定通常稱為高斯-馬爾柯夫條件。
2.正態(tài)分布假定條件
由多元正態(tài)分布的性質和上述假定可知,隨機變量y1服從n維正態(tài)分布。
從表1描述性統(tǒng)計表中可看到各變量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的標準差分別為10.847,11.531,8.929,9.018,9.221,y1的標準差為8.141;有效樣本量n=50。
回歸分析期末成績y1的多元回歸模型1為:
y1=-5.254+0.221x1-0.4x2+0.154x3
+0.334x4+0.347x5
從表2中可以看到各變量的|t|值,在給定顯著水平?琢=0.05的情況下,通過t分布表可以查出,自由度為44的臨界值t?琢/2(44)=2.015,由于高等代數(shù)x2的|t|值為0.651小于t?琢/2(44),因此x2對y1的影響不顯著,其他自變量對y1都是線性顯著的。下面利用后退法[3]剔除自變量x2。
三、后退法建立多元線性回歸模型2及數(shù)據分析
從模型1中剔除了x2變量,多元回歸模型2為:
y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)
在表4中,F(xiàn)統(tǒng)計量為90.326,在給定顯著水平?琢=0.05的情況下,查F分布表可得,自由度為p=4和n-p-1=45的臨界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自變量的|t|值都大于t?琢/2(45)=2.014,因此,多元回歸模型2的線性關系是顯著的。
四、結束語
通過對上述模型進行分析,即各個自變量對因變量的邊際影響,可以得到以下結論:在保持其他條件不變的情況下,當數(shù)學分析成績提高一分,則回歸分析成績可提高0.242分[4-5];同理,當解析幾何成績、概率論成績和平時成績每提高一分,則回歸分析成績分別提高0.149分、0.377分和0.293分。
通過對學生專業(yè)基礎課成績、平時成績與回歸分析期末成績之間相關關系的研究,一方面有利于教師把控回歸分析教學課堂,提高教師意識,注重專業(yè)基礎課教學的重要性,同時,當學生平時成績不好時,隨時調整教學進度提高學生平時學習能力;另一方面使學生認識到,為了更好地掌握回歸分析知識,應加強專業(yè)基礎課的學習,提高平時學習的積極性。因此,通過對回歸分析期末成績影響因素的研究能有效的解決教師教學和學生學習中的許多問題。
統(tǒng)計學畢業(yè)論文范文模板(二):大數(shù)據背景下統(tǒng)計學專業(yè)“數(shù)據挖掘”課程的教學探討論文
摘要:互聯(lián)網技術、物聯(lián)網技術、云計算技術的蓬勃發(fā)展,造就了一個嶄新的大數(shù)據時代,這些變化對統(tǒng)計學專業(yè)人才培養(yǎng)模式的變革起到了助推器的作用,而數(shù)據挖掘作為拓展和提升大數(shù)據分析方法與思路的應用型課程,被廣泛納入統(tǒng)計學本科專業(yè)人才培養(yǎng)方案。本文基于數(shù)據挖掘課程的特點,結合實際教學經驗,對統(tǒng)計學本科專業(yè)開設數(shù)據挖掘課程進行教學探討,以期達到更好的教學效果。
關鍵詞:統(tǒng)計學專業(yè);數(shù)據挖掘;大數(shù)據;教學
一、引言
通常人們總結大數(shù)據有“4V”的特點:Volume(體量大),Variety(多樣性),Velocity(速度快)和Value(價值密度低)。從這樣大量、多樣化的數(shù)據中挖掘和發(fā)現(xiàn)內在的價值,是這個時代帶給我們的機遇與挑戰(zhàn),同時對數(shù)據分析技術的要求也相應提高。傳統(tǒng)教學模式并不能適應和滿足學生了解數(shù)據處理和分析最新技術與方法的迫切需要。對于常常和數(shù)據打交道的統(tǒng)計學專業(yè)的學生來說,更是如此。
二、課程教學探討
針對統(tǒng)計學本科專業(yè)的學生而言,“數(shù)據挖掘”課程一般在他們三年級或者四年級所開設,他們在前期已經學習完統(tǒng)計學、應用回歸分析、多元統(tǒng)計分析、時間序列分析等課程,所以在“數(shù)據挖掘”課程的教學內容選擇上要有所取舍,同時把握好難度。不能把“數(shù)據挖掘”課程涵蓋了的所有內容不加選擇地要求學生全部掌握,對學生來說是不太現(xiàn)實的,需要為統(tǒng)計學專業(yè)本科生“個性化定制”教學內容。
(1)“數(shù)據挖掘”課程的教學應該偏重于應用,更注重培養(yǎng)學生解決問題的能力。因此,教學目標應該是:使學生樹立數(shù)據挖掘的思維體系,掌握數(shù)據挖掘的基本方法,提高學生的實際動手能力,為在大數(shù)據時代,進一步學習各種數(shù)據處理和定量分析工具打下必要的基礎。按照這個目標,教學內容應以數(shù)據挖掘技術的基本原理講解為主,讓學生了解和掌握各種技術和方法的來龍去脈、功能及優(yōu)缺點;以算法講解為輔,由于有R語言、python等軟件,學生了解典型的算法,能用軟件把算法實現(xiàn),對軟件的計算結果熟練解讀,對各種算法的改進和深入研究則不作要求,有興趣的同學可以自行課下探討。
(2)對于已經學過的內容不再詳細講解,而是側重介紹它們在數(shù)據挖掘中的功能及綜合應用。在新知識的講解過程中,注意和已學過知識的融匯貫通,既復習鞏固了原來學過的知識,同時也無形中降低了新知識的難度。比如,在數(shù)據挖掘模型評估中,把混淆矩陣、ROC曲線、誤差平方和等知識點就能和之前學過的內容有機聯(lián)系起來。
(3)結合現(xiàn)實數(shù)據,讓學生由“被動接收”式的學習變?yōu)椤爸鲃犹骄俊毙偷膶W習。在講解每種方法和技術之后,增加一個或幾個案例,以加強學生對知識的理解。除了充分利用已有的國內外數(shù)據資源,還可以鼓勵學生去搜集自己感興趣的或者國家及社會大眾關注的問題進行研究,提升學生學習的成就感。
(4)充分考慮前述提到的三點,課程內容計劃安排見表1。
(5)課程的考核方式既要一定的理論性,又不能失掉實踐應用性,所以需要結合平時課堂表現(xiàn)、平時實驗項目完成情況和期末考試來綜合評定成績。采取期末閉卷理論考試占50%,平時實驗項目完成占40%,課堂表現(xiàn)占10%,這樣可以全方位的評價學生的表現(xiàn)。
三、教學效果評估
經過幾輪的教學實踐后,取得了如下的教學效果:
(1)學生對課程的興趣度在提升,課下也會不停地去思考數(shù)據挖掘有關的方法和技巧,發(fā)現(xiàn)問題后會一起交流與討論。
(2)在大學生創(chuàng)新創(chuàng)業(yè)項目或者數(shù)據分析的有關競賽中,選用數(shù)據挖掘方法的人數(shù)也越來越多,部分同學的成果還能在期刊上正式發(fā)表,有的同學還能在競賽中取得優(yōu)秀的成績。
(3)統(tǒng)計學專業(yè)本科生畢業(yè)論文的選題中利用數(shù)據挖掘有關方法來完成的論文越來越多,論文的完成質量也在不斷提高。
(4)本科畢業(yè)生的就業(yè)崗位中從事數(shù)據挖掘工作的人數(shù)有所提高,說明滿足企業(yè)需求技能的人數(shù)在增加。繼續(xù)深造的畢業(yè)生選擇數(shù)據挖掘研究方向的人數(shù)也在逐漸增多,表明學生的學習興趣得以激發(fā)。
教學實踐結果表明,通過數(shù)據挖掘課程的學習,可以讓學生在掌握理論知識的基礎上,進一步提升分析問題和解決實際問題的能力。
篇4
1 大數(shù)據時代已悄然來臨
大數(shù)據(Big data),是指無法在可承受的時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據集合。通常大數(shù)據只有通過分析才能獲取很多智能的、有價值的信息。因此,大數(shù)據分析對于高校檔案管理有著無可取代的作用。大數(shù)據分析的理論核心是數(shù)據挖掘算法,各種數(shù)據挖掘的算法基于不同數(shù)據類型和格式才能更加科學地呈現(xiàn)數(shù)據本身具備的特點,才能深入數(shù)據內部,挖掘出公認的價值。尤其在檔案管理上深入大數(shù)據分析將對工作帶來更大的?r值。
2 當前高校檔案管理工作狀況及大數(shù)據在高校檔案管理的建立和應用
目前,由于對檔案管理工作重視程度不足,高校內仍然缺乏相應的檔案管理硬件設施,個別部門的檔案人員甚至處于狹小潮濕的辦公區(qū)域,檔案庫房區(qū)、辦公區(qū)、閱覽區(qū)不能分開。很多檔案管理人員身兼數(shù)職,網絡化、數(shù)字化的檔案管理更是無從談起。傳統(tǒng)的檔案管理信息零落、復雜、不能共享。這樣間接地浪費了檔案資源,還造成了原始檔案信息的流失,從而影響了檔案信息化的發(fā)展水平。因此,高校檔案管理信息化的建立已勢在必行,進而為廣大師生提供新信息上網、電子郵件交流、聯(lián)機公共目錄查詢等服務,通過提供定向、定題的交互信息咨詢,提升檔案管理的服務能力和質量。
3 大數(shù)據時代對高校檔案管理工作的影響
大數(shù)據時代對高校檔案管理工作的影響,第一是有助于原始檔案文件的保存。傳統(tǒng)的檔案文件常常以紙質檔案、照片、錄音、錄像檔案的形式出現(xiàn),歲月的沉淀和檔案人員的更新?lián)Q代,常常會因為某些主客觀因素的出現(xiàn),而阻礙了高校檔案的開發(fā)利用。
第二是有助于加大檔案的開發(fā)利用程度。隨著大數(shù)據在檔案管理工作中的有效應用,對傳統(tǒng)檔案實施有選擇和有步驟的數(shù)字化,為檔案網絡信息的存儲、檢索和利用提供數(shù)據基礎。通過大數(shù)據時代與檔案管理的結合,使檔案實體和檔案信息實現(xiàn)了自動化管理,節(jié)省了大量的時間和人力資源,為開展檔案的科研工作創(chuàng)造了有利的條件。
篇5
摘要:大數(shù)據時代思維方式講究思維主體上的協(xié)同合作、思維客體上的綜合運用、思維中介上的工具開發(fā)。數(shù)據應用的側重點由感官理性轉向了證據理性,由單一結論轉向了個性化分析判斷,從被動獲取轉向了主動預測。它勢必在數(shù)據處理習慣、數(shù)據潛在價值挖掘和數(shù)據價值分析利用上對高校專業(yè)建設造成沖擊,并在專業(yè)建設數(shù)據挖掘力度、數(shù)據平臺搭建以及專門數(shù)據分析人才的培養(yǎng)方面提出相應要求。
關鍵詞 :大數(shù)據 思維方式 專業(yè)建設
高校專業(yè)建設匯聚著大量的信息,從學生角度來看,包括專業(yè)必修課、專業(yè)選修課、專業(yè)必修學分、專業(yè)實踐、課程作業(yè)、專業(yè)成績等各種信息;從教師角度來看,包含專業(yè)教學任務、課件等教學信息,專業(yè)論文著作、科學研究數(shù)據等科研信息;從管理者的角度來看,包含學科專業(yè)的分布、專業(yè)的數(shù)量規(guī)模、專業(yè)的招生就業(yè)、專業(yè)預警等信息。隨著移動互聯(lián)網以及物聯(lián)網等新技術的興起,人們主動產生和由設備自動收集的專業(yè)信息必將越來越多。它們共同存在著數(shù)據量大、結構復雜、產生頻率快的特點,毫無疑問,高校專業(yè)建設思維必將受其影響。2015年,教育部高等教育教學評估中心啟動了教學基本狀態(tài)數(shù)據庫采集的行動,標志著大數(shù)據正大步向高校進軍,其觸發(fā)的思維革命與方式轉變正大力沖擊著高校教學管理的固有模式。因此,有效運用大數(shù)據時代思維方式探索高校專業(yè)建設發(fā)展途徑,有效預測和分析專業(yè)建設走向,是高水平大學走向現(xiàn)代化治理的必然趨勢。
一、大數(shù)據時代的特點及思維方式
維克托·邁爾·舍恩伯格在《大數(shù)據時代》一書中,解讀了大數(shù)據的4個特點,即大量(Volume)、高速(Velocity)、多樣(Variety)、真實(Veracity),簡稱4V。但他同時又提醒到,大數(shù)據延伸的另一個特點是更多和更亂。如果無法順暢理清各種數(shù)據間的關聯(lián)性,我們將在它的時代中迷失。舍恩伯格強調,在龐大的數(shù)據面前保持清晰的頭腦,理順思維方式更為重要。他說,大數(shù)據時代思維方式是:每天早上起來想一下,這么多數(shù)據我能用來干什么,這些價值在哪里可以找到,能不能找到一個別人以前都沒有做過的事情,你的想法和思路,是最重要的資產。他提示我們,轉變慣有的思維方式,將成為獲取數(shù)據價值和創(chuàng)新行為方式的前提與根本。
數(shù)據是死的,人是活的,要讓死的數(shù)據說話,就必須發(fā)揮人的主觀能動性,用活人的思維。有學者從思維主體、思維客體和思維中介等方面分析大數(shù)據時代應具備的思維方式結構,認為在大數(shù)據時代面前,個體思維者在思維主體上需要從精神生產的過程中尋求協(xié)同合作,由個人的思維活動轉化為集體思維活動;在思維客體上要側重挖掘隱藏在數(shù)字背后的深刻的內涵,實現(xiàn)突破性的科學預測和科研活動,實現(xiàn)全方位、多角度的綜合思維;在思維中介上要尋求有力工具,運用多種信息加工手段和方法,提高數(shù)據存儲和處理速度的準確性和可靠性。并以此得出敏捷性、開放性、前瞻性和個性化是大數(shù)據時代思維方式的代表特征。
二、大數(shù)據時代思維方式對高校專業(yè)建設的沖擊
一是對數(shù)據處理習慣造成沖擊。按照以往數(shù)據管理和處理的方式,無論是管理者還是管理對象,都無法及時有效地搜集和應對層出不窮、錯綜復雜、始料未及的專業(yè)建設數(shù)據。一種處理的方式便是被動獲取和被動應付,讓數(shù)據不斷累積或流失,然后定時清空或有意遺忘,無法真正有效挖掘數(shù)據的隱藏價值,造成“數(shù)據浪費”。其原因在于人們的思維尚未適應大數(shù)據時代的洪流,尚未意識到在大數(shù)據面前,個體的思維主導和思維對象以及所能利用的思維中介早已超出了固有的范疇習慣,如不轉變數(shù)據處理的思維方式,改進處理數(shù)據的思維習慣,管理將陷入低效和混亂的境地,協(xié)同創(chuàng)新將舉步維艱。
二是對數(shù)據潛在價值的挖掘造成沖擊。以往對專業(yè)建設數(shù)據的挖掘通常采用直線型的方式進行。就高校教育管理層來說,專業(yè)建設數(shù)據往往是自下而上獲得,通過各學院、專業(yè)的報送來獲取第一手專業(yè)數(shù)據。就專業(yè)本身來說,其建設數(shù)據的獲得一般采用實時獲取、延時存儲、滯后分析的直線型關系模式進行。而大數(shù)據時代下要求我們從時空的立體角度對專業(yè)數(shù)據的潛在價值進行深入挖掘。按照挖掘的任務,一項數(shù)據的挖掘包含了對數(shù)據的時空聚類、時空分類、時空異常檢測等過程,并逐步深入探討對數(shù)據挖掘的頻繁模式、周期模式、共現(xiàn)模式、關聯(lián)模式等主題的研究,以圖架構起科學的數(shù)據挖掘系統(tǒng)。例如,通過高校選課平臺,長期跟蹤學生選課科目,通過有效數(shù)據的挖掘,得出該時間段學生對某一學科領域的興趣度數(shù)據,繼而對某一專業(yè)所在的選修課的開設廣度和深度進行判斷,同時也可以為開課教師的教學效果評定提供有效數(shù)據證明。
三對數(shù)據價值的分析利用造成沖擊。大數(shù)據的應用核心是大數(shù)據預測:通過對各方面的數(shù)據分析利用,提前預判即將到來的事件。那么,通過對專業(yè)建設時空數(shù)據的挖掘,運用相關技術進行關聯(lián)分析,可以極大地提升專業(yè)建設的預測能力,達成科學的專業(yè)預警機制和專業(yè)規(guī)劃方案。它一改以前高校對于專業(yè)發(fā)展預測的理論與感性判斷,采用實樣而非抽樣,效率而非精確,相關而非因果等相互關系,用數(shù)據和事實說話。例如,在探索專業(yè)分流的問題時,學??衫脠D書館借閱平臺,從新生入學第一天起,記錄其借閱圖書的數(shù)量、頻率、種類、周期等行為數(shù)據,通過時空聚類和共現(xiàn)模式對數(shù)據進行深入挖掘,就可以大致預測該生的學科興趣和專業(yè)愛好,繼而判定其可能感興趣的專業(yè),將之提供給學生,作為其挑選專業(yè)的參考數(shù)據,對于解決學生專業(yè)選擇的盲目性和未來專業(yè)旨趣有很大助益。由此,學校的專業(yè)定位將被提前明確并適時調整,個性化專業(yè)分流及因材施教將得以可能。
三、大數(shù)據時代思維方式對高校專業(yè)建設提出新的要求
首先,要求加大專業(yè)建設數(shù)據挖掘力度,提升專業(yè)建設數(shù)據的實用價值。高校在專業(yè)建設過程中產生了形形的數(shù)據,就專業(yè)內在結構的角度來看,包括專業(yè)數(shù)量,專業(yè)定位,課程設置等信息。從專業(yè)外在價值的角度來看,包括專業(yè)滿意度、專業(yè)興趣度、專業(yè)課程設置、專業(yè)實踐安排、專業(yè)教師配備等信息,這些數(shù)據的獲取、監(jiān)控和分析直接關系著專業(yè)建設的走向,通過獲取這些關鍵數(shù)據,從大的方面來說,可以預測專業(yè)定位和人才培養(yǎng)的成效;從小的方面來說,可以及時有效獲得課程體系和師資力量等有效數(shù)據,進一步提高教育教學質量。因此,改變以往被動式的搜集專業(yè)數(shù)據的習慣,深入挖掘專業(yè)建設帶來的各種數(shù)據,可以有效提升專業(yè)建設數(shù)據的實際效用。
其次,要求搭建專業(yè)建設數(shù)據平臺,拓寬專業(yè)建設數(shù)據獲取途徑。良好的數(shù)據挖掘需要科學數(shù)據獲取的平臺,否則無法科學共享數(shù)據和分析數(shù)據的意義,這就需要找尋到一個專業(yè)的數(shù)據實用工具,搭建一個專業(yè)的數(shù)據平臺。以復旦大學為例,該校從2012年開始建立和逐步完善校級統(tǒng)一數(shù)據倉庫,在數(shù)據倉庫的基礎上,建立了包含面向師生在內的多類的主題數(shù)據展示系統(tǒng),包括人員信息類(教職工信息統(tǒng)計、學生信息統(tǒng)計、本??粕拘畔⒉樵儭⒔搪毠せ拘畔⒉樵?、研究生基本信息查詢)、科研類(文科科研數(shù)據分析、教師學術表現(xiàn))、教學類(研究生成績分析、招生數(shù)據分析、本科生生命周期數(shù)據分析)、綜合服務(一卡通分析、圖書館客流分析、綜合校情展示、其他信息)、學生工作(宿舍數(shù)據統(tǒng)計、宿舍使用情況統(tǒng)計)、報表類(教育部高基報表)等。[ ]形成了在業(yè)務管理,教學資源,網絡行為三個層面以數(shù)據化為著眼點,以“人”為中心的數(shù)據索引和存儲模式。既實現(xiàn)了數(shù)據共享,又促進了業(yè)務融合,同時也為教育決策提供服務支持。近期教育部組織各高校完善教學基本狀態(tài)數(shù)據庫采集的舉措,將對專業(yè)建設數(shù)據的監(jiān)控宏觀調控起到重大作用,某種程度上佐證了數(shù)據平臺搭建的必要性。
最后,要求培養(yǎng)專業(yè)建設數(shù)據分析人才,深入分析專業(yè)建設數(shù)據意義。大量數(shù)據的堆積并不能直接產生效益,所謂外行人看熱鬧,內行人看門道,研究表明,僅有少量的數(shù)據能被挖掘用來解決實際問題,很多復雜、重要的問題要依靠數(shù)據處理、數(shù)據集成和數(shù)據質量來解決。這就要求校園信息化中做數(shù)據分析的人員需要具備既懂得數(shù)據、又懂得業(yè)務的復合能力,能將業(yè)務帶入到數(shù)據剖析過程、將技術傳遞給業(yè)務人員。從而建立起大數(shù)據管理的良性生態(tài)。因此,培養(yǎng)專業(yè)化的數(shù)據分析人才顯得尤為必要,高校專業(yè)建設也不例外。當數(shù)以萬計的專業(yè)建設數(shù)據蜂擁而至的時候,如何更好、更科學有效地獲取、存儲、分析、挖掘和利用它們,非專業(yè)化人員無法有效實現(xiàn)。有鑒于此,部分院校已在嘗試開設大數(shù)據采集與管理專業(yè),意圖培養(yǎng)專業(yè)的大數(shù)據分析人才。而在國外,如美國,圍繞大數(shù)據的開發(fā)和應用,早已形成了專門的職業(yè),用來專業(yè)挖掘數(shù)據的意義。所以,在教育管理層面上嘗試培養(yǎng)專門的專業(yè)建設數(shù)據分析人才,對于專業(yè)建設發(fā)展有著深遠的意義。
參考文獻
[ 1 ] 張燕南等. 大數(shù)據時代思維方式對教育的啟示[ J ] . 教育發(fā)展研究,2013(11):2-3
[2]吉根林等.面向大數(shù)據的時空數(shù)據挖掘綜述[J].南京師大學報·自然科學版,2014(3):3
[3]呂本富等.大數(shù)據預測研究及相關問題[J].科技促進發(fā)展,2014(1):61-62
[4]趙澤宇等.復旦大學:大數(shù)據促進服務模式轉變[J].中國教育網絡,2014:69
篇6
關鍵字:大數(shù)據 情報研究 情報研究技術
中圖分類號: G250.2 文獻標識碼: A 文章編號: 1003-6938(2012)06-0001-08
1 引言
當數(shù)據和黃金一樣,成為一種新的經濟資產[1],當科研處于以數(shù)據為基礎進行科學發(fā)現(xiàn)的第四范式[2],當數(shù)據開始變革教育[3],這些無不宣告著我們已經進入了大數(shù)據(big data)時代。不同的學科領域,正在不同的層面上廣泛地關注著大數(shù)據對自己的研究和實踐帶來的深刻影響,情報研究領域也不例外。
大數(shù)據,顧名思義是大規(guī)模的數(shù)據集,但它又不僅僅是一個簡單的數(shù)量的概念,IBM公司指出,大數(shù)據的特點是4個V:Volume(大量)、Velocity(高速)、Variety(多樣)及Veracity(真實),它提供了在新的和正在出現(xiàn)的數(shù)據和內容中洞悉事物的機會,使業(yè)務更加靈活,并回答以往沒有考慮到的問題[4]。Gartner公司的報告也提出,大數(shù)據是大容量、高速和多樣化的信息資產,它們需要新的處理方式,以提高決策能力、洞察力和流程優(yōu)化[5]。
由此可見,大數(shù)據強調的不單純只是數(shù)據量多少的問題,其背后隱藏了更為復雜和深刻的理念,這些理念包括:①將對數(shù)據和信息的分析提升到了前所未有的高度。這里的分析不是一般的統(tǒng)計計算,而是深層的挖掘。大數(shù)據時代,如何充分利用好積累的數(shù)據和信息,以創(chuàng)造出更多的價值,已經成為企業(yè)管理者、政府機構以及科研工作者首要關注的問題?!皹I(yè)務就是數(shù)據”、“數(shù)據就是業(yè)務”、“從大數(shù)據中發(fā)掘大洞察”等意味著對數(shù)據分析提出了新的、更高的要求??梢赃@么說,大數(shù)據時代就是數(shù)據分析的時代。②多種數(shù)據的整合和融合利用。大數(shù)據時代,數(shù)據的多樣性是一種真實的存在,數(shù)據既包括結構化的數(shù)據,也包括非結構化的數(shù)據,表現(xiàn)方式可以是數(shù)據庫、數(shù)據表格、文本、傳感數(shù)據、音頻、視頻等多種形式。同一個事實或規(guī)律可以同時隱藏在不同的數(shù)據形式中,也可能是每一種數(shù)據形式分別支持了同一個事實或規(guī)律的某一個或幾個側面,這既為數(shù)據和信息分析的結論的交叉驗證提供了契機,也要求分析者在分析研究過程中有意識地融集各種類型的數(shù)據,從多種信息源中發(fā)現(xiàn)潛在知識。只有如此,才能真正地提高數(shù)據分析的科學性和準確性。③更加廣泛地應用新技術和適用技術。數(shù)據量大(Volume)、類型多樣(Variety)、增長速度快(Velocity)是大數(shù)據的突出特點,這必然會帶來數(shù)據獲取、整合、存儲、分析等方面的新發(fā)展,產生相應的新技術或者將已有的技術創(chuàng)新地應用于大數(shù)據的管理與分析。同時,大數(shù)據的這些特點也決定了傳統(tǒng)的、以人工分析為主的工作模式將遇到瓶頸,計算機輔助分析或基于計算機的智能化分析,將成為大數(shù)據時代數(shù)據與信息分析的主流模式。
對于在數(shù)據分析領域扮演重要角色的情報研究工作而言,大數(shù)據的理念和技術既帶來了機遇,也帶來了挑戰(zhàn)。一方面,在大數(shù)據時代,情報研究工作正在得到空前的重視,大數(shù)據為情報研究的新發(fā)展提供了機會,從更為廣闊的視野來看待情報研究的定位,研究新技術新方法,解決新問題,將極大地促進情報研究理論與實踐前進的步伐。另一方面,大數(shù)據時代本身也要求各行各業(yè)重視情報研究工作,這就必然使得眾多學科有意識地涉足到以往作為專門領域的情報研究之中,并將其作為本學科的重要組成部分加以建設。文獻分析(本質是文本分析)不再為情報研究所獨占,以往情報研究領域積累的相關理論和方法很有可能優(yōu)勢不再。因此,如何把握住自身的優(yōu)勢,并抓住機會有所拓展,是情報學在大數(shù)據時代需要思考的問題。
2 大數(shù)據環(huán)境下情報研究的發(fā)展趨勢
大數(shù)據帶來的新觀念,正在引報研究的新發(fā)展,而且,研究人員也在不斷地從情報研究的實踐中總結經驗教訓,引導情報研究的未來走向。英國萊斯特大學的Mark Phythian教授在2008年10月作 了題為“情報分析的今天和明天”的報告[6],指出:①獲知情境是至關重要的。忽略戰(zhàn)略環(huán)境、領導風格和心理因素等更為廣泛的問題,將導致情報研究的失誤;②要加強信息之間的關聯(lián)。美國政府部門內部的信息共享障礙,致使分析人員無法獲取充足的信息來支持分析活動,導致情報研究中的預測失敗;③要汲取更多外界的專業(yè)知識。這一舉措雖然不能保證分析的成功性,但將是競爭分析的重要信息來源。
綜合大數(shù)據背景的要求和以往情報研究的經驗教訓,結合國內外同行的研究成果,本文將情報研究的發(fā)展趨勢總結為以下五個方面:單一領域情報研究轉向全領域情報研究;綜合利用多種數(shù)據源;注重新型信息資源的分析;強調情報研究的嚴謹性;情報研究的智能化。
2.1 單一領域情報研究轉向全領域情報研究
隨著學科的深入交叉融合及社會發(fā)展、經濟發(fā)展與科技發(fā)展一體化程度的增強,情報研究正從單一領域分析向全領域分析的方向發(fā)展。
首先,表現(xiàn)在各領域中的情報研究從視角、方法上的相互借鑒。從方法上看,社交網絡分析方法、空間信息分析等其他學科的分析方法,廣泛應用于軍事情報、科技情報等領域,心理學等領域的理論也用于情報分析的認知過程,以指導情報分析及其工具的研發(fā)。同時,情報學中的引文分析等文獻計量方法也被借鑒用于網站影響力評估。從技術上看,可視化、數(shù)據挖掘等計算機領域的技術,為情報研究提供了有力的技術視角,情報研究獲得的知識反過來又給予其他技術領域的發(fā)展以引導??梢?,無論從思想上、方法上、技術上,各領域之間的交叉點越來越多,雖然這種相互借鑒早就存在,但現(xiàn)在意識更強、手段更為綜合。
其次是分析內容的擴展,這也是最為重要和顯著的變化。在情報研究過程中,不僅僅局限于就本領域問題的分析而分析,而將所分析的內容置于一個更大的情景下做通盤考慮,從而得出更為嚴謹?shù)慕Y論。聯(lián)合國的創(chuàng)新倡議項目Global Pulse在其白皮書“Big Data for Development: Opportunities & Challenges”[7]中指出,情境是關鍵,基于沒有代表性樣本而獲得的結論是缺乏外部合法性的,即不能反映真實的世界。在情報研究領域,一些數(shù)據往往因為一些不可抗力的原因而不完整,如早期的科技數(shù)據,可能由于國際形勢等外部因素,導致一些國家的科技信息無法獲取,基于這樣缺失的分析樣本來評估該國的科技影響力,如果僅就數(shù)據論數(shù)據,無疑是會得“正確”的錯誤結論,這時應針對這樣的異常情況,將研究問題放置在當時的時代背景下,揭示背后的原因,從其他方面收集信息來補充,才能得出符合實際的結論。也就是說,必須要考察不同時間戳下的相關信息,再對分析內容加以擴充,這實質是一種基于時間軸的擴展。另外,將內容擴展至本領域的上下游則是一種更為重要的擴展。例如,考察某項技術的發(fā)展前景,如果僅就該技術本身來討論,可能會得出正面的結論,但如果結合特定地區(qū)人們對該技術的態(tài)度、當?shù)氐募夹g水平、物理條件、發(fā)展定位等,卻可能會得出相反的結論。這就說明,在很多領域中,環(huán)境不同,發(fā)展程度不同,要解決的問題也就不同。一些地區(qū)當前關注的問題不一定就是其他地區(qū)要關注的問題,某些欠發(fā)達地區(qū)當前不一定就必須照搬另一些所謂發(fā)達地區(qū)的當前做法。這需要通盤考察,分析相關思想、觀點和方法產生的土壤、使用的條件,結合當前環(huán)境再做出判斷,否則可能會對決策者產生誤導。
2.2 綜合利用多種數(shù)據源
綜合利用多種信息源已經成為情報研究的另一大發(fā)展趨勢。Thomas Fingar[8]從軍事情報角度指出,軍事情報界需要綜合利用人際情報、信號情報、圖像情報和外部情報,進行全資源分析(all-source analysis),即利用多種不同的信息資源來評估、揭示、解釋事物的發(fā)展、發(fā)現(xiàn)新知識或解決政策難題。科技情報界也是如此,如利用科技論文和專利,發(fā)現(xiàn)科技之間的轉換關系、預測技術發(fā)展方向,綜合利用政府統(tǒng)計數(shù)據、高校網站、期刊、報紙、圖書等來評估大學等科研機構??梢?,綜合利用多種信息源是從問題出發(fā),系統(tǒng)化地整合所有相關信息資源來支持情報研究,信息源可以是學術論文、專利等不同類型的文獻集合、文本和數(shù)據的集合也可以是正式出版物與非正式出版物的集合等。
這一發(fā)展趨勢是由幾大因素決定的。一是情報研究問題的復雜性。在大數(shù)據背景下,情報不再局限在科技部門,而成為全社會的普遍知識。公眾對情報的需求使得情報研究問題更為綜合,涉及要素更為多元,同時也更為細化。這導致單一數(shù)據源不能滿足分析的要求,需要不同類型的信息源相互補充。例如要分析科技之間的轉換關系,就避免不了涉及科技論文和專利這兩種類型的信息源。二是各種信息源的特性。不同信息源可以從不同角度揭示問題,如專利、研究出版物、技術報告等,可以較為直觀地反映研究者對某科技問題的理解與描述,而評論文章、科技新聞、市場調查等,可以反映出社會對該科技的觀點、認知情況[9]。因此,各類信息自身的特性就說明他們之間可以、也需要相互補充。此外,從現(xiàn)實角度來看,通常會遇到某些信息無法獲取的情況,這就需要別的信息加以替代,這就從實踐角度說明了綜合利用多種信息源的必要性。三是分析結果的重要性。以評估大學為例,評估的結果會引導各學校在比較中發(fā)現(xiàn)自身優(yōu)勢和差距,指導未來發(fā)展定位,同時也為廣大學生報考提供參考??梢?,研究結果對社會的影響是廣泛而深遠的,要做到分析結果的可靠性、科學性,必然先要從源頭上,即分析數(shù)據上加以豐富完善。
綜合利用多種信息源也意味著諸多挑戰(zhàn)。首先分析人員要熟悉每一種信息資源的特性,了解相似信息在不同資源類型中是如何表現(xiàn)的,不同信息源相互之間的關系是怎樣的。其次,針對待分析的問題,要選擇適合的信息,并不是信息越多越好,類型越全越好,尤其是當問題含糊不清時,可能需要不斷地調整信息源。再次,情報研究人員要能有效地綜合、組織、解釋不同信息源分析出的結果,特別是當結論有所沖突的時候,識別不當結果、保證分析結果的正確性是很重要的。
2.3 注重新型信息資源的分析
隨著網絡應用的深入,出現(xiàn)了許多新型的媒體形式。Andreas M. Kaplan等人將構建于Web2.0技術和思想基礎上,允許用戶創(chuàng)建交換信息內容的基于網絡的應用定義為社會化媒體(Social Media),包括合作項目(如維基百科)、博客、內容社區(qū)(如YouTube)、社交網站、虛擬游戲世界和虛擬社會世界(如第二人生)等六種類型[10]。這類媒體形式依托于Web2.0等網絡技術,以用戶為中心來組織、傳播信息,信息可以是用戶創(chuàng)造性的言論或觀點,可以是圍繞自己喜好收集的信息資源集合等。由于社會化媒體的易用性、快速性和易獲取性等特點,它們正迅速地改變著社會的公共話語環(huán)境,并引導著技術、娛樂、政治等諸多主題的發(fā)展[11]。這些通過龐大的用戶社區(qū)來傳播的高度多樣化的信息及其網絡結構,為洞悉公眾對某一主題的觀點、研究信息擴散等社會現(xiàn)象[12]、預測未來發(fā)展方向[11]等提供了機會,有助于發(fā)現(xiàn)有共同興趣的社群、領域專家、熱點話題[13]等,帶來了網絡輿情分析等研究內容。此外,這類信息結合其他類型的數(shù)據,產生了新的情報研究領域。例如,智能手機的普及和GPS的廣泛應用,使得可以從社交網絡和網絡交互數(shù)據、移動傳感數(shù)據和設備傳感數(shù)據中獲取社會和社區(qū)情報(social and community intelligence,SCI),揭示人類行為模式和社群動態(tài)[14]。
此外,機構知識庫等作為一種反映組織或群體知識成果的智力資源,也正引報界的重視。網絡信息聯(lián)盟的執(zhí)行董事Clifford A. Lynch[15]從大學的角度指出,成熟完整的機構知識庫應包含機構和學生的智力成果(包括科研材料和教學材料)以及記錄機構自身各項事件和正在進行的科研活動的文檔。這暗示著學術界從過去只關心科研成果正逐步轉向關注科研過程。從機構知識庫中,可以發(fā)現(xiàn)隱藏其中的科研模式、揭示目前科研狀況的不足,引導機構未來科研的發(fā)展走向等。但現(xiàn)有的機構知識庫工具還缺乏幫助人們理解和分析這些資源的機制[16],在大數(shù)據環(huán)境下,加強這方面的研究也是必然趨勢??梢灶A見,隨著科技的發(fā)展和應用的深入,還會不斷的有新型資源出現(xiàn),并不斷促進情報研究的發(fā)展。
2.4 強調情報研究的嚴謹性
情報研究活動在宏觀層面上是一種意義構建(sensemaking)[17],依賴于分析人員根據已有知識構建認知框架(frame),通過對認知框架的不斷修正來達到理解的目的[18]。這意味著情報研究活動本身帶有很大的不確定性,很多因素影響著情報研究的有效性。如何使情報研究工作更加嚴謹,減少情報分析的不確定、提升情報成果的質量,正成為學術界當前普遍關注的問題。情報研究嚴謹性(rigor)不等同于分析結果的正確性,它衡量的是情報研究的過程,是指在情報研究過程中“基于仔細考慮或調查,應用精確和嚴格的標準,從而更好地理解和得出結論”[19]。美國俄亥俄州立大學的Deniel Zelik[20][21]從評估角度,給出了8個指標來衡量分析過程的嚴謹性:假設探索、信息檢索、信息驗證、立場分析、敏感度分析、專家協(xié)作、信息融合和解釋評價。從這幾項指標看,信息檢索和融合是從分析信息源上消除不全面性;假設探索是要使用多種視角來揭示數(shù)據和信息;信息驗證側重于數(shù)據的溯源、佐證和交叉驗證;立場分析強調分析的情境性;敏感度分析指分析人員要了解分析的局限性,目的是從分析方法上消除主觀影響;專家協(xié)作是防止分析結果受分析人員自身的學科背景或經驗帶來的偏差;解釋評價是要正確對待分析結論??梢?,情報研究的嚴謹性意在消除人的主觀偏見,用更為客觀的視角對待情報研究。如果說之前的情報研究活動依賴專家的個人判斷,帶有較為強烈的主觀色彩,那么走向嚴謹性的情報研究活動正逐步轉變?yōu)橐婚T科學。
在大數(shù)據背景下,情報分析的嚴謹性,不僅體現(xiàn)在理念上,還暗含了對技術的要求。面對海量數(shù)據,自動化的技術手段必不可少。當信息的檢索更多的是借助檢索系統(tǒng),而不是人工的收集,信息融合更多依賴數(shù)據倉庫等技術手段,如何在這樣的分析環(huán)境中將情報研究的科學性落到實處,是需要關注的問題??梢钥吹?,利用技術本身已經在一定程度上避免了人的主觀性,但面對同樣一個問題,可以有不同的技術手段,也可能產生不同的結果,如何避免由技術產生的偏見,也許通過多種技術手段或采用不同的算法,全方位地展示信息內容及其之間的關系,從而避免產生信息的誤讀,是一個解決方案??梢?,在大數(shù)據時代,情報研究需要多種手段來加強其分析過程的科學性,而這又需要多種技術方法加以支持。
2.5 情報研究的智能化
大數(shù)據背景下的情報研究,對技術提出了更高的要求。正如美國國家科學基金會(NSF)的報告[22]所說,美國在科學和工程領域的領先地位將越來越取決于利用數(shù)字化科學數(shù)據以及借助復雜的數(shù)據挖掘、集成、分析與可視化工具將其轉換為信息和知識的能力。對于情報研究來說,應用智能化技術能自動進行高級、復雜的信息處理分析工作,在很大程度上把情報研究人員從繁瑣的體力勞動中解放出來,尤其在信息環(huán)境瞬息萬變的今天,及時收集信息分析并反饋已經變得非常重要,這都需要智能化技術加以支撐。從信息源來講,情報研究對象得以擴展,其中可能包含微博等社會化媒體信息,可能包含圖片、新聞等,大量非結構或半結構化數(shù)據的涌入,必然需要技術將這些數(shù)據轉化為結構化數(shù)據,以供后續(xù)分析。同時,多元化的信息,需要根據分析需求加以融合,這可能需要語義層面上的技術支持。從分析需求來講,簡單的統(tǒng)計分析已不能滿足現(xiàn)在社會的決策需求,需要從大量信息中發(fā)現(xiàn)潛在模式,指導未來的發(fā)展,這就涉及數(shù)據挖掘、機器學習等技術。此外,要尋求情報研究的客觀性,摒除過多的主觀意愿,也需要多種技術來支撐??梢?,這一發(fā)展趨勢是大數(shù)據時代下的必然。而各國在積極建設的數(shù)字化基礎設施,也在推動著情報研究的智能化,如歐洲網格基礎設施(European Grid Infrastructure,EGI)[23]項目就致力于為歐洲各領域研究人員提供集成計算資源,從而推動創(chuàng)新。
目前,對情報研究中的智能化技術沒有統(tǒng)一的界定,但概觀之,可以將情報研究智能化的本質概括為定量化、可計算、可重復。定量化是針對過去情報研究更多的是依賴人的主觀判斷,即基于已有文字材料或數(shù)據,根據研究人員的經驗等給出粗略的結論,如果說這是一種定性化分析,現(xiàn)在更多地依賴通過計算機自動化處理原始材料并獲得潛在數(shù)據,并在此基礎上輔以人的判斷,可以說是一種定量化的分析。可計算是指將各種信息資源轉化為計算機可理解、處理的形式,如從新聞、論文、專利等中,提取出科研組織、科研人員等實體,再基于這些結構化的、富有語義的信息,采用統(tǒng)計、數(shù)據挖掘等方法加以計算,獲取隱含的知識??芍貜褪侵缸詣踊治黾夹g消除了許多主觀因素,從理論上講,如果分析數(shù)據等條件一致,分析結論也應該是一致的,這也體現(xiàn)了智能化技術為情報研究帶來客觀性的一面。
3 情報研究中的技術問題
情報研究的上述發(fā)展走向,決定了情報研究既不能仍然停留在定性分析上,也不能僅僅靠簡單的統(tǒng)計替代情報研究中的計算技術,由此對情報研究技術提出了新的要求。美國McKinsey Global Institute在2011年5月了研究報告“大數(shù)據:創(chuàng)新、競爭和生產力的下一個前沿領域”(Big data: The next frontier for innovation, competition, and productivity)[24]。報告分六個部分,其中第二部分討論了大數(shù)據技術,并圍繞大數(shù)據分析技術、大數(shù)據技術和可視化三方面進行了闡述。在大數(shù)據分析技術中,列舉了26項適用于眾多行業(yè)的分析技術,包括A/B測試、關聯(lián)規(guī)則學習、分類、聚類分析、眾包(Crowdsourcing)、數(shù)據融合和數(shù)據集成、數(shù)據挖掘、集成學習、遺傳算法、機器學習、自然語言處理、神經網絡、網絡分析、優(yōu)化、模式識別、預測建模、回歸、情感分析、信號處理、空間分析、統(tǒng)計、監(jiān)督學習、模擬、時間序列分析、無監(jiān)督學習和可視化。這些技術絕大部分是已有的技術,也有部分是隨著互聯(lián)網的發(fā)展以及對大規(guī)模數(shù)據挖掘的需求,在原有技術的角度發(fā)展起來的,如眾包就是隨著Web2.0而產生的技術。
根據我們的理解,這些技術大致可以劃分為可視化分析、數(shù)據挖掘以及語義處理三大類。這三大類技術也是當前情報分析領域應予以關注和深入研究的技術。
3.1 可視化分析
可視化分析(Visual Analytics)是一門通過交互的可視化界面來便利分析推理的科學[25],是自動分析技術與交互技術相結合的產物,目的是幫助用戶在大規(guī)模及復雜數(shù)據內容的基礎上進行有效的理解,推理和決策[26]。它不同于信息可視化,信息可視化關注計算機自動生成信息的交互式圖形表示,關注這些圖形表示的設計、開發(fā)及其應用[27],而可視化分析在此基礎上加入了知識發(fā)現(xiàn)過程,關注自動分析方法及其選擇,以及如何將最佳的自動分析算法與適當?shù)目梢暬夹g相結合,以達到輔助決策的目的。
目前的情報分析系統(tǒng),雖然也提供了多種視圖來揭示信息,但更多的是一種分析結果的呈現(xiàn),系統(tǒng)內部分析、處理的機制對分析人員來講是個黑匣子,分析人員無法了解分析方法、分析結果的局限性或者有效性,這無疑不符合情報研究嚴謹性這一發(fā)展要求。同時,現(xiàn)有的分析工具需要分析人員輸入各種繁雜的參數(shù),又缺乏對情報分析認知過程的支持,這就對使用人員的專業(yè)化程度提出了較高的要求,增加了分析的難度。而可視化分析則可以較好地解決這一問題,它整合了多個領域包括采用信息分析、地理空間分析、科學分析領域的分析方法,應用數(shù)據管理和知識表示、統(tǒng)計分析、知識發(fā)現(xiàn)領域的成果進行自動分析,融入交互、認知等人的因素來協(xié)調人與機器之間的溝通,從而更好地呈現(xiàn)、理解、傳播分析結果[28]。佐治亞理工學院的John Stasko等人應用Pirolli 等人提出的情報分析概念模型[29],建立了一個名為Jigsaw(拼圖)的可視化分析系統(tǒng)[30],并將其應用于學術研究領域(涉及期刊和會議論文)以及研究網絡文章(如網絡新聞報道或專題博客)領域,也說明了將可視化分析技術應用于情報研究的可行性。
將可視化分析技術應用于情報研究領域,有眾多問題要解決。首先,在情報研究工具中,是以自動化分析為主,還是以可視化為主?Daniel A. Keim等人將待分析的問題分為三類,第一類是在分析過程中可視化和自動化方法可以緊密結合的問題,第二類是應用自動化分析潛力有限的問題,第三類是應用可視化分析潛力有限的問題。在研究這三類問題中交互程度對分析效率影響的基礎上,Daniel A. Keim等人指出,應分析如何通過考慮用戶、任務和數(shù)據集特點,來確定可視化和自動分析方法的優(yōu)化組合,從而達到最佳的效果[31]??梢姡獙⒖梢暬治黾夹g應用于情報研究領域,需要明確每類問題適用哪種組合方式。其次,情報研究領域適合使用哪些可視化交互手段?這可能包括原始分析數(shù)據、析取出的關系數(shù)據、深層挖掘的模式數(shù)據等的可視化手段,分析人員與系統(tǒng)交互的方式,分析過程的可視化展示等。第三,情報研究領域中的認知過程是什么樣的,關注哪些問題,涉及哪些實體,在大數(shù)據環(huán)境下面臨哪些認知困難,需要在哪些環(huán)節(jié)加以支持,這些困難能否通過技術來解決。此外,從現(xiàn)有的可視化分析技術來看,主要是將各個相關領域的技術以優(yōu)化的方式整合起來,但在將來會產生一體化的可視化分析解決方法[32],這種一體化的方法可能是什么形式,又會對情報研究帶來怎樣的影響等等,都是在情報研究中引入可視化分析技術需要關注的。
3.2 數(shù)據挖掘
廣義的數(shù)據挖掘指整個知識發(fā)現(xiàn)的過程,是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它涵蓋了數(shù)據分析和知識發(fā)現(xiàn)的任務,從數(shù)據特征化與區(qū)分到關聯(lián)和相關性分析、分類、回歸、聚類、離群點分析、序列分析、趨勢和演變分析等,吸納了統(tǒng)計學、機器學習、模式識別、算法、高性能計算、可視化、數(shù)據庫和數(shù)據倉庫等領域的技術,并可以用于任何類型的數(shù)據,包括數(shù)據庫數(shù)據、數(shù)據倉庫等基本形式,也包括數(shù)據流、序列數(shù)據、文本數(shù)據、Web數(shù)據、圖數(shù)據等其他類型的數(shù)據[33]。
從數(shù)據挖掘的涵義看,它與情報研究有著天然的聯(lián)系;從數(shù)據挖掘的方法看,有其特定的含義和實現(xiàn)過程,可以有效地解決情報研究的問題。例如,情報研究可以借鑒關聯(lián)規(guī)則發(fā)現(xiàn)的成功案例——超市的“啤酒+尿布”,嘗試用關聯(lián)規(guī)劃來分析研究主題的相關性,從科技論文與專利的關聯(lián)中發(fā)現(xiàn)科技的轉換關系等等。但從目前的情報研究成果看,許多還僅僅停留在簡單的頻率統(tǒng)計、共詞計算層次上,在知識發(fā)現(xiàn)的過程中,這些工作僅僅是數(shù)據挖掘的數(shù)據準備,還有待于更為深入的發(fā)掘??梢?,數(shù)據挖掘能夠也應該應用于情報研究領域,這不僅是數(shù)據挖掘應用擴展的結果,也是情報研究自身發(fā)展的需求。此外,由于較少有專門針對情報研究領域研發(fā)的挖掘工具,現(xiàn)有情報分析通常借助于其他工具,不同工具的功能不同,這就導致常常同時使用好幾個分析工具,如在使用SPSS進行聚類分析的同時,還使用Ucinet分析社會網絡。這帶來的問題是,分析缺乏完整性,可能社會網絡和其他信息之間有關聯(lián),因為工具的分割性,就導致潛在模式的丟失。由此,研發(fā)適用于情報研究的挖掘工具,是必要也是緊迫的,尤其是面對大數(shù)據的挑戰(zhàn),智能化地輔助分析人員,減少認知壓力,是亟待解決的問題。
要解決以上的問題,首先需要研究情報分析任務,分析哪些問題是可以使用數(shù)據挖掘技術來支持的,這類問題有哪些共同點、特殊性,能否對未來可能的情報分析問題進行擴展,哪些問題不適用于數(shù)據挖掘技術,原因是什么等。其次,對于某類或某個分析問題,使用哪種數(shù)據挖掘技術或幾種技術的組合才能有效地解決,涉及的算法是否需要針對該問題進行適應性改造,如何評價挖掘的結果等。第三,數(shù)據挖掘出現(xiàn)了交互挖掘這一發(fā)展趨勢,即構建靈活的用戶界面和探索式挖掘環(huán)境[33],這與可視化分析在某些方面上也不謀而合,這樣的趨勢會對情報研究帶來哪些影響,如何在這一背景下,探索情報研究工具的新發(fā)展,尋找情報分析的新模式,值得我們關注。
3.3 語義處理
語義是關于意義(meaning)的科學,語義技術提供了機器可理解或是更好處理的數(shù)據描述、程序和基礎設施[34],整合了Web技術、人工智能、自然語言處理、信息抽取、數(shù)據庫技術、通信理論等技術方法,旨在讓計算機更好地支持處理、整合、重用結構化和非結構化信息[35]。核心語義技術包括語義標注、知識抽取、檢索、建模、推理等[34]。語義技術可以為信息的深層挖掘打好基礎,即通過對各類信息的語義處理,在獲取的富有語義的結構化數(shù)據上使用各種數(shù)據挖掘算法來發(fā)現(xiàn)其中的潛在模式。數(shù)據的語義性支持了機器學習等技術的內在功能[36]。
從現(xiàn)有的情報研究實踐和工具看,語義支持的缺失是一個普遍問題,這其中又可劃分為兩個層次。對于傳統(tǒng)的情報研究對象,如科技論文、專利等,有較為成熟的分析工具,但這些工具往往缺少深層次的語義支持。例如,要分析論文的內容主題時,需要從摘要等自由文本中提取出主題信息,在數(shù)據處理時,常常無法識別同義詞、近義詞等,需要人工干預。一些工具雖然在語義方面做了努力,但仍然存在諸多不足,例如在形成的主題聚類結果上,缺乏有效的主題說明,自動形成的主題標簽不具有代表性,需要分析人員深入其中重新判斷等。這在小數(shù)據集環(huán)境下,還可以接受,當面對大數(shù)據的沖擊,這種半自動化的處理方法無疑是耗時又費力的。此外,對于新型情報研究對象,如網絡新聞、博客等,已有如動態(tài)監(jiān)測科研機構等的系統(tǒng)工具,但總體來說還處于起步狀態(tài),目前較多的還是依賴人工篩選出所需信息,并整理成結構化的數(shù)據,同樣也不利于大規(guī)模的數(shù)據分析。這些問題的存在,使得消除語義鴻溝(semantic gap)[37],應用語義技術成為廣泛需求及必然。
將語義技術應用于情報分析,需要關注以下幾方面的內容。首先,分析情報研究任務的特點,了解它的語義需求,是否存在規(guī)律性的準則以供指導分析工具的研發(fā),這既需要原則性和方向性的準則,也需要為針對多維度劃分出的各類任務給出詳細的規(guī)范,例如,對微博等社會化媒體,其中既存在高質量的信息,也存在辱罵等低質量的信息,區(qū)分這些信息并篩選出高質量信息,就成為在分析社會化媒體中的語義任務之一。其次,語義資源建設問題,即在情報分析領域中,要實現(xiàn)語義層面上的理解,是否需要建設語義資源,如果不需要,哪些技術手段可以代替,如果需要,哪種類型的語義資源可以便捷、快速、高效地構建,并且這種語義資源應該如何構建,如何使用才能有效地服務于情報研究工作。第三,信息抽取問題??萍夹畔⑸婕氨姸鄬W科的專業(yè)術語、各種科研機構、組織等,如何使用語義技術將這些信息準確地提取出來并加以標注,尤其是針對不同類型的信息源,采用什么樣的抽取策略等。第四,信息整合問題,即如何使用語義技術,把不同來源的數(shù)據對象及其互動關系進行融合、重組,重新結合為一個新的具有更高效率和更好性能的具有語義關聯(lián)的有機整體,以便后續(xù)分析。
4 結語
正如本文引言中所談到的那樣,大數(shù)據的理念和技術為情報學領域中情報研究的理論和實踐帶來了機遇,也帶來了挑戰(zhàn)。機遇巨大,挑戰(zhàn)更大,需要我們對此有清醒的認識。本文分析了大數(shù)據背景下情報研究的若干發(fā)展趨勢,總結了情報研究中值得關注的技術問題,以期能為促進情報研究的理論和實踐的發(fā)展添磚加瓦。
參考文獻:
[1]Big Data,Big Impact[EB/OL].[2012-09-06]..
[27]Chaomei Chen. Information visualization[J]. Wiley Interdisciplinary Reviews:Computational Statistics,2010,
2(4):387-403.
[28]Daniel A. Keim, et al. Challenges in Visual Data Analysis[C]. Information Visualization, 2006:9-16.
[29]P.Pirolli. The Sensemaking Process and Leverage Points for Analyst Technology as Identified Through Cognitive Task Analysis[EB/OL].?。?012-09-16].http://vadl.cc.gatech.edu/documents/2__card-sensemaking.pdf.
[30]John Stasko, et al. Jigsaw: supporting investigative analysis through interactive visualization[EB/OL].?。?012
-09-16].http:///fil
es/Sandbox/victor/jigsaw-VAST07.pdf.
[31]Daniel A. Keim, Florian M., and Jim Thomas. Visual Analytics: How Much Visualization and How Much Analytics?[J]. ACM SIGKDD Explorations Newsletter,2009,11(2):5-8.
[32]Aigner, et al. Visual Methods for Analyzing Time-Oriented Data[J]. Transactions on Visualization and Computer Graphics, 2008, 14(1)?。?7-60.
[33]Jiawei Han, Micheline Kamber, Jian Pei. Data Mining concepts and techniques third edition[M]. Morgan Kaufmann,2011.
[34]John Domingue, et al.Handbook of Semantic Web Technologies[M]. Springer Publishing Company,2011.
[35]Dieter Fensel,et mon Value Management-based on Effective and Efficient On-line Communication[EB/OL].[2012-09-17].http://wiki.iao.fraunhofer.de/images
/studien/proceedings-common-value-management.pdf#page=19.
[36]Bettina Berendt, Andreas Hotho, Gerd Stumme. Introduction to the Special Issue of the Journal of Web Semantics: Bridging the Gap-Data Mining and Social Network Analysis for Integrating Semantic Web and Web 2.0[J]. Web Semantics: Science, Services and Agents on the World Wide Web,2010,8(2-3):95-96.
篇7
關鍵詞:大數(shù)據時代;學科館員;數(shù)據素養(yǎng)服務;學科發(fā)展支撐服務
摘要:在大數(shù)據環(huán)境下,高校學科館員應努力提供基于數(shù)據獲取與利用的信息素養(yǎng)服務,為學者提供基于文獻信息和數(shù)據的學科知識發(fā)展支撐服務,為學??蒲泄芾砼c決策部門提供決策支持服務,為深入科研一線的學者提供定制化知識服務。
中圖分類號:G251.6文獻標識碼:A文章編號:1003-1588(2017)04-0131-03
1大數(shù)據對圖書館發(fā)展的挑戰(zhàn)
1980年,美國最早提出了“大數(shù)據”概念,但大數(shù)據時代的到來是在2004年以后,以Facebook、Twitter為代表的社交媒體相繼出現(xiàn),互聯(lián)網成為全世界網民實時互動、交流協(xié)同的載體。隨著數(shù)字化、移動化、網絡化的發(fā)展,大數(shù)據的應用無處不在,使得圖書館用戶的信息環(huán)境、信息行為等發(fā)生了巨大的變化,圖書館已經不再是用戶獲取信息的唯一渠道。對用戶來說,在大數(shù)據時代,信息資源的組織管理、數(shù)據挖掘和價值發(fā)現(xiàn)比信息獲取更加重要。
Web of Science、中國知網等國內外商業(yè)數(shù)據庫的迅猛發(fā)展,使得圖書館需要培養(yǎng)大數(shù)據時代的圖書館數(shù)據管理與應用人才。隨著采集存儲數(shù)據的成本越來越低,分析工具越來越先進,個人隱私安全面臨著巨大的沖擊與風險,如何保護用戶的個人隱私,對新時代的圖書館員提出了更高的職業(yè)道德與專業(yè)素養(yǎng)要求[1]。傳統(tǒng)出版社的電子出版、數(shù)字圖書館的發(fā)展及開放獲取等,促進了科研資源的大數(shù)據化發(fā)展。為此,學科服務在大數(shù)據時代應積極探索信息服務的新理念和新方法,努力構建智慧學科服務[2]。學科服務是圖書館全館服務體系的靈魂和有機部分,學科館員是全館最核心、最重要的資源,應當借助大數(shù)據時代的優(yōu)勢與機遇,在算機軟硬件操作、信息資源挖掘、讀者隱私保護等方面提高服務質量[3],從而運用知識圖譜整理館藏資源、建立學科文獻數(shù)據庫、整合資源知識等。
2基于數(shù)據獲取與利用的信息素養(yǎng)服務
數(shù)據素養(yǎng)主要體現(xiàn)為數(shù)據解讀、數(shù)據管理、數(shù)據利用、數(shù)據評價等[4],強調對數(shù)據的操作和使用。另外,其還包括數(shù)據的倫理道德修養(yǎng)[5]、數(shù)據存取[6]等。學科館員應具有發(fā)現(xiàn)、評估與使用信息和數(shù)據的意識和能力。
2.1數(shù)據獲取與利用能力
學科館員的數(shù)據素養(yǎng)主要體現(xiàn)為對科學數(shù)據的獲取和再利用、數(shù)據庫重組、數(shù)據分析與可視化軟件使用及培訓等。預計到2020年,80%以上的公益性、基礎性科學數(shù)據資源將通過因特網面向全社會共享。學科館員應幫助用戶群體提高數(shù)據獲取能力,努力培養(yǎng)和提高用戶群體的公共自助科學數(shù)據開放獲取意識,幫助人們識別和查找科研數(shù)據的在線信息庫。此外,數(shù)據重組會創(chuàng)造出更大的價值,如:英屬哥倫比亞大學圖書館和華盛頓大學圖書館建設學科服務門戶,將購買的多個數(shù)據庫(如期刊論文、圖書、研究報告、數(shù)據、數(shù)字化館藏、學位論文等)分裝打包,并推送到各學科平臺,不僅降低了用戶查找相關數(shù)據庫的時間成本,而且提高了各數(shù)據庫的利用率;北京大學將古籍資源加入3D技術進行處理,添加古代地圖,聚合其他人文景觀信息,大大提高了古籍的觀賞價值和利用率。
2.2學會和善于利用工具
在新時期,學科館員應具有學科專才、情報能力,并能熟練掌握及利用相關的軟件工具,如:信息導航、信息檢索、檢索查新、文獻管理、知識發(fā)現(xiàn)、專利分析等工具。數(shù)據軟件培訓主要是指學科館員根據用戶需求,到相關院系開設數(shù)據分析軟件(如SPSS、Eviews、Stata等)、文獻管理軟件(如EndNote、RefWorks等)、科研管理軟件、商業(yè)統(tǒng)計軟件等相關專題講座、討論會,幫助用戶主動運用軟件工具并提高科研效率。云計算正在改變人們對數(shù)據存儲的看法,海量數(shù)據存檔研究成為一項基礎性工作,越來越多的大學和研究中心開始建立科學數(shù)據倉儲庫,如Figshare、Dryad、PANGAEA等。因此,面對云架構,學科館員需要對云存儲等數(shù)據存儲基礎設施及數(shù)據組織進行必要的了解和認識,通過高度標準化的數(shù)據存儲工具適應科研數(shù)據負載的變更,保證在可信賴環(huán)境中提供數(shù)據集的持續(xù)永久性訪問。
3基于文獻信息和數(shù)據的學科發(fā)展支撐服務
3.1學者成果驗證
科研機構的科研能力是衡量其競爭能力的重要指標,學者作為其中的主體,其科研能力直接決定科研機構的科研水平和后續(xù)的發(fā)展優(yōu)勢。圖書館學科館員可以根據學者需求,利用WOS、Scopus等數(shù)據庫檢索學者在某一時段的發(fā)文數(shù)量、被引頻次、所投期刊的影響因子等,分析合作者的影響和產出績效,并基于學者個人成果,包括期刊、會議論文、專著等作品,提供文獻收錄和引用檢索證明,方便科研人員進行職稱申報、基金申請和評獎等。
3.2嵌入式課程教學
學科館員以課程為主要服務方式,提供信息素養(yǎng)教育課程,促進用戶通過課件學習、課堂研討等方式全面提高自己的信息素養(yǎng)技能。學科館員與專業(yè)教師進行合作,將信息素養(yǎng)培訓內容嵌入課堂教學,通過“課堂教學信息指導”和“嵌入課程教學”等方式,針對性地提供信息素養(yǎng)教育;借助虛擬學習環(huán)境,提供注冊課程,獲取課程學習資源、課程考試資源等內容,延伸教學空間與交流空間,培養(yǎng)學生的終生學習能力。
篇8
關鍵詞:大數(shù)據;經濟學;數(shù)據分析
大數(shù)據作為一種有用的信息資源,在商業(yè)、金融等領域發(fā)揮著越來越重要作用,也逐漸成為社會科學的國際前沿應用研究內容之一。然而,在經濟學領域,大數(shù)據還鮮少被用到(據統(tǒng)計,截至2014年12月,google中學術搜索到的與“大數(shù)據”有關的研究論文共3026篇,其中僅有29篇是和經濟學相關)。但因海量經濟數(shù)據資源的快速增長,計算技術和能力的不斷提高,以及方法論的不斷發(fā)展,將大數(shù)據分析技術運用于經濟學已成為一個值得探討的新課題。展望未來,由于經濟學是一門理論與實踐相結合的學科,將大數(shù)據應用于經濟學,有可能會開辟一個全新的經濟學發(fā)展領域。
一、大數(shù)據在經濟學領域應用的基本原理
大數(shù)據在經濟學中應用的基本思路以大樣本數(shù)據統(tǒng)計與機器學習技術為基礎。其中大樣本統(tǒng)計的過程概括如下:用N個代入變量得出對應的N個測量結果與K個潛在的預測因子,比如:以居民消費價格CPI指數(shù)預測為例,首先通過GOOGLE數(shù)據搜索或其他軟件,篩選出同CPI有關的一系列關鍵詞(比如糧食產量、原油期貨價格、氣候溫度、價格改革政策等),然后通過這些關鍵詞在文本數(shù)據(新聞、微博、評論、研究報告、學術論文等)出現(xiàn)的時間頻次,計算它們之間的相關關系和邏輯路徑關系,從而得到測量結果N和預測因子K。在許多情形下,每一個代入變量的信息是足夠豐富的,但不具有結構性,故可能會產生很多潛在預測因子,因此,需要注意的是:若是過度擬合,即預測因子K的個數(shù)可能會遠遠大于觀測變量N的個數(shù)時,雖然模型可完美解釋觀測到的結果,但樣本外數(shù)據的解釋力卻很差。在這種狀況下,構造一個最大化樣本解釋力的模型便成為首要目標,同時構建的模型還不能出現(xiàn)因過度擬合所導致的樣本外無力解釋的情形。因模型構建不同,使用方法也隨之改變,懲罰預測因子的過度使用方式也不同。如Lasso回歸模型,在滿足一系列約束條件下,依據最小化離差平方和來選擇模型系數(shù)。通過將樣本分為“訓練樣本”和“測試樣本”(“訓練樣本”用來估計模型參數(shù),“測試樣本”用來評估模型)進行過度擬合。而在評估預測效果時,一般交叉使用樣本內預測與過度擬合,但目前這種交叉驗證的方法在當前的實證微觀經濟學中也鮮少用到。
機器學習的一個非常重要假設就是機器學習的環(huán)境是相對穩(wěn)定的,也就是樣本數(shù)據(訓練樣本與測試樣本情形相同)獨立產生于同一過程。但由于現(xiàn)實環(huán)境會隨著時間發(fā)生改變,故這一假設并不合理,因此,在高頻使用新數(shù)據的應用中,往往通過對自身持續(xù)“再訓練”,從而使得模型可以隨著時間與環(huán)境的變化對預測結果進行調整。當然,對于機器學習,有些經濟學家提出了盧卡斯批判的疑問,即若根據模型的預測結果進行政策調整,則政策調整后的現(xiàn)實結果可能與初始模型的預測結果有差異,因為政策的改變會影響數(shù)據間的潛在行為關系,但這一疑問在其他預測模型,比如計量經濟模型、結構方程模型和聯(lián)立系統(tǒng)模型中也都存在。
二、大數(shù)據對經濟學的影響及前景
如今,隨著數(shù)據樣本容量的急劇增加,使得大數(shù)據的使用方式不盡相同。作為一個規(guī)律性科學,經濟學需要廣泛、詳細的數(shù)據,并運用統(tǒng)計技術來處理新型數(shù)據,大數(shù)據的出現(xiàn)可能會在社會學與計算機科學間構建一架橋梁,其學科價值可能在于創(chuàng)造新的思維方式,這將會導致對經濟學的新思考和研究方法創(chuàng)新,甚至會帶來分析經濟學方法的質變。
一方面,由于多維度的精細間隔,大數(shù)據可以為經濟學研究人員提供更多研究變量和視角,可以研究以前難以測度的行為理論,這為經濟理論研究提供了一種全新的測量方法。例如:麻省理工大學助理教授Alberto Cavallo設計的“百萬價格”項目,該項目旨在通過一個網絡程序,獲取網上物品價格,繼而運用這些數(shù)據計算得出通脹指數(shù),該通貨膨脹指數(shù)就是阿根廷的精確透明通貨膨脹指標,其實時價格數(shù)據的捕捉能力和準確度,使得該指標作為政府測量通脹的替代選擇。又如,谷歌提供的請求式數(shù)據選擇也提供了一個探索新機會的理由,目前一個備受矚目的例子就是“及時預報”,在某些方面它可以通過龐大經濟社會數(shù)據集進行短期精確預測。
另一方面,大數(shù)據已與行為經濟學相適應,成為產業(yè)相關經濟規(guī)律研究的一部分,并且,大數(shù)據在經濟學領域已經顯示出眾多的優(yōu)越性。大數(shù)據已有潛力去挑戰(zhàn)理性概念,例如對于經濟學家在預測問題上的出錯概率,強調樣本偏差的方法;或者對于政策刺激的外部效應問題,強調在社會媒體中情緒化分析出現(xiàn)的混亂問題,總而言之,大數(shù)據與先進的建模策略相結合,可以產生更詳細、更準確和更有說服力的解釋和分析。
篇9
一、大數(shù)據的基本概念
大數(shù)據(bigdata)即是在網絡多元化形式之中的一種巨型數(shù)據集合,其來源于社交網絡、搜索引擎以及電子商務網絡等等,具有體量大、速率高、多樣性、真實以及價值等幾個主要的特征。大數(shù)據與云計算具有較為密切的聯(lián)系,因為單一的計算機并無法對大數(shù)據進行處理,因此需要利用分布式的計算框架,其基本特點在于對巨型數(shù)據的深度挖掘,但始終需依托于云計算的分布式處理。早在二十世紀八十年代便已有科學家做出預見,大數(shù)據所帶來的變革必將改變我的生活、工作方式以及思維。在近十年間,大數(shù)據已成為互聯(lián)網技術的一個重要方面,其關注度也呈逐年上升的趨勢。正是在這樣的環(huán)境之中,我國的企業(yè)經營發(fā)展迎來了前所未有的機遇與挑戰(zhàn)。
二、大數(shù)據時代下企業(yè)經營管理所面臨的挑戰(zhàn)
(一)數(shù)據多樣化
信息的發(fā)展與經濟的進步基本上是保持這相同的步調,在大數(shù)據背景下,企業(yè)需要根據實際的經營需求,自由選擇傳統(tǒng)以及現(xiàn)代兩種信息數(shù)據收集的方式,并對不同網絡渠道信息資源的收集進行探究,尤其是在電子商務飛速發(fā)展的今天,對圖片、視頻以及數(shù)據內容進行采集。就企業(yè)自身的經營管理而言,大部分企業(yè)對于信息收集處理的方式還比較局限,基本還停留在滿足于結構信息發(fā)展的需求之上,而對于企業(yè)自身的非結構化信息則難以進行有效的處理與分析。值得說明的是,企業(yè)自身的非結構化信息在企業(yè)的經營管理之中占據著較為重要的地位,甚至可以說對企業(yè)非結構化信息的處理是企業(yè)經營發(fā)展的基礎。
(二)實時數(shù)據分析
隨著經濟全球化程度的加深,企業(yè)的發(fā)展與其內部系統(tǒng)以及外部環(huán)境有著密不可分的關系,這兩者的基本特點是迅捷、快速、高效。簡而言之,在大數(shù)據時代下企業(yè)自身數(shù)據處理的任務正在飛速增長。與傳統(tǒng)企業(yè)的經營管理模式不同,現(xiàn)代化企業(yè)的管理很大程度上依賴于企業(yè)對信息數(shù)據“即時”的分析把握?;诖耍髽I(yè)將面臨相當龐大的信息處理任務,而隨著信息分析處理任務量的急劇增長,也對企業(yè)信息數(shù)據處理的速度以及質量提出了更高的要求。大數(shù)據時代下的企業(yè)信息數(shù)據處理必須始終保持“即時”性,這也是現(xiàn)代化企業(yè)信息數(shù)據處理分析的基本發(fā)展趨向,同時也是企業(yè)健康穩(wěn)定發(fā)展的基本需求。
(三)建立在數(shù)據內容上的決策
企業(yè)現(xiàn)代化程度的加深,意味著企業(yè)各類經營活動均對信息數(shù)據有著更高的要求,這也是企業(yè)數(shù)據信息處理分析發(fā)展的一個方向。對于信息數(shù)據的精確分析,是理性決策的重要保障,能夠有效提高決策的科學性、規(guī)范性以及精確性,避免因數(shù)據內容的不準確,導致決策者出現(xiàn)不同程度的錯誤判斷,減少企業(yè)經營發(fā)展的風險。就現(xiàn)狀來說,許多企業(yè)在擴大生產以及業(yè)務范圍的過程之中,對于信息數(shù)據的處理分析并不如何重視,只是盲目的將所得信息進行單向性的匯總,而缺乏對于信息數(shù)據內容的歸納判斷,同時對于同行業(yè)內企業(yè)的信息數(shù)據也并不重視,導致企業(yè)決策出現(xiàn)一定的紕漏。在大數(shù)據的時代背景之下,只有充分重視信息數(shù)據內容,并對其進行科學化的處理分析,才能夠有效解決企業(yè)內部管理所存在的問題。因此,為了對傳統(tǒng)決策觀念與模式進行改變,就有必要進行科學規(guī)范的數(shù)據分析,并將決策的舉措置于數(shù)據內容上進行,以謀求企業(yè)長遠發(fā)展。
(四)關注數(shù)據安全
現(xiàn)代化企業(yè)經營管理各類活動的均與信息數(shù)據的準確性有著較為密切的聯(lián)系,這也包括企業(yè)自身所掌握的信息,尤其是企業(yè)客戶的信息,對于企業(yè)來說更是其核心價值之所在。在大數(shù)據的時潮之中,企業(yè)必須思考如該如何在有效分析處理信息數(shù)據的基礎之上,對企業(yè)商業(yè)機密以及客戶信息進行全面的保護。
三、大數(shù)據時代下企業(yè)經營管理模式與發(fā)展分析
(一)運營決策以數(shù)據為基礎
在大數(shù)據的時代背景之下,企業(yè)必須強化對內部信息數(shù)據的整合管理并逐步建立起相關的體系,使企業(yè)日常經營活動均有相關的信息數(shù)據內容作為參照。為推動企業(yè)經營管理模式的進步,就搭建企業(yè)內部信息數(shù)據的平臺,使企業(yè)內部的信息數(shù)據分析管理體系趨向規(guī)范化,以提升企業(yè)整體信息數(shù)據分析管理工作的效率。這也意味著,企業(yè)必須建立于社會網絡的鏈接,并提高對于社會網絡數(shù)據的觀察與分析,通過對不同社會網絡平臺上的信息數(shù)據進行采集整理,深度挖掘管理活動之中所需的信息內容,并完成后續(xù)的分析傳輸工作。同時,企業(yè)也必須加深對于信息數(shù)據采集搜索的強度,以提升企業(yè)信譽為基本目的,制定多層次、多角度、多取向的音效策略。以上內容,均建立在對信息數(shù)據的分析處理之上,實現(xiàn)企業(yè)運營決策的所有內容都有其信息數(shù)據的基礎。
(二)培養(yǎng)數(shù)據管理人才
目前,市場環(huán)境乃是以知識經濟作為基本引導,這也意味著企業(yè)的經營發(fā)展愈來愈倚重于人才,尤其是在大數(shù)據時代下,企業(yè)想要在日趨激烈的市場競爭之中脫穎而出,就必須加大對于人才的吸納。大數(shù)據時代的來臨,對于企業(yè)的經營管理提出了更高的要求以及標準,這也是對企業(yè)內部人才綜合素質的長大考驗。為了保證企業(yè)信息數(shù)據分析管理工作的效率與質量,就有必要培養(yǎng)符合企業(yè)發(fā)展需求的數(shù)據管理人才,以大數(shù)據時代的要求來看,對信息數(shù)據具有敏銳感知能力、應對能力以及分析能力是一名優(yōu)秀數(shù)據管理人才所須具備的基本素質。因此,企業(yè)必須加強對數(shù)據管理人才的儲備,并建立完善的招聘、篩選、任用、培訓制度以及相關的考核獎勵機制,推動企業(yè)數(shù)據管理人才工作素質的提高。
(三)企業(yè)網絡的建設
從提升企業(yè)信息數(shù)據管理分析的角度來談,就有必要在企業(yè)內部建設全面化、多向性、科學性的企業(yè)內部網絡,為信息數(shù)據的各項工作提供一個良好的平臺,并實現(xiàn)企業(yè)內部信息數(shù)據的有效化管理。企業(yè)網絡的建設必須符合企業(yè)經營發(fā)展的現(xiàn)狀以及需求,并具備一定的科學性與合理性,以謀求企業(yè)發(fā)展為基礎,提升企業(yè)服務質量為手段,推動企業(yè)信息網絡建設為最終目的,提高企業(yè)對信息數(shù)據分析管理工作的效率。
結束語
綜上所述,在大數(shù)據的時代潮流之中,企業(yè)發(fā)展所面對的外在環(huán)境具有多樣化的基本特征,且規(guī)模亦不盡相同。企業(yè)經營管理的改革必須與信息化社會的進步保持相同的步調。所以,企業(yè)必須主動迎合大數(shù)據時代,置身于這股時潮之中,并結合自身的具體情況,思考如何有效利用大數(shù)據時代所提供的資源來提升企業(yè)自身的競爭力,使企業(yè)在日趨激烈的市場競爭之中,始終立于不敗之地。
參考文獻:
[1]陸波.信息爆炸(大數(shù)據)對現(xiàn)代企業(yè)經營的挑戰(zhàn)、機遇與對策[J].經貿實踐,2017(15):164-165.
篇10
論文關鍵詞:網絡環(huán)境,大學生信息組織,共享模式
在易班中,這個新興網絡群體組織被統(tǒng)稱為網絡社區(qū),在大家都比較熟悉的易班網按網絡組織分為機構群和公共群,或者另外一種分類法叫做聊天群和非聊天群。這已經初步建立起網絡組織和共享模式。從最早的BBS,從博客群到微博再到微信、易信,發(fā)展到現(xiàn)在的易班,大學生網絡學習和生活由此真正也進入了專業(yè)化移動社區(qū)時代。自從易班校園好聲音活動開播以來,易班網絡社區(qū)在中國網絡領域成為了后起之秀,逐漸成為大學師生獲取、交流與傳播信息的重要平臺。
然而,在當今社會,QQ、微信、易信等平臺仍然是主流新媒體。隨著大學生網絡社區(qū)的迅速發(fā)展,易班網絡的社區(qū)信息資源的管理尤其是信息組織和分享方面的問題日益凸顯。如何在尊重學生個性發(fā)展的基礎上有效地對大學生進行思想政治教育,如何控制網絡組織中的信息流向,讓信息流變成現(xiàn)實的管理數(shù)據庫,如何把網絡信息資源組織成有序而優(yōu)化的信息管理反饋系統(tǒng),比如學生的網絡話語與學生的操行自動比對,形成管理者的共享材料。這是當前網絡社區(qū)信息管理的幾大難題,也是解決當前大學生網絡社區(qū)信息個性化需求與高校有序管理需求之間的矛盾的主要措施。
1 易班的信息組織模式和理念還不能很好適應A—B
易班作為一個服務平臺,首先應當是一個管理平臺。社區(qū)化的思想應當首先服務于高校管理。過于追求社區(qū)化,當然某種意義上利于學生群體自由,但是不利于管理。試用易班后,多數(shù)高校發(fā)現(xiàn)了這個問題。易班原來英文名叫“E-class”,建立以班級為群體或者小社區(qū)的理念是它的初衷,這個是好的,但是班級一定要找到它的根,即要找到它的院系然后找到它的大學。這樣才有管理的條件。而且班級新聞怎么推送上去要看這個鏈條是否完整,管理節(jié)點有沒有。易班的信息組織模式要是能適應當前網絡時代的發(fā)展,就一定要做到A—B—C的模式,其中第一個重要環(huán)節(jié)就是A—B,A就是網絡服務提供商,就是教育部易班發(fā)展中心,B就是各個高校的管理層,這個脈絡不僅在現(xiàn)實生活中非常清晰,而且要做到在網絡中也非常清晰。學生有歸屬感,不至于游離于網絡,如果讓學生隨心所欲,學生就可能走出社會主義核心價值觀的輿論氛圍,思想和精神得不到健康發(fā)展。
第二個環(huán)節(jié)才是B—C,B是各高校的管理者,C就是一個個的群組。B是架起易班服務的橋梁,C是群星燦爛的易班組織,B能體會到易班的精神并將之傳導到C,C最終能共享易班服務成果。結合易班網絡社區(qū)組織結構構成及功能特點,以及國內外有關信息組織結構和共享模式的相關理論,建立“A—B—C”系統(tǒng)化、個性化的大學生網絡社區(qū)中的信息組織管理共享模式,不僅有利于解決網絡社區(qū)中信息組織新出現(xiàn)的問題,促進網絡社區(qū)中信息資源規(guī)范管理,現(xiàn)代企業(yè)管理論文而且從深層次上揭示信息組織和共享的結構機制,建立起適應復雜網絡社區(qū)環(huán)境的、完善高校學生管理和思想政治教育的信息組織和共享模式。
2 易班信息共享模式有待升華
易班網絡目前停留在信息分享的初級階段,各高校仍然不能很好分享或者獲取網絡中有價值的信息,也需要自己收集加工信息,這個情況造成很多輔導員職業(yè)疲倦。以至于討厭易班,不愿意發(fā)動學生加入易班。網絡社區(qū)中的信息組織和共享模式,不是對信息組織和共享模式的簡單相加,而是對傳統(tǒng)信息組織模式的升華和優(yōu)化,是對傳統(tǒng)社會中有關商業(yè)化網絡信息組織共享模式的方法和經驗進行借鑒、總結和改造的結果,是一種具有實踐過程并將成果指導實踐的研究。有具體的網絡社區(qū)環(huán)境應用場地,有現(xiàn)實的易班網絡平臺,還要有虛擬的大數(shù)據分析分享系統(tǒng),對于改善網絡社區(qū)中的信息組織有重要的指導價值,能促進網絡社區(qū)更加有序的運行具有重要的意義。
易班對網絡社區(qū)的信息主要集中于大學生所關注的領域或者活動,無論從微社區(qū)、話題,還是輕應用,都比較“散”,范圍非常廣泛,缺乏提煉。學校和院系除了知道學生人數(shù),剩下的事情就只停留在“點贊”和“刷屏”上了,真正獲得有價值的信息,比如學生最近在干嗎?學生普世價值觀數(shù)據分析?學生社會行為學分析數(shù)據、學生心理需求方面分析數(shù)據等等這些信息無法擁有,老師們也就無力去再做些什么。所以易班要向這方面努力。概括起來主要有:1)信息共享應該接入整個學生數(shù)據庫;2)分層級分享易班分析數(shù)據庫,這個需要大數(shù)據支持;3)積分系統(tǒng)應該下放到管理層;4)好的應用明碼標價或共享;5)應拓展數(shù)據分析的學科領域??茖W地建立大學生易班網絡社區(qū)中的信息組織和共享模式,以及大數(shù)據,將使易班更有吸引力,更有應用前景。
總的來說,易班網開辟了大學生信息組織和共享成果時代,是我國高等教育領域尤其是網絡思想文化方面一個巨大的進步?;谝装嗑W在信息組織與共享模式上存在的缺陷,本文擬提出建立“A—B—C”的信息組織和共享模式,拓展大數(shù)據時代價值,結合信息科學和社會科學的相關理論,系統(tǒng)地給各高校提供一個集分享和管理的信息模式,構建一個既能適應高校大學生個性化需求又能服務于高校管理信息化平臺,以改善當今大學生網絡社區(qū)中信息組織混亂無序的現(xiàn)狀,同時為大學生網絡組織和分享模式的研究另辟蹊徑,促進科學和技術的交流與整合。
參考文獻
[1]張明海,龍獻忠.云傳播時代大學生信息素養(yǎng)教育創(chuàng)新研究[J].圖書館,2014(5):99-101,106.
[2]潘燕桃,廖昀赟.大學生信息素養(yǎng)教育的“慕課”化趨勢[J].大學圖書館學報,2014(4):21-27.