護理學免費資源實現(xiàn)研究

時間:2022-04-29 05:39:16

導(dǎo)語:護理學免費資源實現(xiàn)研究一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

護理學免費資源實現(xiàn)研究

1護理學免費資源知識元組織的必要性

根據(jù)是否收費,Web上護理學電子資源分為收費資源和免費資源兩種。收費資源如中國知網(wǎng)(CNKI)、萬方等電子數(shù)據(jù)庫,是護理學工作者獲取知識的主要途徑。由于其結(jié)構(gòu)嚴謹,內(nèi)容準確,為其知識組織方式由信息元過度至知識元提供了良好的基礎(chǔ),如CNKI數(shù)據(jù)庫已經(jīng)提供了知識元檢索途徑。在收費電子資源發(fā)展的同時,免費資源的發(fā)展也是日新月異,主要包括三類:①基于電子圖書、期刊的開源資源,如道客巴巴、百度文庫等。從目前資源的種類和數(shù)量上分析,開源資源的電子圖書、期刊、博碩論文已經(jīng)與收費數(shù)據(jù)庫大體相當;②護理學電子論壇如丁香園、天使之城等。電子論壇向所有護理學工作者敞開了大門,是廣大護理學工作者交流工作經(jīng)驗、思想體會的主要陣地,在資源種類和內(nèi)容上與電子數(shù)據(jù)庫形成了良好互補;③護理學百科知識網(wǎng)站,如百度百科、搜搜百科等。百科類網(wǎng)站的誕生為廣大互聯(lián)網(wǎng)用戶提供了新的信息獲取途徑,其發(fā)展理念強調(diào)用戶的參與和奉獻精神,內(nèi)容整體詳實準確??梢姀馁Y源的種類和數(shù)量上分析,護理學收費資源僅是免費資源的一個子集。然而,在知識的組織方式上后者與收費資源遠遠不能同日而語,整體處于無組織的狀態(tài)。這是由于免費資源分布過于廣泛,所有的內(nèi)容沒有統(tǒng)一的結(jié)構(gòu)格式要求,尤其是電子論壇信息的沒有審核的過程,不規(guī)范用語非常常見等等,在這種條件下,顯然信息元不可能成為免費資源的組織方式。為了合理組織這些資源,知識元組織方式最佳的選擇。

2護理學知識元的標引范圍

2.1限定開源資源的標引范圍

目前國內(nèi)大型綜合類開源資源網(wǎng)站主要以道客巴巴、百度文庫和豆丁網(wǎng)為代表,筆者在3月19日以“護理學”為檢索詞向這三個數(shù)據(jù)庫的默認檢索方式進行檢索,分別得到956149、901090和401445個檢索結(jié)果,由于以上三者均是以電子期刊、電子圖書、學術(shù)論文、電子課件等作為資源收集的內(nèi)容,從資源數(shù)量可以簡單的判斷道客巴巴的護理學資源最為豐富。因此,將開源資源的收集范圍限定在道客巴巴中,其他兩個數(shù)據(jù)庫沒有必要做重復(fù)的分析統(tǒng)計。

2.2限定電子論壇的標引范圍

包括護理學在內(nèi),各種電子論壇的整體資源質(zhì)量與論壇服務(wù)時間往往成正比,如丁香園論壇始建于2000年7月23日,經(jīng)過多年的發(fā)展,吸引了大量高素質(zhì)醫(yī)學工作者的關(guān)注,內(nèi)容也較為準確,信息每天都在動態(tài)更新;相比之下大量小的醫(yī)學論壇不具有較強的吸引力,內(nèi)容的整體質(zhì)量較低,而且即使對其進行標引,這些論壇未來也非常可能被市場所淘汰,無法找到標引所對應(yīng)的知識內(nèi)容,顯然對這樣的網(wǎng)站內(nèi)容進行深入的知識挖掘幾乎沒有意義。因此有必要將論壇的范圍限制在2年以上,以此保充分提高對電子論壇知識元標引的質(zhì)量和工作效率。

2.3限定百科全書類網(wǎng)站的標引范圍

主流的百科全書類網(wǎng)站主要有百度百科、搜搜百科、360百科、谷歌百科等等,通過名字即可發(fā)現(xiàn)這些網(wǎng)站均有一個共同的特點,即先有搜索引擎,后有百科,每個所有引擎都會首要的引用自身的百科知識,兩者相互促進發(fā)展。以上百科類網(wǎng)站的知識內(nèi)容幾乎均涵蓋所有的學科范圍,種類和內(nèi)容沒有明顯差別,但由于百度搜索引擎是市場占有率最大,在2012年11月占有率高達72.84%[2],可以說百度已經(jīng)成為多數(shù)人檢索信息的習慣。相應(yīng)的使百度百科自然成為百科類知識點擊率最高的網(wǎng)站,因此將范圍限定在百度百科中。

3知識元標引過程

3.1護理學免費資源的分詞

分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程,將沒有間隔符中文詞語變?yōu)闄C器可以理解的詞語。常用的分詞方法可分為三大類:基于字符串匹配的分詞法、基于理解的分詞方法和基于詞頻統(tǒng)計的分詞方法?;诶斫獾姆衷~方法模擬了人腦的理解過程,目前還處在試驗階段[3]。前文雖然對護理學免費資源的范圍進行了限定,但整體仍然是海量的,為了提高分析效率,保證分詞質(zhì)量,本文設(shè)計了一種曲線高效的分詞方法?!扒€”表示為首先不直接對免費資源進行分詞,而是以CNKI中的期刊數(shù)據(jù)庫、報紙數(shù)據(jù)庫、博碩論文數(shù)據(jù)庫、會議論文等數(shù)據(jù)庫,和讀秀電子圖書數(shù)據(jù)庫為對象,采用字符串配算法進行分詞方法對其內(nèi)容進行分詞。其原因如下:①電子期刊、博碩論文、會議論文等數(shù)據(jù)庫是高端人才交流前沿知識的主要陣地。這決定其內(nèi)容整體具有極高的含金量,任何新的理論知識、高效的工作方法必然第一時間誕生在其中或必然有所體現(xiàn),保證了分詞結(jié)果的全面性;②整體內(nèi)容經(jīng)過作者和編輯部多次審閱和校對,幾乎沒有錯別字和奇異詞,不需要對詞語進行語義理解的過程,保證了分詞結(jié)果的準確性;三、文獻數(shù)量范圍進一步縮小。筆者利用CNKI總庫檢索近5年發(fā)表的有關(guān)護理學方面的文獻,檢索表達式為:主題=護理(出版年:2009年3月29日—2013年4月29日)進行跨庫檢索,總計得到313643個檢索結(jié)果;以護理為檢索詞,在讀秀電子圖書中檢索得到35859個檢索結(jié)果,有限的內(nèi)容具備開展字符串匹配算法的基礎(chǔ)。可見收費數(shù)據(jù)庫的特點完全彌補了字符串匹配算法的缺陷?!案咝А北憩F(xiàn)在以此分詞結(jié)果為基礎(chǔ),將整體分詞的結(jié)果作為字典,向免費護理學資源采取詞頻統(tǒng)計分詞的方法進行分詞,從而省去以往詞頻統(tǒng)計需要建立字典的復(fù)雜過程。分詞統(tǒng)計完成后減去中文停用詞表的分詞,就是最終的分詞結(jié)果。

3.2護理學免費資源的關(guān)鍵詞提取

提取關(guān)鍵詞是知識元標引的核心環(huán)節(jié),主要有兩種方法,分別根據(jù)分詞的重要性和出現(xiàn)頻率作為提取依據(jù)。根據(jù)護理學各種免費資源自身物理結(jié)構(gòu)的差異,如開源資源和百度百科對內(nèi)容結(jié)構(gòu)有嚴格的格式限制,尤其是關(guān)鍵詞、摘要是前者必備組成部分,后者雖然沒有對結(jié)構(gòu)有如此細化的要求,但其內(nèi)容的每個段落均有段落標題??梢娨陨蟽烧咴诮Y(jié)構(gòu)上就對分詞間的輕重程度即權(quán)重進行了表達和說明。因此以各個分詞的重要性為依據(jù)提取關(guān)鍵詞。在提取算法的設(shè)計上,作者傅雷在碩士研究生論文中提出了一種基于TFIDF算法的權(quán)重改進型算法,即在TFIDF算法上,增加分詞的參考權(quán)重系數(shù)K,權(quán)重由標題、摘要、關(guān)鍵詞和正文四項組成,權(quán)重值分別為2、1.5、3和1。在計算時,被統(tǒng)計的文章所有分詞以此為參照物,若某一分詞與標題、摘要等項的分詞相同,就附以相應(yīng)的權(quán)重值。以此進一步體現(xiàn)出文章結(jié)構(gòu)與分詞重要性的對應(yīng)的關(guān)系,將結(jié)算結(jié)果前10名的分詞設(shè)為關(guān)鍵詞,并經(jīng)過實踐證明較為合理準確[4]。本文在此基礎(chǔ)上,對權(quán)重系數(shù)K進行了如下細化和修改。細化內(nèi)容為,根據(jù)標準格式的論文和圖書結(jié)構(gòu)中必有段落小標題,這是對段落或部分內(nèi)容的總結(jié)性歸納,和美國學者P.E.Baxendale統(tǒng)計表明,反映段落主題的句子85%出現(xiàn)在段首,7%出現(xiàn)在段尾為原則[5],按著權(quán)重的重要性依次排序為段落小標題分詞>段首句分詞>段尾句分詞。相應(yīng)的對權(quán)重值進行修改為2.5、2和1.5,即正文權(quán)重值1不變,新增三項依次以0.5遞增。標題、摘要、關(guān)鍵詞的權(quán)重值依次增加1.5,分別為3.5、3和4.5。若某一分詞同時與權(quán)重項的多個相同,按最大值賦予權(quán)重系數(shù)。同樣取前10個分詞作為關(guān)鍵詞。最后在道客巴巴和百度百科中各隨即抽取50篇文章,通過自動抽取的關(guān)鍵詞與人工抽取的關(guān)鍵詞相比較,計算出抽取精度、召回率和Fβ=1值分別為33%、87%和47.8%,較TFIDF權(quán)重改進型的算法的值均有所提高,結(jié)果較為理想。從電子論壇內(nèi)容的格式分析,大部門內(nèi)容由一段話組成,內(nèi)容較少,甚至在百字以下。有限的內(nèi)容使其產(chǎn)生分詞與其位置幾乎沒有重要的對應(yīng)關(guān)系,這極大降低了知識元提取的難度。因此,選擇計算分詞出現(xiàn)頻率的方法提取關(guān)鍵詞,即依次計算每一個分詞的出現(xiàn)頻率取其平均值,將出現(xiàn)頻率高于平均值的分詞提取為關(guān)鍵詞。

3.3護理學免費資源關(guān)鍵句的提取

由于關(guān)鍵詞雖然可以表達概念,但無法完整的表達語義,從而無法準確的描述文章的知識,也不符合人們慣用的對文章的理解過程,相比之下句子才是表達知識的基本單位。因此,知識元以句子作為基本對象,能夠更加合理、準確、方便的描述知識元表述的內(nèi)容。具體過程如下:首先根據(jù)關(guān)鍵詞提取的結(jié)果,將關(guān)鍵詞還原至所在的句子。然后對句子進行分析,判斷該句子是否能夠完整表達一個知識且不可再分,將符合條件的句子提取為關(guān)鍵句。由于以上過程較為簡單,在這里就不再贅述。3.4護理學免費資源知識元標引按著知識元的結(jié)構(gòu)描述關(guān)鍵句就形成了知識元。隨著情報等學科對知識元研究的逐步深入,目前已經(jīng)誕生較為合理的知識元描述框架[6]。

4知識元樹型組織

本文設(shè)計分類器的思想是根據(jù)知識元結(jié)構(gòu)中的內(nèi)容屬性設(shè)計的,整體分類器由三級組成:①設(shè)置護理學理論知識元與實踐知識元分類器,對Web上免費的護理學知識元進行初次分類。通過對護理學知識元內(nèi)容的特點進行分析,發(fā)現(xiàn)以下詞語往往與護理學理論知識關(guān)系緊密,如分析、淺議、原理、概念、進展等,將以上詞語組織構(gòu)建成為護理學理論知識分類器。以下詞語如治療、作用、效果、調(diào)查、步驟、比較、處置等與護理學實踐知識的內(nèi)容相關(guān),由此組成護理學實踐知識分類器。②在根據(jù)醫(yī)學廣義的內(nèi)、外、婦、兒的分類,設(shè)置二級分類器,如心梗、心絞痛、腎炎等詞語組成內(nèi)科護理學分類器等,同時根據(jù)護理學實際的研究和工作需要,增設(shè)護理學教學、護理學管理、護理學心里三個分類器[7]。③根據(jù)醫(yī)院科室的和醫(yī)學教學課程的設(shè)置,進一步細化分類器,如將內(nèi)科護理學分類器細分為心內(nèi)科護理學分類器、神經(jīng)內(nèi)科護理學分類器等[8]。當然,以上分類器的構(gòu)建是一個非常繁瑣的過程,需要護理學權(quán)威專家進行仔細論證,受到作者水平能力的制約和篇幅的限制,只是進行簡單的框架描述,希望能夠起到拋磚引玉的作用。分類器構(gòu)建完成后,通過對護理學知識元的內(nèi)容屬性與分類器的詞語進行比較和分析,采用決策樹分類挖掘算法進行分類,將所有的知識元組織起來。

5未來努力方向

5.1對護理學隱性知識進行標引

知識元是顯性知識的最小可控單元,也就是說本文是將護理學顯性知識作為研究的對象,忽略了隱性知識的標引和組織。其實隱性知識與顯性知識相比更為重要,只是由于目前隱性知識的獲取和共享還存在許多實質(zhì)性的問題,如部分隱性知識的顯性化存在一定的技術(shù)困難,加之缺乏合理的知識保護體系和鼓勵方法,限制了隱性知識整體的數(shù)量和質(zhì)量。但近年來基于隱性知識的研究已經(jīng)成為情報學等學科研究的重點,在一些學科隱性知識共享平臺初見雛形[9]??梢砸灶A(yù)見不久的將來,隱性知識共享平臺將是人們獲取知識的嶄新途徑。當未來護理學隱性知識顯性化發(fā)展成熟時,有必要將該部分內(nèi)容進行知識元層面的標引,擴大和豐富護理學知識的標引的范圍,將所有的護理學知識高效組織在一起。

5.2構(gòu)建學習組織

知識元標引有效的解決了信息孤島的問題,是目前知識組織的最佳方法,但并沒有將知識的生產(chǎn)者有效聯(lián)系在一起,知識生產(chǎn)之間就像在獨立的包房中進行工作一樣,缺乏面對面的交流和協(xié)作。因此,本文計劃當護理學免費知識元標引逐漸完善成熟時,通過對用戶的檢索行為進行分析,動態(tài)的將查詢內(nèi)容向同或相近的護理學工作者組成學習組織[10],尤其是將以高校、科研院所為主的護理學研究人員和以醫(yī)院為主的護理學臨床工作人員組織在一起,為理論知識和實踐知識的相互轉(zhuǎn)化創(chuàng)造良好條件。

作者:王春利工作單位:吉林醫(yī)藥學院附屬醫(yī)院護理部