統(tǒng)計(jì)學(xué)樣本的概念范文

時(shí)間:2023-07-10 17:19:32

導(dǎo)語(yǔ):如何才能寫好一篇統(tǒng)計(jì)學(xué)樣本的概念,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。

統(tǒng)計(jì)學(xué)樣本的概念

篇1

關(guān)鍵詞:大數(shù)據(jù);海量存儲(chǔ);數(shù)據(jù)挖掘;標(biāo)本庫(kù);醫(yī)學(xué)生物信息;數(shù)據(jù)挖掘

隨著信息技術(shù)在醫(yī)學(xué)臨床和科研中的應(yīng)用,臨床醫(yī)學(xué)、生物學(xué)、信息學(xué)發(fā)生了一次交叉融合, 這種以生物大數(shù)據(jù)信息是未來(lái)生物醫(yī)學(xué)研究發(fā)展的核心點(diǎn)。這種以海量、高維度、數(shù)據(jù)變量復(fù)雜、為特征的數(shù)據(jù)結(jié)構(gòu), 需要我們?cè)趥鹘y(tǒng)的醫(yī)學(xué)基礎(chǔ)之上集數(shù)學(xué)、統(tǒng)計(jì)學(xué)、工程學(xué)、計(jì)算機(jī)信息科學(xué)的交叉綜合、理論和實(shí)驗(yàn)相結(jié)合,建立新的新方法和手段。使得我們的臨床醫(yī)學(xué)模式從經(jīng)驗(yàn)醫(yī)學(xué)進(jìn)一步向循證醫(yī)學(xué)轉(zhuǎn)變,無(wú)序醫(yī)療向著有序醫(yī)療發(fā)展,醫(yī)學(xué)研究也會(huì)進(jìn)入從發(fā)現(xiàn)、研究、驗(yàn)證、應(yīng)用到再發(fā)現(xiàn)、再研究、再驗(yàn)證、再應(yīng)用的迭代式良性循環(huán)過程中。

1實(shí)現(xiàn)大數(shù)據(jù)的大價(jià)值是醫(yī)學(xué)信息建設(shè)的新目標(biāo)

信息化時(shí)代各行業(yè)信息數(shù)據(jù)量呈現(xiàn)指數(shù)上升,醫(yī)療行業(yè)的數(shù)據(jù)信息增長(zhǎng)更快。經(jīng)研究表明,未來(lái)10年醫(yī)學(xué)數(shù)據(jù)將高爆式地增長(zhǎng),其增長(zhǎng)來(lái)源于醫(yī)院醫(yī)療信息運(yùn)行數(shù)據(jù)的積累、新的臨床信息系統(tǒng)的嵌入(如電子病例系統(tǒng))、新醫(yī)療診療設(shè)備接入等。隨著醫(yī)學(xué)的進(jìn)步以生物芯片為代表的高通量生物技術(shù)的飛速發(fā)展,基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)的信息也會(huì)涌入醫(yī)學(xué)生物信息領(lǐng)域。這種大量高速增長(zhǎng)的數(shù)據(jù)被稱之為海量數(shù)據(jù)或者大數(shù)據(jù)(big data)。大數(shù)據(jù)的特點(diǎn)是海量、高維度、數(shù)據(jù)變量復(fù)雜、分析處理復(fù)雜。

隨著信息技術(shù)在醫(yī)學(xué)臨床和科研中的應(yīng)用,臨床醫(yī)學(xué)、生物學(xué)、信息學(xué)發(fā)生了一次交叉融合,形成了生物醫(yī)學(xué)信息學(xué)(Biomedical Informatics)。這種以生物大數(shù)據(jù)信息是未來(lái)生物醫(yī)學(xué)研究發(fā)展的核心點(diǎn)。我們可以看到,生物醫(yī)學(xué)領(lǐng)域的大數(shù)據(jù)時(shí)代正在來(lái)臨,其發(fā)展將促使我們盡快構(gòu)建一個(gè)實(shí)時(shí)、便捷、全方位的醫(yī)學(xué)生物信息挖掘和應(yīng)用系統(tǒng)。在醫(yī)學(xué)信息研究方面,我國(guó)還主要處在對(duì)醫(yī)療流程的信息化管理、質(zhì)量控制等初級(jí)階段,尚未開展面對(duì)"大數(shù)據(jù)"挖掘的系統(tǒng)研究與應(yīng)用,但這種研究與挖掘應(yīng)用必將成為生物醫(yī)藥科學(xué)技術(shù)發(fā)展的趨勢(shì)。大數(shù)據(jù)時(shí)代的到來(lái),既對(duì)臨床醫(yī)生、研究人員、醫(yī)院管理者、醫(yī)療監(jiān)管機(jī)構(gòu)等都提出了巨大的挑戰(zhàn),也為生物醫(yī)學(xué)研究帶來(lái)了前所未有的機(jī)遇。生物醫(yī)學(xué)領(lǐng)域里科學(xué)研究的一個(gè)重要發(fā)展趨勢(shì)就是數(shù)據(jù)驅(qū)動(dòng)。以前進(jìn)行實(shí)驗(yàn)研究的目的是獲得結(jié)論或者是提出一種新的假設(shè),大數(shù)據(jù)技術(shù)通過對(duì)海量數(shù)據(jù)的研究來(lái)探索其中的規(guī)律,可以直接提出假設(shè)或得出可靠的結(jié)論。

當(dāng)前,以臨床醫(yī)療信息為基礎(chǔ)的計(jì)算機(jī)信息系統(tǒng)可擴(kuò)展到多個(gè)相聯(lián)的信息系統(tǒng),包括:電子病例系統(tǒng)、隨訪信息管理系統(tǒng)、實(shí)驗(yàn)室信息管理系統(tǒng)、生物信息分析系統(tǒng)、基因組學(xué)數(shù)據(jù)庫(kù)系統(tǒng)、藥物臨床試驗(yàn)信息系統(tǒng)等,在醫(yī)學(xué)科研與臨床應(yīng)用之間架起了一道不可或缺的橋梁。收集大數(shù)據(jù)、整合大數(shù)據(jù)、處理和分析大數(shù)據(jù),形成價(jià)值密度高、利用價(jià)值高的數(shù)據(jù)資源體系,實(shí)現(xiàn)"大數(shù)據(jù)"的"大價(jià)值",是醫(yī)學(xué)信息建設(shè)的新目標(biāo)。

2大數(shù)據(jù)挖掘?qū)⒈P活醫(yī)學(xué)生物信息資產(chǎn)

醫(yī)學(xué)生物信息的大數(shù)據(jù)包括醫(yī)療對(duì)象以及與醫(yī)療對(duì)象相關(guān)的信息特征集合,生物標(biāo)本以及與生物標(biāo)本信息相關(guān)的特征集合,這些大數(shù)據(jù)集帶有自己的、潛在的、未被揭示的規(guī)律趨勢(shì)特征,這才是醫(yī)學(xué)生物信息價(jià)值的核心所在。這些醫(yī)學(xué)生物信息是我們進(jìn)行用于人類健康研究?jī)r(jià)值的資產(chǎn),研究、分析、挖掘海量醫(yī)學(xué)生物信息就是盤活人類健康研究的資產(chǎn)。數(shù)據(jù)挖掘,也稱知識(shí)發(fā)現(xiàn),是盤活這些寶貴的醫(yī)學(xué)生物信息資產(chǎn)的有力工具。

大數(shù)據(jù)的挖掘和應(yīng)用不同于傳統(tǒng)的采樣分析法,它有自身的一些獨(dú)特特點(diǎn),如:①大數(shù)據(jù)挖掘分析與事物相關(guān)的所有數(shù)據(jù),而非少量數(shù)據(jù)樣本,研究的樣本數(shù)量趨近于總體數(shù)量;②大數(shù)據(jù)挖掘追求的是效率和趨勢(shì),而非絕對(duì)的準(zhǔn)確性;③大數(shù)據(jù)挖掘更多關(guān)注事物的相關(guān)關(guān)系而非因果關(guān)系,這種信息與信息之間的相關(guān)關(guān)系會(huì)提醒我們某件事情正在發(fā)生。

同時(shí),從數(shù)據(jù)中發(fā)現(xiàn)價(jià)值的實(shí)踐也由來(lái)已久。橫跨數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)等交叉學(xué)科和技術(shù)的數(shù)據(jù)挖掘是大數(shù)據(jù)分析的基礎(chǔ),傳統(tǒng)的數(shù)據(jù)分析實(shí)踐是無(wú)法適應(yīng)大數(shù)據(jù)的發(fā)展的。

近年來(lái),數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注。其主要原因是,由業(yè)務(wù)系統(tǒng)產(chǎn)生的大量數(shù)據(jù),迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí),并廣泛使用于業(yè)務(wù)中。獲取的信息和知識(shí)可以廣泛用于各種實(shí)踐應(yīng)用,包括商務(wù)管理、生產(chǎn)控制、市場(chǎng)分析、工程設(shè)計(jì)和科學(xué)探索等領(lǐng)域。數(shù)據(jù)挖掘利用了來(lái)自如下一些領(lǐng)域的思想和方法:統(tǒng)計(jì)學(xué)、人工智能、模式識(shí)別、機(jī)器學(xué)習(xí)等。數(shù)據(jù)挖掘的很多算法都采用了以上領(lǐng)域中的理論算法、建模技術(shù)和學(xué)習(xí)理論等。數(shù)據(jù)挖掘也迅速地接納了來(lái)自其他領(lǐng)域的思想,這些領(lǐng)域包括最優(yōu)化技術(shù)、進(jìn)化計(jì)算、信息論、信號(hào)處理、可視化和信息檢索技術(shù)等。數(shù)據(jù)挖掘也需要數(shù)據(jù)庫(kù)系統(tǒng)提供有效的存儲(chǔ)、索引和查詢處理得支持。源于高性能并行計(jì)算的技術(shù)在處理海量數(shù)據(jù)集方面常常是也重要的。分布式計(jì)算技術(shù)也能有效地幫助處理海量數(shù)據(jù),并且當(dāng)數(shù)據(jù)不能集中到一起處理時(shí)更是至關(guān)重要的[2]。

醫(yī)學(xué)生物信息的數(shù)據(jù)挖掘應(yīng)用比較廣泛,醫(yī)學(xué)樣本庫(kù)領(lǐng)域的應(yīng)用就是其中的一個(gè)實(shí)例。通過建立臨床醫(yī)學(xué)樣本信息篩選和偵測(cè)交互信息平臺(tái)來(lái)建立協(xié)作樣本庫(kù)和虛擬樣本庫(kù)。建立樣本庫(kù)協(xié)作單位的協(xié)作機(jī)制、嚴(yán)格的樣本篩選策略(根據(jù)研究項(xiàng)目協(xié)議和國(guó)家地方相關(guān)標(biāo)準(zhǔn)診斷、歸轉(zhuǎn)標(biāo)準(zhǔn)[5-7])、應(yīng)答式的標(biāo)本收集機(jī)制、樣本區(qū)域內(nèi)(研究機(jī)構(gòu)、轉(zhuǎn)化中心、醫(yī)院)權(quán)利共享機(jī)制,以建立全新模式、響應(yīng)一致、反應(yīng)迅速、整齊劃一的樣本收集研究管理的體系。建設(shè)樣本從標(biāo)篩選、采集、管理策略運(yùn)轉(zhuǎn)的實(shí)例,是以一個(gè)研究中心結(jié)合4~5個(gè)醫(yī)院以及4~5個(gè)樣本篩選醫(yī)院,建立研究臨床醫(yī)學(xué)轉(zhuǎn)化知識(shí)發(fā)現(xiàn)和研究驗(yàn)證系統(tǒng)信息平臺(tái)和建立臨床醫(yī)學(xué)樣本信息篩選和偵測(cè)交互信息平臺(tái)的基礎(chǔ)。

醫(yī)學(xué)生物信息的數(shù)據(jù)挖掘應(yīng)用的另一個(gè)實(shí)例是醫(yī)學(xué)科研。生物醫(yī)藥領(lǐng)域里科學(xué)研究的一個(gè)重要發(fā)展趨勢(shì)就是數(shù)據(jù)驅(qū)動(dòng)。以前進(jìn)行實(shí)驗(yàn)研究的目的是獲得結(jié)論或者是提出一種新的假設(shè),而現(xiàn)在通過對(duì)海量數(shù)據(jù)的研究來(lái)探索其中的規(guī)律,可以直接提出假設(shè)或得出可靠的結(jié)論[8]。另一方面,必須清楚的是,大數(shù)據(jù)作用與價(jià)值的重點(diǎn)在于能夠引導(dǎo)和啟發(fā)科研者的創(chuàng)新思維、并輔助決策。簡(jiǎn)單而言,若是處理一個(gè)問題,通常人能夠想到一種方法,而大數(shù)據(jù)能夠提供若干種參考方法,將解決問題的思路拓寬、拓廣、拓深。當(dāng)然我們需要在學(xué)科知識(shí)的結(jié)合上下內(nèi)功,不能單純依靠智能挖掘技術(shù)及工具就能解決大數(shù)據(jù)的應(yīng)用問題,實(shí)際上我們還要有熟悉掌握和運(yùn)用智能挖掘技術(shù)及工具的業(yè)務(wù)技術(shù)人才,才能在浩瀚的信息資源中遨游,才能真正利用好醫(yī)學(xué)信息這個(gè)巨大的資產(chǎn)。

3挖掘和利用醫(yī)學(xué)生物信息的技術(shù)方法

醫(yī)學(xué)科學(xué)的第三次革命需要在傳統(tǒng)的醫(yī)學(xué)基礎(chǔ)之上集數(shù)學(xué)、統(tǒng)計(jì)學(xué)、工程學(xué)、計(jì)算機(jī)信息科學(xué)的交叉綜合、理論和實(shí)驗(yàn)相結(jié)合,建立新的新方法和手段。目前,我國(guó)醫(yī)院信息系統(tǒng)存在著許多問題,集中體現(xiàn)在:醫(yī)學(xué)生物信息內(nèi)容缺失、信息標(biāo)準(zhǔn)化程度低以及發(fā)展目標(biāo)不明確等問題上。我們建設(shè)目的①堅(jiān)持醫(yī)療一線的工作需要,②堅(jiān)守醫(yī)學(xué)大數(shù)據(jù)信息資源的理念,③做好大數(shù)據(jù)收儲(chǔ)分析的準(zhǔn)備工作。 大數(shù)據(jù)時(shí)代醫(yī)院該如何挖掘和利用醫(yī)學(xué)生物信息?我們通過與國(guó)內(nèi)外有關(guān)數(shù)據(jù)挖掘的技術(shù)專家的合作,總結(jié)了醫(yī)學(xué)生物信息的挖掘和利用的一些方法。

3.1數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起) 把不同來(lái)源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,從而為醫(yī)院和研究機(jī)構(gòu)提供局部的或全面的數(shù)據(jù)共享。

3.2數(shù)據(jù)選擇(從數(shù)據(jù)庫(kù)中提取與分析任務(wù)相關(guān)的數(shù)據(jù)) 根據(jù)確定的數(shù)據(jù)分析對(duì)象,抽象出在數(shù)據(jù)分析中所需要的特征信息,然后選擇合適的信息收集方法,將收集到的信息存入數(shù)據(jù)庫(kù)。對(duì)于海量數(shù)據(jù),選擇一個(gè)合適的數(shù)據(jù)存儲(chǔ)和管理的數(shù)據(jù)倉(cāng)庫(kù)是至關(guān)重要的。

3.3數(shù)據(jù)規(guī)約 數(shù)據(jù)挖掘時(shí)往往數(shù)據(jù)量非常大,在大量數(shù)據(jù)上進(jìn)行挖掘分析需要很長(zhǎng)的時(shí)間,數(shù)據(jù)歸約技術(shù)可以用來(lái)得到數(shù)據(jù)集的歸約表示,它小得多但仍然接近于保持原數(shù)據(jù)的完整性,數(shù)據(jù)挖掘的結(jié)果與歸約前結(jié)果相同或幾乎相同。

3.4數(shù)據(jù)清理(消除噪音或不一致數(shù)據(jù)) 在數(shù)據(jù)庫(kù)中的數(shù)據(jù)有一些是不完整的(有些感興趣的屬性缺少屬性值)、含噪聲的(包含錯(cuò)誤的屬性值),并且是不一致的(同樣的信息不同的表示方式),因此需要進(jìn)行數(shù)據(jù)清理,將完整、正確、一致的數(shù)據(jù)信息存入數(shù)據(jù)庫(kù)中,否則會(huì)影響數(shù)據(jù)挖掘的結(jié)果。

3.5數(shù)據(jù)變換(數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式;如,通過匯總或聚集操作等) 通過平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。對(duì)于有些實(shí)數(shù)型數(shù)據(jù),通過概念分層和數(shù)據(jù)的離散化來(lái)轉(zhuǎn)換數(shù)據(jù)也是重要的一步。

3.6模型運(yùn)算(使用智能化的算法提取數(shù)據(jù)模式) 根據(jù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)信息,選擇合適的分析工具,應(yīng)用統(tǒng)計(jì)方法、事例推理、決策樹、規(guī)則推理、模糊集、神經(jīng)網(wǎng)絡(luò)、遺傳算法等方法處理信息,得出有用的分析信息。通過對(duì)數(shù)據(jù)的挖掘,①可以發(fā)現(xiàn)數(shù)據(jù)的歷史規(guī)律,對(duì)過去進(jìn)行總結(jié);②可以根據(jù)數(shù)據(jù)對(duì)未來(lái)進(jìn)行預(yù)測(cè),研究者可以根據(jù)預(yù)測(cè)對(duì)未來(lái)行情趨勢(shì)做出預(yù)判,并作出相關(guān)決策。

3.7模型評(píng)估 根據(jù)某種興趣度度量,識(shí)別提供知識(shí)的真正有趣的模式。

3.8知識(shí)表示。(使用可視化和知識(shí)表示技術(shù),向用戶提供挖掘的知識(shí)) 將數(shù)據(jù)挖掘所得到的分析信息以可視化的方式呈現(xiàn)給用戶,或作為新的知識(shí)存放在知識(shí)庫(kù)中,供其他應(yīng)用程序使用。使用各種圖表、三維地圖、動(dòng)態(tài)模擬以及相關(guān)的動(dòng)畫技術(shù)使原本枯燥乏味的數(shù)據(jù)變得生動(dòng)起來(lái)。數(shù)據(jù)可視化把數(shù)據(jù)以更加直觀的形態(tài)展現(xiàn)出來(lái),使人們對(duì)相關(guān)數(shù)據(jù)做到一目了然。經(jīng)過上面幾步我們就把原先認(rèn)為毫無(wú)價(jià)值的數(shù)據(jù)變成了信息,最后演變?yōu)橛袃r(jià)值的知識(shí)。

對(duì)于醫(yī)學(xué)生物信息挖掘系統(tǒng)的建設(shè)者(這里包括醫(yī)院科研部門和信息部門)來(lái)說(shuō),數(shù)據(jù)挖掘項(xiàng)目不因該是一個(gè)普通的IT項(xiàng)目,不能依照原來(lái)信息項(xiàng)目模式建設(shè),更不能理解成為是個(gè)管理工具,在項(xiàng)目各個(gè)階段,數(shù)據(jù)信息每一次挖掘、演繹、分析是建設(shè)者和研究者全程參與的藝術(shù)性結(jié)合。目前對(duì)于各行業(yè)、各類典型問題的數(shù)據(jù)挖掘應(yīng)用,還缺乏標(biāo)桿模式作為參考。數(shù)據(jù)挖掘工作更像一個(gè)年輕醫(yī)師,需要通過不斷嘗試來(lái)積累經(jīng)驗(yàn),面對(duì)如潮水般涌來(lái)的海量數(shù)據(jù),她必將成為了生物醫(yī)學(xué)研究的支柱技術(shù)之一。

綜上所述,在今后的發(fā)展中計(jì)算機(jī)硬件性能的巨幅提升和數(shù)據(jù)庫(kù)技術(shù)的飛速發(fā)展,使得企業(yè)級(jí)大數(shù)據(jù)量的計(jì)算成為現(xiàn)實(shí),數(shù)據(jù)挖掘涉及的數(shù)據(jù)量會(huì)更大。數(shù)據(jù)挖掘工具也將越來(lái)越強(qiáng)大,匯合的挖掘算法越來(lái)越多,并將逐步實(shí)現(xiàn)算法的自動(dòng)選擇和參數(shù)自動(dòng)調(diào)優(yōu),數(shù)據(jù)挖掘各類算法的巨大潛力將得到充分發(fā)揮。

我們?cè)O(shè)想在不久的將來(lái),生物信息大數(shù)據(jù)的應(yīng)用將會(huì)改變著醫(yī)學(xué)臨床實(shí)踐。臨床醫(yī)學(xué)模式從經(jīng)驗(yàn)醫(yī)學(xué)進(jìn)一步向循證醫(yī)學(xué)轉(zhuǎn)變,無(wú)序醫(yī)療向著有序醫(yī)療進(jìn)一步發(fā)展,醫(yī)學(xué)研究也會(huì)進(jìn)入從發(fā)現(xiàn)、研究、驗(yàn)證、應(yīng)用到再發(fā)現(xiàn)、再研究、再驗(yàn)證、再應(yīng)用的迭代式良性循環(huán)過程中。古老的醫(yī)學(xué)走到了今天,已經(jīng)發(fā)展成為多學(xué)科、多領(lǐng)域結(jié)合交匯的領(lǐng)域,生物信息科學(xué)、計(jì)算機(jī)科學(xué)和計(jì)算應(yīng)用數(shù)學(xué)的介入為大數(shù)據(jù)信息時(shí)代開創(chuàng)了新的前景,未來(lái)數(shù)據(jù)資源將會(huì)成為極具研究?jī)r(jià)值的醫(yī)學(xué)資產(chǎn),而且我國(guó)又是一個(gè)醫(yī)學(xué)研究資源豐富的大國(guó),我們有理由相信,我們的醫(yī)學(xué)研究者會(huì)通過醫(yī)學(xué)生物信息的挖掘和利用,在醫(yī)學(xué)的研究和發(fā)展中為廣大人民的健康事業(yè)做出更多貢獻(xiàn)。

參考文獻(xiàn):

[1]中國(guó)醫(yī)藥生物技術(shù)協(xié)會(huì)生物樣本庫(kù)標(biāo)準(zhǔn)(試行)[J].中國(guó)醫(yī)藥生物技術(shù),2011, 6(1):71-79.

[2]朱凌云,吳寶明.醫(yī)學(xué)數(shù)據(jù)挖掘的技術(shù)方法及應(yīng)用[J].生物醫(yī)學(xué)工程學(xué)雜志,2003;20(3):559-562.

[3]衛(wèi)生信息數(shù)據(jù)元.中華人民共和國(guó)衛(wèi)生行業(yè)標(biāo)準(zhǔn)[S].VS 363.3-2011.

[4]科學(xué)技術(shù)部.十二五"生物技術(shù)發(fā)展規(guī)劃[S].2011;11.

[5]劉淑珍,駱巖林,黃永峰.基于XML的電子病歷存儲(chǔ)管理系統(tǒng)的實(shí)現(xiàn)[J].醫(yī)院數(shù)字化,2007,22(7):24-26.

[6]孫榮國(guó),賈曉蓉.對(duì)我國(guó)臨床標(biāo)本庫(kù)建設(shè)的建議[J].衛(wèi)生軟科學(xué),2012,26(9):772.