遺傳學(xué)條件概率范文

時(shí)間:2023-11-14 17:36:49

導(dǎo)語(yǔ):如何才能寫(xiě)好一篇遺傳學(xué)條件概率,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。

篇1

關(guān)鍵詞:Shannon熵 基因突變 多樣性

中圖分類(lèi)號(hào):TP39 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2015)03(a)-0242-01

隨著計(jì)算機(jī)技術(shù)和信息技術(shù)的發(fā)展,對(duì)復(fù)雜冗長(zhǎng)的DNA序列的分析研究變?yōu)楝F(xiàn)實(shí)。如何分析這些數(shù)據(jù),提取相應(yīng)的特征量來(lái)描述生命體之間的聯(lián)系,是近年研究的熱門(mén)問(wèn)題。通過(guò)近幾年的發(fā)展,也開(kāi)發(fā)出一系列對(duì)比軟件,常用的有CLUSTRALW等軟件。

該文擬提取出不同DNA序列的平均互信息AMI作為特征參數(shù),通過(guò)多元統(tǒng)計(jì)的方法對(duì)DNA序列進(jìn)行描述,進(jìn)而可以進(jìn)行分類(lèi),在遺傳學(xué)、醫(yī)學(xué)等領(lǐng)域廣泛應(yīng)用。此種方法的優(yōu)點(diǎn)是計(jì)算簡(jiǎn)單且速度較快,對(duì)大量數(shù)據(jù)的處理非常方便且準(zhǔn)確率較高。

1 平均互信息AMI

對(duì)隨機(jī)變量M,事件m的自信息定義為:

其中p(m)是事件m發(fā)生的概率,自信息I(m)是事件m發(fā)生的可能性的一種度量,表示事件M=m發(fā)生時(shí),事件m所含有的所能提供的信息量。

對(duì)隨機(jī)變量M和N,M的事件m與N的事件n之間的互信息定義為:

其中表示在事件n發(fā)生的概率下m發(fā)生的條件概率。

根據(jù)上述公式,可以定義基因序列的平均互信息(AMI):

其中為4種核苷酸A、C、G、T的集合,如果固定X在基因序列上的某一位置,則Y為X下游方向間隔k個(gè)位置的核苷酸。和是核苷酸為X和Y的概率。其中表示前一個(gè)核苷酸為X,下游方向間隔k個(gè)位置為Y的組合的個(gè)數(shù),這樣就表示X和Y間隔為k的聯(lián)合分布概率。當(dāng)k=0時(shí),就表示了緊鄰二聯(lián)體核苷酸的概率,k=1時(shí)表示次緊鄰二聯(lián)體核苷酸的分布率[1]。

[2]就是基因序列的AMI,不同的k值對(duì)應(yīng)不同的,對(duì)于每一個(gè)基因組,我們都能夠得到一組向量,不同的基因序列,則可以得到不同的向量。

2 相關(guān)系數(shù)

在該文中我們選擇的是pearson相關(guān)系數(shù),又稱(chēng)為線性相關(guān)系數(shù),它能反映兩個(gè)數(shù)據(jù)集之間的線性相關(guān)程度。

令為兩個(gè)向量和的Pearson相關(guān)系數(shù),和代表的AMI各有k個(gè)分量(,,…,)和(,,…, )。

這是一個(gè)范圍在[-1,+1]之間的數(shù)值,若相關(guān)系數(shù)為+1,表示兩個(gè)數(shù)據(jù)集合之間呈現(xiàn)完美的正線性相關(guān);若相關(guān)系數(shù)為-1,則表示量數(shù)據(jù)集之間是負(fù)線性相關(guān);若相關(guān)系數(shù)為0,則表示兩組數(shù)據(jù)之間沒(méi)有線性相關(guān)性。

3 距離計(jì)算

根據(jù)相關(guān)系數(shù),我們定義兩種基因的AMI之間的距離為:

通過(guò)計(jì)算的距離可以看出各個(gè)物種與自己的距離為0,與其他物種的距離則根據(jù)進(jìn)化關(guān)系的遠(yuǎn)近而不同。

4 聚類(lèi)分析

通過(guò)計(jì)算不同物種兩兩之間的AMI距離,可以得到一個(gè)距離矩陣。對(duì)于這個(gè)距離,該文選用“ward”法即離差平方和方法進(jìn)行聚類(lèi)[3]。

5 K值選擇

對(duì)于不同的基因組,首先提取各自序列的AMI的值,對(duì)于k值大小的選取,通過(guò)反復(fù)計(jì)算,認(rèn)為取0到500是比較合適的。這樣每種基因組就得到一個(gè)向量,共有501個(gè)分量。對(duì)于不同基因組的AMI向量,計(jì)算相關(guān)系數(shù)得到距離,兩兩相比較距離得到一個(gè)距離矩陣,對(duì)距離矩陣通過(guò)ward法聚類(lèi),最后得到結(jié)果。

6 具體應(yīng)用

通過(guò)此種方法,可以很方便地對(duì)各類(lèi)DNA序列進(jìn)行分類(lèi)和研究。該課題研究者對(duì)64種脊椎動(dòng)物線粒體DNA繪制了生物進(jìn)化樹(shù),進(jìn)行分類(lèi)進(jìn)而構(gòu)建它們之間的進(jìn)化關(guān)系的應(yīng)用。

參考文獻(xiàn)

[1] Yuan Zhi fa,Zhou Jing yu,Guo Man cai,et al.Gene Diversity and Shannon Information Entropy.Animal[A]Biotechnology Bulletin,8(1):353-358.