卷積神經(jīng)網(wǎng)絡(luò)的算法范文

時(shí)間:2024-04-02 18:03:30

導(dǎo)語(yǔ):如何才能寫(xiě)好一篇卷積神經(jīng)網(wǎng)絡(luò)的算法,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。

卷積神經(jīng)網(wǎng)絡(luò)的算法

篇1

關(guān)鍵詞:樹(shù)葉識(shí)別;支持向量機(jī);卷積神經(jīng)網(wǎng)絡(luò)

中圖分類(lèi)號(hào) TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)10-0194-03

Abstract: In this paper, the convolution neural network recognition in the leaves, and the process by convolution of image visualization. Experiments show that the neural network application identification convolution leaves a 92% recognition rate. In addition , this neural network and support vector machine comparative study can be drawn from the study , convolutional neural network in either speed or accuracy better than support vector machines, visible, convolution neural network in the leaves aspect has good application prospects.

Key words recognition leaves; SVM; convolutional neural network

1 概述

樹(shù)葉識(shí)別與分類(lèi)在對(duì)于區(qū)分樹(shù)葉的種類(lèi),探索樹(shù)葉的起源,對(duì)于人類(lèi)自身發(fā)展、科普具有特別重要的意義。目前的樹(shù)葉識(shí)別與分類(lèi)主要由人完成,但,樹(shù)葉種類(lèi)成千上萬(wàn)種,面對(duì)如此龐大的樹(shù)葉世界,任何一個(gè)植物學(xué)家都不可能知道所有,樹(shù)葉的種類(lèi),這給進(jìn)一步研究樹(shù)葉帶來(lái)了困難。為了解決這一問(wèn)題,一些模式識(shí)別方法諸如支持向量機(jī)(Support Vector Machine,SVM)[1],K最近鄰(k-NearestNeighbor, KNN)[2]等被引入,然而,隨著大數(shù)據(jù)時(shí)代的到來(lái),這些傳統(tǒng)分類(lèi)算法暴露出越來(lái)越多的不足,如訓(xùn)練時(shí)間過(guò)長(zhǎng)、特征不易提取等不足。

上世紀(jì)60年代開(kāi)始,學(xué)者們相繼提出了各種人工神經(jīng)網(wǎng)絡(luò)[3]模型,其中卷積神經(jīng)網(wǎng)絡(luò)由于其對(duì)幾何、形變、光照具有一定程度的不變形,因此被廣泛應(yīng)用于圖像領(lǐng)域。其主要特點(diǎn)有:1)輸入圖像不需要預(yù)處理;2)特征提取和識(shí)別可以同時(shí)進(jìn)行;3)權(quán)值共享,大大減少了需要訓(xùn)練的參數(shù)數(shù)目,是訓(xùn)練變得更快,適應(yīng)性更強(qiáng)。

卷積神經(jīng)網(wǎng)絡(luò)在國(guó)內(nèi)研究才剛剛起步。LeNet-5[4]就是一種卷積神經(jīng)網(wǎng)絡(luò),最初用于手寫(xiě)數(shù)字識(shí)別,本文研究將卷積神經(jīng)網(wǎng)絡(luò)LeNet-5模型改進(jìn)并應(yīng)用于樹(shù)葉識(shí)別中。本文首先介紹一下卷積神經(jīng)網(wǎng)絡(luò)和LeNet-5的結(jié)構(gòu),進(jìn)而將其應(yīng)用于樹(shù)葉識(shí)別,設(shè)計(jì)了實(shí)驗(yàn)方案,用卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)的模式識(shí)別算法支持向量機(jī)(SVM)進(jìn)行比較,得出了相關(guān)結(jié)論,并對(duì)進(jìn)一步研究工作進(jìn)行了展望。

2人工神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)方面的研究很早就已開(kāi)展,現(xiàn)在的人工神經(jīng)網(wǎng)絡(luò)已經(jīng)發(fā)展成了多領(lǐng)域、多學(xué)科交叉的獨(dú)立的研究領(lǐng)域。神經(jīng)網(wǎng)絡(luò)中最基本的單元是神經(jīng)元模型。類(lèi)比生物神經(jīng)元,當(dāng)它“興奮”時(shí),就會(huì)向相連的神經(jīng)元發(fā)送化學(xué)物質(zhì),從而改變這些神經(jīng)元的狀態(tài)。人工神經(jīng)元模型如圖1所示:

上述就是一個(gè)簡(jiǎn)單的神經(jīng)元模型。在這個(gè)模型中,神經(jīng)元接收來(lái)自n個(gè)其他神經(jīng)元傳遞過(guò)來(lái)的輸入信號(hào),這些信號(hào)通過(guò)帶權(quán)重的w進(jìn)行傳遞,神經(jīng)元接收到的總輸入值將與神經(jīng)元的閾值進(jìn)行比較,然后通過(guò)“激活函數(shù)”來(lái)產(chǎn)生輸出。

一般采用的激活函數(shù)是Sigmoid函數(shù),如式1所示:

[σz=11+e-z] (1)

該函數(shù)圖像圖2所示:

2.1多層神經(jīng)網(wǎng)絡(luò)

將上述的神經(jīng)元按一定的層次結(jié)構(gòu)連接起來(lái),就得到了如圖3所示的多層神經(jīng)網(wǎng)絡(luò):

多層神經(jīng)網(wǎng)絡(luò)具有輸入層,隱藏層和輸出層。由于每一層之間都是全連接,因此每一層的權(quán)重對(duì)整個(gè)網(wǎng)絡(luò)的影響都是特別重要的。在這個(gè)網(wǎng)絡(luò)中,采用的訓(xùn)練算法是隨機(jī)梯度下降算法[5],由于每一層之間都是全連接,當(dāng)訓(xùn)練樣本特別大的時(shí)候,訓(xùn)練需要的時(shí)間就會(huì)大大增加,由此提出了另一種神經(jīng)網(wǎng)絡(luò)―卷積神經(jīng)網(wǎng)絡(luò)。

2.2卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)(CNN)由于在圖像分類(lèi)任務(wù)上取得了非常好的表現(xiàn)而備受人們關(guān)注。發(fā)展到今天,CNN在深度學(xué)習(xí)領(lǐng)域已經(jīng)成為了一種非常重要的人工神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)的核心在于通過(guò)建立很多的特征提取層一層一層地從圖片像素中找出關(guān)系并抽象出來(lái),從而達(dá)到分類(lèi)的目的,CNN方面比較成熟的是LeNet-5模型,如圖4所示:

在該LeNet-5模型中,一共有6層。如上圖所示,網(wǎng)絡(luò)輸入是一個(gè)28x28的圖像,輸出的是其識(shí)別的結(jié)果。卷積神經(jīng)網(wǎng)絡(luò)通過(guò)多個(gè)“卷積層”和“采樣層”對(duì)輸入信號(hào)進(jìn)行處理,然后在連接層中實(shí)現(xiàn)與輸出目標(biāo)之間的映射,通過(guò)每一層卷積濾波器提取輸入的特征。例如,LeNet-5中第一個(gè)卷積層由4個(gè)特征映射構(gòu)成,每個(gè)特征映射是一個(gè)24x24的神經(jīng)元陣列。采樣層是基于對(duì)卷積后的“平面”進(jìn)行采樣,如圖所示,在第一個(gè)采樣層中又4的12x12的特征映射,其中每個(gè)神經(jīng)元與上一層中對(duì)應(yīng)的特征映射的2x2鄰域相連接,并計(jì)算輸出。可見(jiàn),這種局部相關(guān)性的特征提取,由于都是連接著相同的連接權(quán),從而大幅度減少了需要訓(xùn)練的參數(shù)數(shù)目[6]。

3實(shí)驗(yàn)研究

為了將LeNet-5卷積網(wǎng)絡(luò)用于樹(shù)葉識(shí)別并檢驗(yàn)其性能,本文收集了8類(lèi)樹(shù)葉的圖片,每一類(lèi)有40張照片,如圖5所示的一張樹(shù)葉樣本:

本文在此基礎(chǔ)上改進(jìn)了模型,使用了如圖6卷積神經(jīng)網(wǎng)絡(luò)模型:

在此模型中,第一個(gè)卷積層是由6個(gè)特征映射構(gòu)成,每個(gè)特征映射是一個(gè)28*28的神經(jīng)元陣列,其中每個(gè)神經(jīng)元負(fù)責(zé)從5*5的區(qū)域通過(guò)卷積濾波器提取局部特征,在這里我們進(jìn)行了可視化分析,如圖7所示:

從圖中可以明顯地看出,卷積網(wǎng)絡(luò)可以很好地提取樹(shù)葉的特征。為了驗(yàn)證卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)分類(lèi)算法之間的性能,本文基于Python語(yǔ)言,CUDA并行計(jì)算平臺(tái),訓(xùn)練同樣大小8類(lèi),一共320張的一批訓(xùn)練樣本,采用交叉驗(yàn)證的方法,得到了如表1所示的結(jié)論。

可見(jiàn),無(wú)論是識(shí)別率上,還是訓(xùn)練時(shí)間上,卷積網(wǎng)絡(luò)較傳統(tǒng)的支持向量機(jī)算法體現(xiàn)出更好地分類(lèi)性能。

4 總結(jié)

本文從人工神經(jīng)網(wǎng)絡(luò)出發(fā),重點(diǎn)介紹了卷積神經(jīng)網(wǎng)絡(luò)模型LeNet-5在樹(shù)葉識(shí)別上的各種研究并提取了特征且進(jìn)行了可視化,并與傳統(tǒng)分類(lèi)算法SVM進(jìn)行比較。研究表明,該模型應(yīng)用在樹(shù)葉識(shí)別上較傳統(tǒng)分類(lèi)算法取得了較好的結(jié)果,對(duì)收集的樹(shù)葉達(dá)到了92%的準(zhǔn)確率,并大大減少了訓(xùn)練所需要的時(shí)間。由于卷積神經(jīng)網(wǎng)絡(luò)有如此的優(yōu)點(diǎn),因此在人臉識(shí)別、語(yǔ)音識(shí)別、醫(yī)療識(shí)別、犯罪識(shí)別方面具有很廣泛的應(yīng)用前景。

本文的研究可以歸納為探討了卷積神經(jīng)網(wǎng)絡(luò)在樹(shù)葉識(shí)別上的效果,并對(duì)比了傳統(tǒng)經(jīng)典圖像分類(lèi)算法,取得了較好的分類(lèi)精度。

然而,本文進(jìn)行實(shí)驗(yàn)的樣本過(guò)少,當(dāng)數(shù)據(jù)集過(guò)多的時(shí)候,這個(gè)卷積神經(jīng)網(wǎng)絡(luò)算法的可行性有待我們進(jìn)一步的研究;另外,最近這幾年,又有很多不同的卷積神經(jīng)網(wǎng)絡(luò)模型出現(xiàn),我們會(huì)繼續(xù)試驗(yàn)其他的神經(jīng)網(wǎng)絡(luò)模型,力求找到更好的分類(lèi)算法來(lái)解決樹(shù)葉識(shí)別的問(wèn)題。

參考文獻(xiàn):

[1]Bell A, Sejnowski T. An Information-Maximization Approach to Blind Separation and Blind Deconvolution[J]. Neural Computation, 1995, 7(6):1129-59.

[2]Altman N S. An Introduction to Kernel and Nearest-Neighbor Nonparametric Regression[J]. American Statistician, 1992, 46(3):175-185.

[3]Ripley B D, Hjort N L. Pattern Recognition and Neural Networks[M]. Pattern recognition and neural networks. Cambridge University Press,, 1996:233-234.

[4]Lécun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.

篇2

關(guān)鍵詞關(guān)鍵詞:人臉識(shí)別;卷積神經(jīng)網(wǎng)絡(luò);圖像識(shí)別;深度學(xué)習(xí);模式識(shí)別

DOIDOI:10.11907/rjdk.171043

中圖分類(lèi)號(hào):TP317.4

文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2017)005018603

0引言

人臉識(shí)別是近年來(lái)模式識(shí)別、圖像處理、機(jī)器視覺(jué)、神經(jīng)網(wǎng)絡(luò)及認(rèn)知科學(xué)領(lǐng)域的研究熱點(diǎn)[12]。所謂人臉識(shí)別,是指給定一個(gè)靜態(tài)人臉圖像或動(dòng)態(tài)視頻,利用存儲(chǔ)有若干已知身份的人臉數(shù)據(jù)庫(kù)驗(yàn)證單個(gè)或多個(gè)人的身份[1]。作為生物特征識(shí)別的一個(gè)重要方面,人臉識(shí)別有著廣泛的應(yīng)用場(chǎng)景,如:檔案管理系統(tǒng)、公安系統(tǒng)的犯罪身份識(shí)別、銀行和海關(guān)的監(jiān)控、安全驗(yàn)證系統(tǒng)、信用卡驗(yàn)證等領(lǐng)域。在人臉識(shí)別巨大魅力的影響下,國(guó)內(nèi)互聯(lián)網(wǎng)公司也開(kāi)始了人臉識(shí)別應(yīng)用的探索,如百度推出的人臉考勤系統(tǒng)、阿里支付寶的刷臉登錄等功能都是人臉識(shí)別的具體應(yīng)用。目前,人臉識(shí)別的代表性方法主要有以下幾種:Turk和Pentland[3]提出的特征臉(Eigenface)方法;基于線性區(qū)別分析,Belhumeur 等[4]提出了Fisherface方法;基于統(tǒng)計(jì)理論,劍橋大學(xué)的 Samaria和Fallside[5]提出了隱馬爾科夫模型[5](HMM),Lawrence 等[6]提出的通過(guò)多級(jí)自組織映射神經(jīng)網(wǎng)絡(luò)(SOM)[6]與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合進(jìn)行人臉識(shí)別。上述方法雖然獲得了良好的識(shí)別正確率,但需要人工參與特征提取,然后將提取的特征送入分類(lèi)器進(jìn)行識(shí)別,過(guò)程較為復(fù)雜。

卷積神經(jīng)網(wǎng)絡(luò)[79]是近年發(fā)展起來(lái),并引起廣泛重視的一種高效深度學(xué)習(xí)識(shí)別算法,其已成為當(dāng)前語(yǔ)音分析和圖像處理領(lǐng)域的研究熱點(diǎn)。相比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)而言,卷積神經(jīng)網(wǎng)絡(luò)具有權(quán)值共享、局部感知的優(yōu)點(diǎn)。局部感知的網(wǎng)絡(luò)結(jié)構(gòu)使其更接近于生物神經(jīng)網(wǎng)絡(luò),權(quán)值共享大大減少了模型學(xué)習(xí)參數(shù)的個(gè)數(shù),同時(shí)降低了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性。在圖像處理領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)體現(xiàn)得更為突出,多維的圖像數(shù)據(jù)可以直接作為網(wǎng)絡(luò)的輸入,特征提取和分類(lèi)均集成在網(wǎng)絡(luò)中,避免了傳統(tǒng)識(shí)別算法中復(fù)雜的特征提取和訓(xùn)練分類(lèi)器過(guò)程。除此之外,卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像中的位移、比例縮放、旋轉(zhuǎn)、傾斜或其它形式的變形具有很好的魯棒性。為了解決傳統(tǒng)人臉識(shí)別算法特征提取和訓(xùn)練分類(lèi)器困難的問(wèn)題,本文借鑒Lenet-5[10]的結(jié)構(gòu),設(shè)計(jì)一個(gè)適合ORL數(shù)據(jù)集人臉識(shí)別任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

1卷積神經(jīng)網(wǎng)絡(luò)

1.1用于ORL人臉識(shí)別的CNN

本文提出的7層卷積神經(jīng)網(wǎng)絡(luò)模型由輸入層、2個(gè)卷積層、2個(gè)降采樣層、一個(gè)全連接層和一個(gè)Sigmoid輸出層組成。卷積核的大小均為5×5,降采樣層Pooling區(qū)域的大小為2×2,采用Average Pooling(相鄰小區(qū)域之間無(wú)重疊),激活函數(shù)均采用Sigmoid函數(shù)。每一個(gè)卷積層或降采樣層由多個(gè)特征圖組成,每個(gè)特征圖有多個(gè)神經(jīng)元,上層的輸出作為下一層的輸入。此外,本文實(shí)驗(yàn)學(xué)習(xí)率的取值為常數(shù)1.5,該卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

1.2卷積層

卷積神經(jīng)網(wǎng)絡(luò)中的卷積層一般稱(chēng)C層[11](特征提取層)。卷積層的輸入來(lái)源于輸入層或者采樣層。卷積層中的每一個(gè)特征圖都對(duì)應(yīng)一個(gè)大小相同的卷積核,卷積層的每一個(gè)特征圖是不同的卷積核在前一層輸入的特征圖上作卷積,然后將對(duì)應(yīng)元素累加后加一個(gè)偏置,最后通過(guò)激活函數(shù)得到。假設(shè)第l層榫砘層,則該層中第j個(gè)特征圖的計(jì)算表達(dá)式如式(1)。

xlj=f(∑i∈Mjxl-1iklij+blj)(1)

這里的Mj表示選擇的上一層輸出特征圖的集合。

1.3降采樣層

降采樣層是對(duì)上一層的特征圖進(jìn)行下采樣處理,處理方式是在每一個(gè)特征圖內(nèi)部的相鄰小區(qū)域進(jìn)行聚合統(tǒng)計(jì)。常見(jiàn)的下采樣方式有兩種:Average Pooling和Max Pooling。其中,Average Pooling是取小區(qū)域內(nèi)像素的平均值,而Max Pooling是取小區(qū)域內(nèi)像素的最大值。降采樣層只是對(duì)輸入的特征圖進(jìn)行降維處理,不改變特征圖的個(gè)數(shù)。假設(shè)down表示下采樣操作,βlj表示乘性偏置,blj表示加性偏置,則降采樣層中某個(gè)特征圖的計(jì)算表達(dá)式如下:

xlj=f(βljdown(xl-1j)+blj)(2)

1.4輸出層

卷積神經(jīng)網(wǎng)絡(luò)的輸出層一般為分類(lèi)器層,常用的有徑向基(RBF)函數(shù)輸出單元、Sigmoid輸出單元和Softmax回歸分類(lèi)器。在ORL人臉識(shí)別任務(wù)中,采用Sigmoid函數(shù)輸出單元,輸出層的編碼采用非分布編碼“one-of-c”的方式。由于采用Sigmoid函數(shù),每一個(gè)單元輸出值是0-1范圍內(nèi)的一個(gè)正數(shù),代表該樣本屬于該單元對(duì)應(yīng)類(lèi)別的概率。數(shù)值最大的那個(gè)單元即為樣本的預(yù)測(cè)類(lèi)別。假設(shè)x為全連接層的輸出,則輸出層輸出結(jié)果的計(jì)算表達(dá)式如下:

y=f(wTx+b)(3)

其中,f表示激活函數(shù),這里采用Sigmoid函數(shù),Sigmoid函數(shù)表達(dá)式如下:

f(x)=11+e-x(4)

2實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)在Windows7 64位下的Matlab 2014a中進(jìn)行,采用Matlab深度學(xué)習(xí)工具箱DeepLearnToolbox。PC的內(nèi)存8G,CPU主頻為3.2GHZ。

ORL人臉數(shù)據(jù)集是在1992年至1994年之間由AT &T Cambridge實(shí)驗(yàn)室拍攝的人臉圖像所構(gòu)成。數(shù)據(jù)集中包含40個(gè)不同人物的臉部圖像,每個(gè)人物包含10張圖像,總共400張。每個(gè)類(lèi)別中的臉部圖像在不同的時(shí)間拍攝得到,存在如下差異:①光線;②面部表情,如眼睛的閉合和睜開(kāi)狀態(tài),面部是否帶有微笑的表情等;③一些面部細(xì)節(jié)上的差異,如是否佩戴眼鏡等。該數(shù)據(jù)集中所有人臉圖像均為灰度圖像,且圖像中人物面部朝向基本一致,都朝向正前方。

圖2為ORL數(shù)據(jù)集中部分人臉圖像。數(shù)據(jù)集中每個(gè)原始圖像大小為92*112像素,本文實(shí)驗(yàn)中對(duì)這些圖像進(jìn)行預(yù)處理,使每一幅圖像的尺寸調(diào)整為28*28,并對(duì)每一副圖像進(jìn)行歸一化處理,這里采用簡(jiǎn)單的除255的方式。隨機(jī)選取每一個(gè)類(lèi)別的8張圖像作為訓(xùn)練樣本,剩下的2張作為測(cè)試樣本。因此,訓(xùn)練集有320個(gè)樣本,測(cè)試集有80個(gè)樣本。

2.1改變C3層卷積核個(gè)數(shù)對(duì)網(wǎng)絡(luò)的影響

卷積神經(jīng)網(wǎng)絡(luò)性能的好壞與卷積層卷積核的個(gè)數(shù)密切相關(guān),但每一個(gè)卷積層應(yīng)該設(shè)置多少個(gè)卷積濾波器,目前并沒(méi)有數(shù)學(xué)理論指導(dǎo)。為了研究卷積核個(gè)數(shù)對(duì)網(wǎng)絡(luò)最終識(shí)別準(zhǔn)確率的影響,本文保持C1層卷積核個(gè)數(shù)不變,通過(guò)改變C3層卷積核的個(gè)數(shù),形成新的網(wǎng)絡(luò)結(jié)構(gòu),用訓(xùn)練集訓(xùn)練網(wǎng)絡(luò),訓(xùn)練迭代次數(shù)均為60次,然后用測(cè)試集對(duì)每一種網(wǎng)絡(luò)結(jié)構(gòu)的性能進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果如表1所示。

從表1可以看出,當(dāng)C3層有10個(gè)卷積核時(shí),網(wǎng)絡(luò)模型對(duì)測(cè)試集的識(shí)別正確率最高。卷積核的個(gè)數(shù)與識(shí)別準(zhǔn)確率并不成正比關(guān)系,當(dāng)卷積核個(gè)數(shù)過(guò)多時(shí),網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率會(huì)下降,這是因?yàn)樵诰矸e核個(gè)數(shù)增加的同時(shí),需要學(xué)習(xí)的參數(shù)也隨之增加,而數(shù)據(jù)集中訓(xùn)練樣本的規(guī)模較小,已不能滿足學(xué)習(xí)的要求。

2.2改變C1層卷積核個(gè)數(shù)對(duì)網(wǎng)絡(luò)的影響

由上述實(shí)驗(yàn)結(jié)果可知,C3層卷積核個(gè)數(shù)為10時(shí),網(wǎng)絡(luò)識(shí)別效果最好。因此,為了研究卷積層C1層卷積核個(gè)數(shù)對(duì)識(shí)別準(zhǔn)確率的影響, C3層保留10個(gè)卷積核,改變C1層卷積核的個(gè)數(shù)構(gòu)造新的網(wǎng)絡(luò)結(jié)構(gòu),用測(cè)試集針對(duì)不同網(wǎng)絡(luò)結(jié)構(gòu)就測(cè)試集和訓(xùn)練集的識(shí)別準(zhǔn)確率進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果如表2所示。

從表2的實(shí)驗(yàn)結(jié)果可以得到相同結(jié)論:卷積層卷積核的個(gè)數(shù)并非越多越好,卷積核個(gè)數(shù)過(guò)多,網(wǎng)絡(luò)需要學(xué)習(xí)的參數(shù)也隨之增加,當(dāng)訓(xùn)練集中樣本個(gè)數(shù)無(wú)法滿足學(xué)習(xí)需要時(shí),網(wǎng)絡(luò)識(shí)別準(zhǔn)確率就會(huì)下降。

2.3與其它算法比較

為進(jìn)一步說(shuō)明本文所提卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的有效性和優(yōu)越性,將該結(jié)構(gòu)(C1層6個(gè)卷積核,C3層10個(gè)卷積核,學(xué)習(xí)率1.5)的實(shí)驗(yàn)結(jié)果與其它識(shí)別方法在ORL數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,結(jié)果如表3所示??梢钥闯觯疚乃岱椒ū菶igface、ICA的識(shí)別效果好,與2DPCA方法的識(shí)別準(zhǔn)確率一樣,比FisherFace方法的識(shí)別準(zhǔn)確率只低了0.20%,這進(jìn)一步證實(shí)了本文所提網(wǎng)絡(luò)結(jié)構(gòu)的有效性。

3結(jié)語(yǔ)

本文在理解Lenet-5結(jié)構(gòu)的基礎(chǔ)上,提出一種適用于ORL人臉數(shù)據(jù)集的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明,本文提出的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),不僅避免了復(fù)雜的顯式特征提取過(guò)程,在ORL數(shù)據(jù)集上獲得98.30%的識(shí)別正確率,而且比大多數(shù)傳統(tǒng)人臉識(shí)別算法的效果都好。此外,本文還通過(guò)大量驗(yàn)就每個(gè)卷積層卷積核個(gè)數(shù)對(duì)網(wǎng)絡(luò)識(shí)別準(zhǔn)確率的影響進(jìn)行了詳細(xì)研究與分析,這對(duì)設(shè)計(jì)CNN網(wǎng)絡(luò)結(jié)構(gòu)具有一定的參考意義。

參考文獻(xiàn)參考文獻(xiàn):

[1]李武軍,王崇駿,張煒,等.人臉識(shí)別研究綜述[J].模式識(shí)別與人工智能,2006,19(1):5866.

[2]張翠平,蘇光大.人臉識(shí)別技術(shù)綜述[J].中國(guó)圖象圖形學(xué)報(bào),2000,5(11):885894.

[3]YANG M H.Face recognition using kernel methods[J].Nips,2002(2):14571464.

[4]祝秀萍,吳學(xué)毅,劉文峰.人臉識(shí)別綜述與展望[J].計(jì)算機(jī)與信息技術(shù),2008(4):5356.

[5]SAMARIA F,YOUNG S.HMMbased architecture for face identification[J].Image and Vision Computing,1994,12(8):537543.

[6]LAWRENCE S,GILES C L,TSOI A C.Convolutional neural networks for face recognition[C].Proceedings CVPR'96,1996 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,1996:217222.

[7]陳耀丹,王連明.基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別方法[J].東北師范大學(xué)學(xué)報(bào):自然科學(xué)版,2016,48(2):7076.

[8]盧官明,何嘉利,閆靜杰,等.一種用于人臉表情識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)[J].南京郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2016,36(1):1622.

[9]李彥冬,郝宗波,雷航.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)應(yīng)用,2016,36(9):25082515.

[10]LCUN Y,BOTTOU L,BENGIO Y,et al.Gradientbased learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):22782324.

篇3

【關(guān)鍵詞】壓縮緊鄰 字符識(shí)別 正確率

1 研究背景

樣本選擇是從原有的樣本集中某一種選擇方式來(lái)選出樣本子集,是一個(gè)能加快數(shù)據(jù)處理效率,可以節(jié)省存儲(chǔ)資源并且保證不降低分類(lèi)性能的可靠方法。樣本選擇和特征選擇在某些方面上有相似之處,一般都是與具體分類(lèi)預(yù)測(cè)方法相關(guān)聯(lián)。字符識(shí)別是模式識(shí)別中一類(lèi)熱門(mén)的研究問(wèn)題,本文將利用樣本選擇方法結(jié)合深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行字符識(shí)別。

2 加權(quán)壓縮近鄰方法

基于壓縮近鄰的樣本選擇方法具有擁有降低存儲(chǔ)、縮短運(yùn)算等特點(diǎn)。郝紅衛(wèi)等人在此基礎(chǔ)上提出了加權(quán)壓縮近鄰規(guī)則,針對(duì)那些未被選中的邊緣樣本,可以重復(fù)數(shù)次對(duì)壓縮近鄰的過(guò)程,從而確保樣本數(shù)據(jù)均能夠被選上。對(duì)于中心樣本也能被保留的問(wèn)題,通過(guò)對(duì)樣本加權(quán)評(píng)估、再次選擇的方式來(lái)解決。在選擇的過(guò)程中可以根據(jù)實(shí)驗(yàn)需要進(jìn)行樣本數(shù)量進(jìn)行控制,稱(chēng)之為加權(quán)壓縮近鄰規(guī)則(Weighted Condensed Nearest Neighbor)。

該算法是通過(guò)壓縮近鄰規(guī)則過(guò)程的循環(huán)保證子集P中有足夠多的邊界樣本,但是其中仍存在大量的冗余,我們依據(jù)投票的原則對(duì)子集P中樣本的代表性進(jìn)行評(píng)估并且再次選擇。其具體過(guò)程是對(duì)于U中的每個(gè)樣本x找出P中距離最接近的樣本xi,如果x和xi的類(lèi)別是相同的,那么投xi一票。樣本獲得的票數(shù)最高,說(shuō)明它最具有代表性。根據(jù)投票的實(shí)際情況和樣本的數(shù)量來(lái)得到最終的子集A。用加權(quán)壓縮近鄰規(guī)則獲得的子集比壓縮近鄰規(guī)則得到的子集包含更少的冗余樣本和更多的具有代表性樣本,同時(shí)還可以根據(jù)實(shí)驗(yàn)來(lái)控制子集中所含有的樣本數(shù)。

3 實(shí)驗(yàn)結(jié)果與分析

本次實(shí)驗(yàn)分別使用MNIST和USPS手寫(xiě)體識(shí)別庫(kù)作為訓(xùn)練和測(cè)試樣本集。

實(shí)驗(yàn)平臺(tái)采用英特爾酷睿i5-4430CPU 3.00GHz,8GB內(nèi)存,Windows10操作系統(tǒng),Matlab R2010b。我們?cè)O(shè)定隨機(jī)選擇和壓縮近鄰選取MNIST中樣本數(shù)目為6600個(gè),樣本壓縮比為10%,USPS庫(kù)中選取樣本數(shù)目為1767個(gè),樣本壓縮比為20.34%。設(shè)置深度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練次數(shù)設(shè)為100次。

算法給出了基于壓縮近鄰和BP神經(jīng)網(wǎng)絡(luò)手寫(xiě)體字符識(shí)別結(jié)果。通過(guò)融合壓縮近鄰規(guī)則選取樣本和BP神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn),在訓(xùn)練時(shí)間上雖然沒(méi)有融合隨機(jī)選取樣本和深度卷積網(wǎng)絡(luò)實(shí)驗(yàn)短,但是在時(shí)間上并沒(méi)有很大幅度延長(zhǎng)。在實(shí)驗(yàn)的識(shí)別錯(cuò)誤率上,MNIST庫(kù)中比隨機(jī)選擇實(shí)驗(yàn)提升了1.52%,分類(lèi)效果提升明顯。可見(jiàn)壓縮近鄰方法可以選擇到更好的代表性樣本。這兩組數(shù)據(jù)依然說(shuō)明了壓縮近鄰對(duì)樣本選擇的可靠性。表1給出了基于壓縮近鄰和卷積神經(jīng)網(wǎng)絡(luò)的手寫(xiě)體字符識(shí)別結(jié)果。

4 總結(jié)

本文主要介紹了基于壓縮近鄰的樣本選擇方法。樣本選擇的提出是為了有效減少樣本數(shù)量,并且保證不降低訓(xùn)練精確度。在實(shí)驗(yàn)中進(jìn)行驗(yàn)證,通過(guò)壓縮近鄰規(guī)則選取樣本和深度卷積神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn),證明其能夠減少訓(xùn)練樣本,提升訓(xùn)練速度,降低存儲(chǔ)空間還可以提高識(shí)別正確率。

參考文獻(xiàn)

[1]郝紅衛(wèi),蔣蓉蓉.基于最近鄰規(guī)則的神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本選擇方法[J].自動(dòng)化學(xué)報(bào),2007,33(12):1247-1251.

[2]姜文瀚.模式識(shí)別中的樣本選擇研究及其應(yīng)用[D].南京理工大學(xué),2008.

[3]余凱,賈磊,陳雨強(qiáng).深度學(xué)習(xí)的昨天、今天和明天[J].計(jì)算機(jī)研究與發(fā)展,2013,50(09):1799-1804.

篇4

【關(guān)鍵詞】圖像識(shí)別;數(shù)學(xué)建模;分類(lèi)算法;深度學(xué)習(xí)

引言

隨著微電子技術(shù)及計(jì)算機(jī)技術(shù)的蓬勃發(fā)展,圖像識(shí)別應(yīng)運(yùn)而生,圖像識(shí)別是研究用計(jì)算機(jī)代替人們自動(dòng)地去處理大量的物理信息,從而代替人的腦力勞動(dòng)。隨著計(jì)算機(jī)處理能力的不斷強(qiáng)大,圖像識(shí)別從最早的文字識(shí)別、數(shù)字識(shí)別逐漸發(fā)展到人臉識(shí)別、物體識(shí)別、場(chǎng)景識(shí)別、精細(xì)目標(biāo)識(shí)別等,所采用的技術(shù)也從最早的模板匹配、線性分類(lèi)到廣泛使用的深層神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)分類(lèi)等方法。

1.圖像識(shí)別中的數(shù)學(xué)問(wèn)題建模

1.1飛行器降落圖像智能識(shí)別建模

在復(fù)雜地形環(huán)境下,飛行器進(jìn)行下降過(guò)程,需要采集圖像并且判斷是否符合降落要求。在對(duì)飛行器進(jìn)行最終落地點(diǎn)的選擇時(shí),如果降落點(diǎn)復(fù)雜程度較高,采集的圖像中將會(huì)產(chǎn)生大量的訓(xùn)練樣本數(shù)目,圖像配準(zhǔn)過(guò)程中,極大地增加了運(yùn)算量,造成最佳降落點(diǎn)選擇的準(zhǔn)確率降低。提出了利用圖像智能識(shí)別進(jìn)行最佳降落點(diǎn)的建模。利用偽Zemike矩能夠?qū)德潼c(diǎn)的圖像形狀進(jìn)行準(zhǔn)確的描述,利用Procrustes形狀分析法提取最佳降落點(diǎn)的特征,利用Rank的融合決策法最終實(shí)現(xiàn)最佳降落點(diǎn)選擇的目的。

1.2人臉面部表情圖像識(shí)別的隱馬爾科夫建模

人有喜怒哀樂(lè),目前有一種利用隱馬爾科夫模型的建模方法,可以實(shí)現(xiàn)對(duì)人臉表情中的情感進(jìn)行識(shí)別。具體的是:首先,采用子窗口對(duì)人臉面部表情圖像進(jìn)行采樣,然后利用離散余弦變換提取所需要的特征向量,通過(guò)對(duì)人臉面部圖像進(jìn)行隱馬爾科夫建模,使用獲得的特征向量作為觀測(cè)向量對(duì)人臉面部圖像的隱馬爾科夫模型進(jìn)行訓(xùn)練,再使用訓(xùn)練后的隱馬爾科夫模型對(duì)JAFFE人臉圖像測(cè)試集中地人臉表情圖像進(jìn)行情感識(shí)別。

2.典型的圖像識(shí)別算法

2.1 基于Gabor變換和極限學(xué)習(xí)機(jī)的貝類(lèi)圖像種類(lèi)識(shí)別

對(duì)貝類(lèi)圖像進(jìn)行Gabor變換,提取其圖像特征,確定了圖像特征維數(shù);采用2DPCA方法,對(duì)變換后的特征進(jìn)行降維,并利用極限學(xué)習(xí)機(jī)(ELM)進(jìn)行貝類(lèi)圖像的分類(lèi)識(shí)別。與BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)(SVM)實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),極限學(xué)習(xí)機(jī)分類(lèi)器用于貝類(lèi)識(shí)別不僅速度極快而且泛化性良好,算法具有較高的精度。其特點(diǎn)對(duì)高維圖像識(shí)別精確度高,但算法的復(fù)雜度和設(shè)計(jì)一個(gè)精確的分類(lèi)器都顯得難以把握。因此該類(lèi)圖像識(shí)別算法很難普遍推廣使用,識(shí)別對(duì)象必須是貝類(lèi)圖像。

2.2 利用公開(kāi)的全極化SAR數(shù)據(jù),研究基于SAR圖像的檢測(cè)、極化分解和識(shí)別算法

首先根據(jù)四個(gè)線極化通道合成偽彩色圖像,從而對(duì)場(chǎng)景進(jìn)行初步認(rèn)知。利用一維距離像分析全極化各通道的信噪比強(qiáng)度,通過(guò)對(duì)目標(biāo)進(jìn)行Pauli分解得到目標(biāo)的奇次散射分量和偶次散射分量,從而完成對(duì)海雜波、建筑物和艦船的相干分量的研究。其特點(diǎn)過(guò)程簡(jiǎn)單易掌握,但識(shí)別對(duì)象有限。

2.3 基于SVM的離線圖像目標(biāo)分類(lèi)算法

基于SVM的離線圖像目標(biāo)分類(lèi)算法,先對(duì)訓(xùn)練集預(yù)處理,然后將處理后的圖像進(jìn)行梯度直方圖提取最后對(duì)圖像目標(biāo)的分離器進(jìn)行檢測(cè),但是這種圖像識(shí)別算法只是有效,實(shí)用性不強(qiáng)。

3.深度學(xué)習(xí)在圖像識(shí)別的應(yīng)用

3.1 Deep learning的原理

深度學(xué)習(xí)是一種模擬人腦的思考方式,通過(guò)建立類(lèi)似人腦的神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)數(shù)據(jù)的分析,即按照人類(lèi)的思維做出先關(guān)解釋?zhuān)纬煞奖闳藗兝斫獾膱D像、文字或者聲音。深度學(xué)習(xí)的重點(diǎn)是對(duì)模型的運(yùn)用,模型中需要的參數(shù)是通過(guò)對(duì)大量數(shù)據(jù)的學(xué)習(xí)和分析中得到的。

深度學(xué)習(xí)有兩種類(lèi)型:有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。學(xué)習(xí)模型根據(jù)學(xué)習(xí)框架的類(lèi)型來(lái)確定。比如,卷積神經(jīng)網(wǎng)絡(luò)就是一種深度的監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型,而深度置信網(wǎng)就是一種無(wú)監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型。

3.2 深度學(xué)習(xí)的典型應(yīng)用

深度學(xué)習(xí)是如今計(jì)算機(jī)領(lǐng)域中的一個(gè)奪人眼球的技術(shù)。而在深度學(xué)習(xí)的模型中研究熱度最高的是卷積神經(jīng)網(wǎng)絡(luò),它是一種能夠?qū)崿F(xiàn)大量圖像識(shí)別任務(wù)的技術(shù)。卷積神經(jīng)網(wǎng)絡(luò)的核心思想是局部感受野、權(quán)值共享以及時(shí)間或空間亞采集。通常卷及神經(jīng)網(wǎng)絡(luò)使用最后一層全連接隱層的值作為對(duì)輸入樣本所提出的特征,通過(guò)外部數(shù)據(jù)進(jìn)行的有監(jiān)督學(xué)習(xí),從而可以保證所得的特征具有較好的對(duì)類(lèi)內(nèi)變化的不變性。

3.2.1基于深度學(xué)習(xí)特征的人臉識(shí)別方法。

卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別領(lǐng)域取得了較大突破,為了更加有效的解決復(fù)雜類(lèi)內(nèi)變化條件下的小樣本人臉識(shí)別問(wèn)題,使用深度學(xué)習(xí)的方法來(lái)提取特征,與基于稀疏表示的方法結(jié)合起來(lái),實(shí)驗(yàn)證明了深度學(xué)習(xí)所得的人臉特征具有很好的子空間特性,而且具有可遷移性以及對(duì)類(lèi)內(nèi)變化的不變性。

3.2.2基于深度學(xué)習(xí)的盲文識(shí)別方法。

目前盲文識(shí)別系統(tǒng)存在識(shí)別率不高、圖片預(yù)處理較為復(fù)雜等問(wèn)題。針對(duì)這些問(wèn)題,利用深度模型堆疊去噪編碼器自動(dòng)、全面學(xué)習(xí)樣本深層次特征,避免人為手工選取特征存在的多種弊端,并用學(xué)習(xí)的特征作為神經(jīng)網(wǎng)絡(luò)的輸入,更大程度地避免了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)由于隨機(jī)選取初值而導(dǎo)致結(jié)果陷入局部極值的問(wèn)題。

3.2.3基于深度學(xué)習(xí)的手繪草圖識(shí)別。

目前的手繪草圖識(shí)別方法存在費(fèi)時(shí)費(fèi)力,較依賴(lài)于手工特征提取等問(wèn)題?;谏疃葘W(xué)習(xí)的手繪草圖識(shí)別方法根據(jù)手繪草圖時(shí)缺失顏色、紋理信息等特點(diǎn),使用大尺寸的首層卷積核獲得更多的空間結(jié)構(gòu)信息,利用訓(xùn)練淺層模型獲得的模型參數(shù)來(lái)初始化深度模型對(duì)應(yīng)層的模型參數(shù),以加快收斂,減少訓(xùn)練時(shí)長(zhǎng),加入不改變特征大小的卷基層來(lái)加深網(wǎng)絡(luò)深度等方法實(shí)現(xiàn)減小錯(cuò)誤率。

4.結(jié)論

圖像識(shí)別是當(dāng)代人工智能的熱門(mén)研究方向,其應(yīng)用領(lǐng)域也是超乎人類(lèi)想象的,相信通過(guò)技術(shù)的不斷創(chuàng)新,圖像識(shí)別技術(shù)會(huì)給人們的生活帶來(lái)智能化、個(gè)性化、全面化的服務(wù)。

參考文獻(xiàn):

[1]穆靜,陳芳,王長(zhǎng)元.人臉面部表情圖像的隱馬爾科夫建模及情感識(shí)別[J].西安:西安工業(yè)大學(xué)學(xué)報(bào),2015(09).

[2]楊靖堯,里紅杰,陶學(xué)恒.基于Gabor變換和極限學(xué)習(xí)機(jī)的貝類(lèi)圖像種類(lèi)識(shí)別[J].大連工業(yè)大學(xué)學(xué)報(bào),2013(04).

[3]馬曉,張番棟,封舉富.基于深度學(xué)習(xí)特征的稀疏表示的人臉識(shí)別方法[J].智能系統(tǒng)學(xué)報(bào),2016(11).

篇5

關(guān)鍵詞:無(wú)人機(jī);STM32;道路檢測(cè);神經(jīng)網(wǎng)絡(luò);模型訓(xùn)練

傳統(tǒng)的道路巡檢和保養(yǎng)主要由人工來(lái)完成,需要投入大量的人力物力來(lái)保證道路的相對(duì)安全,這種方式存在著低效率、高成本且難以保證道路的決定安全[1]。固定式交通檢測(cè)設(shè)備大量設(shè)置在道路的主干路上,也存在著一些缺陷:(1)監(jiān)控?cái)z像頭不能做到全覆蓋且具有一定的探測(cè)盲區(qū)。(2)監(jiān)控系統(tǒng)采用多屏幕方式,工作人員進(jìn)行道路故障判斷時(shí)受限。(3)不能靈活的通知有關(guān)部門(mén)對(duì)事故的快速應(yīng)急處理。為了克服上述的缺點(diǎn),本文設(shè)計(jì)了一種基于卷積神經(jīng)網(wǎng)絡(luò)的無(wú)人機(jī)道路巡檢系統(tǒng),對(duì)發(fā)生故障和需要保養(yǎng)的道路能快速響應(yīng),及時(shí)的通知有關(guān)部門(mén),避免事故的發(fā)生。

1系統(tǒng)的總體設(shè)計(jì)

在無(wú)人機(jī)道路巡檢系統(tǒng)中,我們主要考慮了以下幾個(gè)要求[3]:(1)無(wú)人機(jī)系統(tǒng)能滿足正常的工作;(2)無(wú)人機(jī)系統(tǒng)能適應(yīng)各種天氣和氣候變化等;(3)無(wú)人機(jī)系統(tǒng)應(yīng)充分考慮控制的安全性;(4)視頻流的傳輸應(yīng)避免較長(zhǎng)的延時(shí)。無(wú)人機(jī)道路巡檢系統(tǒng)主要由無(wú)人機(jī)系統(tǒng)設(shè)計(jì)、遠(yuǎn)程控制系統(tǒng)、PC端系統(tǒng)三大部分組成,系統(tǒng)的總體結(jié)構(gòu)框圖如圖1所示。系統(tǒng)的具體工作原理為:無(wú)人機(jī)將道路環(huán)境檢測(cè)的結(jié)果,將處理后的視頻流通過(guò)遠(yuǎn)程傳輸?shù)姆绞?,發(fā)送到PC端進(jìn)行實(shí)時(shí)監(jiān)控道路狀況。遠(yuǎn)程控制系統(tǒng)以STM32作為主控芯片,主要包括在無(wú)人機(jī)端和遙控端兩個(gè)部分,遙控端將控制指令通過(guò)2.4G通信發(fā)送到無(wú)人機(jī)端,此時(shí)無(wú)人機(jī)的做出相應(yīng)的位姿變化,完成遙控端對(duì)無(wú)人機(jī)位姿的控制。無(wú)人機(jī)系統(tǒng)的圖像采集模塊芯片為樹(shù)莓派,完成圖像的采集并采用TCP通信實(shí)現(xiàn)遠(yuǎn)程視頻的傳輸,將獲取的視頻流傳輸?shù)絇C端。PC端上使用OpenCV對(duì)圖像進(jìn)行處理[4],利用深度學(xué)習(xí)模塊對(duì)設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)訓(xùn)練,從而得到檢測(cè)模型,最后在PC上接收處理過(guò)的數(shù)據(jù)并實(shí)時(shí)監(jiān)測(cè)道路狀況。上述工作原理可實(shí)現(xiàn)無(wú)人機(jī)道路巡檢系統(tǒng),下文將對(duì)其包括的三大模塊進(jìn)行說(shuō)明介紹。

2無(wú)人機(jī)系統(tǒng)設(shè)計(jì)

本次使用的是RaspberryPi3(modelB+)作為無(wú)人機(jī)的主控制板[7],無(wú)人機(jī)的飛行控制算法和圖像采集模塊集成在樹(shù)莓派中。遠(yuǎn)程控制系統(tǒng)通過(guò)2.4G無(wú)線通信模塊連接,通過(guò)控制器實(shí)現(xiàn)對(duì)無(wú)人機(jī)飛行和圖像采集的控制。無(wú)人機(jī)系統(tǒng)總體結(jié)構(gòu)如圖2所示。

3PC端系統(tǒng)設(shè)計(jì)

在PC端系統(tǒng)設(shè)計(jì)主要分為圖像預(yù)處理、模型訓(xùn)練和視頻監(jiān)控三大部分,通過(guò)TCP通信協(xié)議進(jìn)行通信,TCP通信是一種面向連接的通信,可完成客戶端(樹(shù)莓派)和服務(wù)端(PC)的信息傳遞[9]。下面主要對(duì)前兩部分詳細(xì)介紹。

3.1圖像預(yù)處理

本系統(tǒng)對(duì)地面裂縫檢測(cè)的圖像預(yù)處理流程如圖3所示具體工作原理為:(1)采用加權(quán)平均灰度化對(duì)獲取的無(wú)人機(jī)影像進(jìn)行灰度化處理;(2)對(duì)灰度化處理后的影像進(jìn)行直方圖均衡化,使得影像具有高對(duì)比度和多元的灰度色調(diào)變化,為后續(xù)的濾波降噪奠定基礎(chǔ);(3)對(duì)處理后的影像進(jìn)行濾波降噪,消除孤立的噪聲點(diǎn),采用方法的是中值濾波降噪;(4)使用迭代二值化處理將影像的灰度值設(shè)置合適的閾值,使得圖像更簡(jiǎn)單,目標(biāo)更突出,然后對(duì)圖像進(jìn)行分割,計(jì)算迭代的閾值,判斷迭代的閾值是否收斂到某一值或者達(dá)到限定的迭代次數(shù),如果是的話,將完成二值化處理和濾波,否則將初始二值化閾值;(5)最終完成道路故障的識(shí)別與標(biāo)記。

3.2模型檢測(cè)

3.2.1卷積神經(jīng)網(wǎng)絡(luò)原理使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練,首先使用卷積層實(shí)現(xiàn)特征的提取,原理如圖4所示。如圖5所示,卷積操作是模仿神經(jīng)元的機(jī)制。不同的輸入在權(quán)重的影響下會(huì)有不同的輸出,根據(jù)損失函數(shù)的計(jì)算來(lái)不斷的更新權(quán)重,直到獲得合理的權(quán)重參數(shù)。初始傳遞的信號(hào)為x,中間通過(guò)權(quán)重w,再經(jīng)過(guò)偏置b后連接在末端,最后輸出信號(hào)變成wx+b。fun(?)表示激活函數(shù),最終f(z為輸出的結(jié)果,如式(1)所示。3.2.2卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程通過(guò)相機(jī)采集到的缺陷和問(wèn)題圖像作為訓(xùn)練樣本,這部分是檢測(cè)道路安全的關(guān)鍵一步,(1)訓(xùn)練標(biāo)記數(shù)據(jù):首先使用圖像預(yù)處理中標(biāo)記好的道路故障提取出來(lái),通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)標(biāo)記框內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行訓(xùn)練;(2)提取特征數(shù)據(jù):將道路故障的類(lèi)型統(tǒng)計(jì)并歸納;(3)誤差反饋學(xué)習(xí):對(duì)測(cè)試樣本進(jìn)行誤差反饋學(xué)習(xí),并進(jìn)行測(cè)試;(4)優(yōu)化訓(xùn)練數(shù)據(jù):根據(jù)實(shí)際應(yīng)用場(chǎng)景增加圖像的種類(lèi)和數(shù)量,不斷訓(xùn)練模型。3.2.3故障的基本分類(lèi)道路故障主要路面缺陷(例如裂縫、殘缺等)和路面增加(例如長(zhǎng)時(shí)間靜止的車(chē)輛和路人),各自訓(xùn)練集數(shù)量為1000張。如表1所示。3.2.4實(shí)驗(yàn)測(cè)試為實(shí)現(xiàn)故障的檢測(cè),測(cè)試數(shù)據(jù)集為100張,不同類(lèi)型故障數(shù)據(jù)50張,均采集自新道路且與訓(xùn)練樣本一致,實(shí)驗(yàn)結(jié)果如表2所示。由表2可知,檢測(cè)路面增加(例如長(zhǎng)時(shí)間靜止的車(chē)輛和路人)的準(zhǔn)確率高達(dá)96%,但是地面缺陷的準(zhǔn)確率相比較而言略低,可能造成的原因是:①硬件原因?qū)е虏杉膱D像清晰度比較低;②地面缺陷太小,無(wú)人機(jī)難以識(shí)別;③訓(xùn)練的數(shù)據(jù)集較少,特征學(xué)習(xí)誤差大;但是滿足了設(shè)計(jì)需求,還需進(jìn)一步改進(jìn)。

4總結(jié)與展望

篇6

在AlphaGo贏得第一局的比賽時(shí),就激起了人們熱烈的討論,因?yàn)楹芏鄰氖氯斯ぶ悄苎芯康摹凹夹g(shù)派”也對(duì)電腦圍棋程序戰(zhàn)勝人類(lèi)棋手沒(méi)有足夠的信心。但第一局的結(jié)果仍然讓人震驚,因?yàn)樵谖鍌€(gè)月前,AlphaGo的棋力水平也只是達(dá)到戰(zhàn)勝職業(yè)二段棋手的程度,人們吃驚的是它的棋藝水平提高的速度。

與20年前深藍(lán)在國(guó)際象棋人機(jī)大戰(zhàn)中戰(zhàn)勝世界冠軍卡斯帕羅夫不同,AlphaGo并非僅僅依賴(lài)強(qiáng)悍的計(jì)算能力和龐大的棋譜數(shù)據(jù)庫(kù)取勝,而是具有深度學(xué)習(xí)的能力,能在實(shí)戰(zhàn)和練習(xí)中不斷學(xué)習(xí)和積累經(jīng)驗(yàn),這已經(jīng)非常類(lèi)似于人類(lèi)棋手的成長(zhǎng)過(guò)程了,不過(guò)它成長(zhǎng)的速度非常之快。

普通大眾會(huì)認(rèn)為,機(jī)器人獲勝是因?yàn)樗鼉?nèi)部存儲(chǔ)有極為豐富的棋譜,以及很多一流棋手的經(jīng)驗(yàn),再配合它強(qiáng)大的邏輯判斷能力,是一群人對(duì)一個(gè)人的戰(zhàn)斗,是機(jī)器計(jì)算對(duì)人腦計(jì)算的碾軋,結(jié)果是必然的。這樣的歸納未免有些草率和簡(jiǎn)單,完全無(wú)視機(jī)器學(xué)習(xí)在程序中的作用。

機(jī)器學(xué)習(xí)(Machine Learning,ML)是一種讓計(jì)算機(jī)在事先沒(méi)有明確的程序的情況下做出正確反應(yīng)的能力,是計(jì)算機(jī)模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身性能的一種方法,是人工智能的核心,也是使計(jì)算機(jī)具有智能的根本途徑。但是它仍然主要是使用歸納、綜合而不是演繹的方式來(lái)進(jìn)行學(xué)習(xí)。

早在1959年,塞繆爾的下棋程序就具有了學(xué)習(xí)能力,能在不斷對(duì)弈中改善自己的棋藝。這個(gè)程序已經(jīng)涉及到了關(guān)于學(xué)習(xí)的令人頭疼的哲學(xué)問(wèn)題,此后就有各種各樣的棋類(lèi)程序誕生,演繹出一個(gè)又一個(gè)電腦程序戰(zhàn)勝人類(lèi)棋手的傳說(shuō),不斷刷新博弈難度的記錄。

而圍棋,因?yàn)槠灞P(pán)的復(fù)雜性(大約10的172次方種狀態(tài),是計(jì)算機(jī)不可能窮盡的天文數(shù)字),則被看作是“人類(lèi)智力的最后防線”,是僅存的人類(lèi)能夠擊敗電腦的完全信息博弈游戲。AlphaGo的獲勝,宣告了機(jī)器學(xué)習(xí)的重大突破。

AlphaGo是一套為圍棋優(yōu)化的深度學(xué)習(xí)引擎,它使用了神經(jīng)網(wǎng)絡(luò)和蒙特卡羅算法,可以讓機(jī)器充分學(xué)習(xí),并能在不斷自我對(duì)決中提升水平。

深度學(xué)習(xí)(Deep Learning)的概念在10年前就已提出,又叫深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks),是機(jī)器學(xué)習(xí)研究中的一個(gè)新領(lǐng)域,通過(guò)建立模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),模仿人腦機(jī)制來(lái)解釋數(shù)據(jù)。深度學(xué)習(xí)提出了一種讓計(jì)算機(jī)自動(dòng)學(xué)習(xí)出模式特征的方法,有深度置信網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等不同的機(jī)器學(xué)習(xí)模型,但都需要大量的并行計(jì)算。非監(jiān)督貪心逐層訓(xùn)練算法可以解決深層結(jié)構(gòu)相關(guān)的優(yōu)化難題,卷積神經(jīng)網(wǎng)絡(luò)可以利用空間相對(duì)關(guān)系減少參數(shù)數(shù)目以提高訓(xùn)練性能,這些特點(diǎn)正適合用于復(fù)雜的博弈程序。

但是,在具有不確定性的對(duì)決中,即使深度學(xué)習(xí)也發(fā)揮不了作用,無(wú)法幫助程序來(lái)確定對(duì)手的狀態(tài)。

篇7

關(guān)鍵詞:人機(jī)大戰(zhàn);人工智能;發(fā)展前景

中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A

0.引言

2016年3月15日,備受矚目的“人機(jī)大戰(zhàn)”終于落下帷幕,最終Google公司開(kāi)發(fā)的“AlphaGo”以4∶1戰(zhàn)勝了韓國(guó)九段棋手李世h。毫無(wú)疑問(wèn),這是人工智能歷史上一個(gè)具有里程碑式的大事件。大家一致認(rèn)為,人工智能已經(jīng)上升到了一個(gè)新的高度。

這次勝利與1997年IBM公司的“深藍(lán)”戰(zhàn)勝?lài)?guó)際象棋世界冠軍卡斯帕羅不同。主要表現(xiàn)在兩個(gè)方面:

(1)AlphaGo的勝利并非僅僅依賴(lài)強(qiáng)悍的計(jì)算能力和龐大的棋譜數(shù)據(jù)庫(kù)取勝,而是AlphaGo已經(jīng)擁有了深度學(xué)習(xí)的能力,能夠?qū)W習(xí)已經(jīng)對(duì)弈過(guò)的棋盤(pán),并在練習(xí)和實(shí)戰(zhàn)中不斷學(xué)習(xí)和積累經(jīng)驗(yàn)。

(2)圍棋比國(guó)際象棋更加復(fù)雜,圍棋棋盤(pán)有361個(gè)點(diǎn),其分支因子無(wú)窮無(wú)盡,19×19格圍棋的合法棋局?jǐn)?shù)的所有可能性是冪為171的指數(shù),這樣的計(jì)算量相當(dāng)巨大。英國(guó)圍棋聯(lián)盟裁判托比表示:“圍棋是世界上最為復(fù)雜的智力游戲,它簡(jiǎn)單的規(guī)則加深了棋局的復(fù)雜性”。因此,進(jìn)入圍棋領(lǐng)域一直被認(rèn)為是目前人工智能的最大挑戰(zhàn)。

簡(jiǎn)而言之,AlphaGo取得勝利的一個(gè)很重要的方面就是它擁有強(qiáng)大的“學(xué)習(xí)”能力。深度學(xué)習(xí)是源于人工神經(jīng)網(wǎng)絡(luò)的研究,得益于大數(shù)據(jù)和互聯(lián)網(wǎng)技術(shù)。本文就從人工智能的發(fā)展歷程與現(xiàn)狀入手,在此基礎(chǔ)上分析了人工智能的未來(lái)發(fā)展前景。

1.人工智能的發(fā)展歷程

AlphaGo的勝利表明,人工智能發(fā)展到今天,已經(jīng)取得了很多卓越的成果。但是,其發(fā)展不是一帆風(fēng)順的,人工智能是一個(gè)不斷進(jìn)步,并且至今仍在取得不斷突破的學(xué)科。回顧人工智能的發(fā)展歷程,可大致分為孕育、形成、暗淡、知識(shí)應(yīng)用和集成發(fā)展五大時(shí)期。

孕育期:1956年以前,數(shù)學(xué)、邏輯、計(jì)算機(jī)等理論和技術(shù)方面的研究為人工智能的出現(xiàn)奠定了基礎(chǔ)。德國(guó)數(shù)學(xué)家和哲學(xué)家萊布尼茨把形式邏輯符號(hào)化,奠定了數(shù)理邏輯的基礎(chǔ)。英國(guó)數(shù)學(xué)家圖靈在1936年創(chuàng)立了自動(dòng)機(jī)理論(亦稱(chēng)圖靈機(jī)),1950年在其著作《計(jì)算機(jī)與智能》中首次提出“機(jī)器也能思維”,被譽(yù)為“人工智能之父”??傊@些人為人工智能的孕育和產(chǎn)生做出了巨大的貢獻(xiàn)。

形成期:1956年夏季,在美國(guó)達(dá)特茅斯大學(xué)舉辦了長(zhǎng)達(dá)2個(gè)多月的研討會(huì),熱烈地討論用機(jī)器模擬人類(lèi)智能的問(wèn)題。該次會(huì)議首次使用了“人工智能”這一術(shù)語(yǔ)。這是人類(lèi)歷史上第一次人工智能研討會(huì),標(biāo)志著人工智能學(xué)科的誕生。其后的十幾年是人工智能的黃金時(shí)期。在接下來(lái)的幾年中,在眾多科學(xué)家的努力下,人工智能取得了矚目的突破,也在當(dāng)時(shí)形成了廣泛的樂(lè)觀思潮。

暗淡期:20世紀(jì)70年代初,即使最杰出的AI程序也只能解決問(wèn)題中最簡(jiǎn)單的部分,發(fā)展遇到瓶頸也就是說(shuō)所有的AI程序都只是“玩具”,無(wú)法解決更為復(fù)雜的問(wèn)題。隨著AI遭遇批評(píng),對(duì)AI提供資助的機(jī)構(gòu)也逐漸停止了部分AI的資助。資金上的困難使得AI的研究方向縮窄,缺少了以往的自由探索。

知識(shí)應(yīng)用期:在80年代,“專(zhuān)家系統(tǒng)”(Expect System)成為了人工智能中一個(gè)非常主流的分支。“專(zhuān)家系統(tǒng)”是一種程序,為計(jì)算機(jī)提供特定領(lǐng)域的專(zhuān)門(mén)知識(shí)和經(jīng)驗(yàn),計(jì)算機(jī)就能夠依據(jù)一組從專(zhuān)門(mén)知識(shí)中推演出的邏輯規(guī)則在某一特定領(lǐng)域回答或解決問(wèn)題。不同領(lǐng)域的專(zhuān)家系統(tǒng)基本都是由知識(shí)庫(kù)、數(shù)據(jù)庫(kù)、推理機(jī)、解釋機(jī)制、知識(shí)獲取等部分組成。

集成發(fā)展期:得益于互聯(lián)網(wǎng)的蓬勃發(fā)展、計(jì)算機(jī)性能的突飛猛進(jìn)、分布式系統(tǒng)的廣泛應(yīng)用以及人工智能多分支的協(xié)同發(fā)展,人工智能在這一階段飛速發(fā)展。尤其是隨著深度學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)研究的不斷深入,人工智能在近幾十年中取得了長(zhǎng)足的進(jìn)步,取得了令人矚目的成就。

人工智能發(fā)展到今天,出現(xiàn)了很多令人矚目的研究成果。AlphaGo的勝利就是基于這些研究成果的一個(gè)里程碑。當(dāng)前人工智能的研究熱點(diǎn)主要集中在自然語(yǔ)言處理、機(jī)器學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)等領(lǐng)域。

2.人工智能l展現(xiàn)狀與前景

人工智能當(dāng)前有很多重要的研究領(lǐng)域和分支。目前,越來(lái)越多的AI項(xiàng)目依賴(lài)于分布式系統(tǒng),而當(dāng)前研究的普遍熱點(diǎn)則集中于自然語(yǔ)言處理、機(jī)器學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)等領(lǐng)域。

自然語(yǔ)言處理:自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱(chēng)NLP),是語(yǔ)言學(xué)與人工智能的交叉學(xué)科,其主要功能就是實(shí)現(xiàn)讓機(jī)器明白人類(lèi)的語(yǔ)言,這需要將人類(lèi)的自然語(yǔ)言轉(zhuǎn)化為計(jì)算機(jī)能夠處理的機(jī)器語(yǔ)言。

自然語(yǔ)言處理主要包括詞法分析、句法分析和語(yǔ)義分析三大部分。詞法分析的核心就是分詞處理,即單詞的邊界處理。句法分析就是對(duì)自然語(yǔ)言中句子的結(jié)構(gòu)、語(yǔ)法進(jìn)行分析如辨別疑問(wèn)句和感嘆句等。而語(yǔ)義分析則注重情感分析和整個(gè)段落的上下文分析,辨別一些字詞在不同的上下文定的語(yǔ)義和情感態(tài)度。

當(dāng)前自然語(yǔ)言的處理主要有兩大方向。一種是基于句法-語(yǔ)義規(guī)則的理性主義理論,該理論認(rèn)為需要為計(jì)算機(jī)制定一系列的規(guī)則,計(jì)算機(jī)在規(guī)則下進(jìn)行推理與判斷。因此其技術(shù)路線是一系列的人為的語(yǔ)料建設(shè)與規(guī)則制定。第二種是基于統(tǒng)計(jì)學(xué)習(xí)的經(jīng)驗(yàn)主義理論,這種理論在最近受到普遍推崇。該理論讓計(jì)算機(jī)自己通過(guò)學(xué)習(xí)并進(jìn)行統(tǒng)計(jì)推斷的方式不停地從數(shù)據(jù)中“學(xué)習(xí)”語(yǔ)言,試圖刻畫(huà)真實(shí)世界的語(yǔ)言現(xiàn)象,從數(shù)據(jù)中統(tǒng)計(jì)語(yǔ)言的規(guī)律。

機(jī)器學(xué)習(xí):機(jī)器學(xué)習(xí)(Machine Learning)是近20年來(lái)興起的人工智能一大重要領(lǐng)域。其主要是指通過(guò)讓計(jì)算機(jī)在數(shù)據(jù)中自動(dòng)分析獲得規(guī)律,從而獲取“自我學(xué)習(xí)”的能力,并利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行判斷和預(yù)測(cè)的方法。

機(jī)器學(xué)致可以分為有監(jiān)督的學(xué)習(xí)和無(wú)監(jiān)督的學(xué)習(xí)。有監(jiān)督的學(xué)習(xí)是從給定的訓(xùn)練數(shù)據(jù)集中練出一個(gè)函數(shù)和目標(biāo),當(dāng)有新的數(shù)據(jù)到來(lái)時(shí),可以由訓(xùn)練得到函數(shù)預(yù)測(cè)目標(biāo)。有監(jiān)督的學(xué)習(xí)要求訓(xùn)練集同時(shí)有輸入和輸出,也就是所謂的特征和目標(biāo)。而依據(jù)預(yù)測(cè)的結(jié)果是離散的還是連續(xù)的,將有監(jiān)督的學(xué)習(xí)分為兩大問(wèn)題,即統(tǒng)計(jì)分類(lèi)問(wèn)題和回歸分析問(wèn)題。統(tǒng)計(jì)分類(lèi)的預(yù)測(cè)結(jié)果是離散的,如腫瘤是良性還是惡性等;而回歸分析問(wèn)題目標(biāo)是連續(xù)的,如天氣、股價(jià)等的預(yù)測(cè)。

無(wú)監(jiān)督學(xué)習(xí)的訓(xùn)練集則沒(méi)有人為標(biāo)注的結(jié)果,這就需要計(jì)算機(jī)去發(fā)現(xiàn)數(shù)據(jù)間的聯(lián)系并用來(lái)分類(lèi)等。一種常見(jiàn)的無(wú)監(jiān)督學(xué)習(xí)是聚類(lèi)分析(Cluster Analysis),它是將相似的對(duì)象通過(guò)靜態(tài)分類(lèi)的方法分成不同的組別或者是特定的子集,讓同一個(gè)子集中的數(shù)據(jù)對(duì)象都有一些相似的屬性,比較常用的聚類(lèi)方法是簡(jiǎn)潔并快速的“K-均值”聚類(lèi)算法。它基于K個(gè)中心并對(duì)距離這些中心最近的數(shù)據(jù)對(duì)象進(jìn)行分類(lèi)。

機(jī)器學(xué)習(xí)還包括如半監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)等類(lèi)別??偠灾瑱C(jī)器學(xué)習(xí)是研究如何使用機(jī)器來(lái)模擬人類(lèi)學(xué)習(xí)活動(dòng)的一門(mén)學(xué)科,而其應(yīng)用隨著人工智能研究領(lǐng)域的深入也變得越來(lái)越廣泛,如模式識(shí)別、計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、推薦算法等領(lǐng)域越來(lái)越廣泛地應(yīng)用到了機(jī)器學(xué)習(xí)中。

人工神經(jīng)網(wǎng)絡(luò):在腦神經(jīng)科學(xué)領(lǐng)域,人們認(rèn)為人類(lèi)的意識(shí)及智能行為,都是通過(guò)巨大的神經(jīng)網(wǎng)絡(luò)傳遞的,每個(gè)神經(jīng)細(xì)胞通過(guò)突出與其他神經(jīng)細(xì)胞連接,當(dāng)通過(guò)突觸的信號(hào)強(qiáng)度超過(guò)某個(gè)閾值時(shí),神經(jīng)細(xì)胞便會(huì)進(jìn)入激活狀態(tài),向所連接的神經(jīng)細(xì)胞一層層傳遞信號(hào)。于1943年提出的基于生物神經(jīng)元的M-P模型的主要思想就是將神經(jīng)元抽象為一個(gè)多輸入單輸出的信息處理單元,并通過(guò)傳遞函數(shù)f對(duì)輸入x1,x2…,xn進(jìn)行處理并模擬神經(jīng)細(xì)胞的激活模式。主要的傳遞函數(shù)有階躍型、線性型和S型。

在此基礎(chǔ)上,對(duì)神經(jīng)網(wǎng)絡(luò)算法的研究又有諸多進(jìn)展。日本的福島教授于1983年基于視覺(jué)認(rèn)知模型提出了卷積神經(jīng)網(wǎng)絡(luò)計(jì)算模型。通過(guò)學(xué)習(xí)訓(xùn)練獲取到卷積運(yùn)算中所使用的卷積系數(shù),并通過(guò)不同層次與自由度的變化,可以得到較為優(yōu)化的計(jì)算結(jié)果。而AlphaGo也正是采用了這種深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)模型,提高了AlphaGo的視覺(jué)分類(lèi)能力,也就是所謂的“棋感”,增強(qiáng)了其對(duì)全盤(pán)決策和把握的能力。

3.人工智能的發(fā)展前景

總體來(lái)看,人工智能的應(yīng)用經(jīng)歷了博弈、感知、決策和反饋這幾個(gè)里程碑。在以上4個(gè)領(lǐng)域中,既是縱向發(fā)展的過(guò)程,也是橫向不斷改進(jìn)的過(guò)程。

人工智能在博弈階段,主要是實(shí)現(xiàn)邏輯推理等功能,隨著計(jì)算機(jī)處理能力的進(jìn)步以及深度學(xué)習(xí)等算法的改進(jìn),機(jī)器擁有了越來(lái)越強(qiáng)的邏輯與對(duì)弈能力。在感知領(lǐng)域,隨著自然語(yǔ)言處理的進(jìn)步,機(jī)器已經(jīng)基本能對(duì)人類(lèi)的語(yǔ)音與語(yǔ)言進(jìn)行感知,并且能夠已經(jīng)對(duì)現(xiàn)實(shí)世界進(jìn)行視覺(jué)上的感知?;诖髷?shù)據(jù)的處理和機(jī)器學(xué)習(xí)的發(fā)展,機(jī)器已經(jīng)能夠?qū)χ車(chē)沫h(huán)境進(jìn)行認(rèn)知,例如微軟的Kinect就能夠準(zhǔn)確的對(duì)人的肢體動(dòng)作進(jìn)行判斷。該領(lǐng)域的主要實(shí)現(xiàn)還包括蘋(píng)果的Siri,谷歌大腦以及無(wú)人駕駛汽車(chē)中的各種傳感器等。在以上兩個(gè)階段的基礎(chǔ)上,機(jī)器擁有了一定的決策和反饋的能力。無(wú)人駕駛汽車(chē)的蓬勃發(fā)展就是這兩個(gè)里程碑很好的例證。Google的無(wú)人駕駛汽車(chē)通過(guò)各種傳感器對(duì)周?chē)沫h(huán)境進(jìn)行感知并處理人類(lèi)的語(yǔ)言等指令,利用所收集的信息進(jìn)行最后的決策,比如操作方向盤(pán)、剎車(chē)等。

人工智能已經(jīng)滲透到生活中的各個(gè)領(lǐng)域。機(jī)器已經(jīng)能識(shí)別語(yǔ)音、人臉以及視頻內(nèi)容等,從而實(shí)現(xiàn)各種人際交互的場(chǎng)景。在醫(yī)學(xué)領(lǐng)域,人工智能可以實(shí)現(xiàn)自動(dòng)讀片和輔助診斷以及個(gè)性化t療和基因排序等功能。在教育領(lǐng)域,機(jī)器也承擔(dān)了越來(lái)越多的輔助教育,智能交互的功能。在交通領(lǐng)域,一方面無(wú)人車(chē)的發(fā)展表明無(wú)人駕駛是一個(gè)可以期待的未來(lái),另一方面人工智能能夠帶來(lái)更加通暢和智能的交通。另外人工智能在安防、金融等領(lǐng)域也有非常廣闊的發(fā)展前景??傊?,人工智能在一些具有重復(fù)性的和具備簡(jiǎn)單決策的領(lǐng)域已經(jīng)是一種非常重要的工具,用來(lái)幫助人們解決問(wèn)題,創(chuàng)造價(jià)值。

參考文獻(xiàn)

[1]阮曉東.從AlphaGo的勝利看人工智能的未來(lái)[J].新經(jīng)濟(jì)導(dǎo)刊,2016 (6):69-74.

篇8

人工智能、大數(shù)據(jù)、光纖網(wǎng)絡(luò)等技術(shù)的發(fā)展和改進(jìn),人類(lèi)社會(huì)已經(jīng)進(jìn)入到了“互聯(lián)網(wǎng)+”時(shí)代,有力的促進(jìn)了信息化系統(tǒng)的普及和使用,比如證券交易所開(kāi)發(fā)了結(jié)算交易系統(tǒng),政府機(jī)關(guān)開(kāi)發(fā)了電子政務(wù)系統(tǒng),旅游景區(qū)開(kāi)發(fā)了旅游住宿管理系統(tǒng)等,提高了行業(yè)智能化、自動(dòng)化和共享化水平?;ヂ?lián)網(wǎng)雖然為人們帶來(lái)了極大的方便,提高了各行業(yè)的信息化水平,但是其也面臨著海量的安全攻擊威脅,比如數(shù)以萬(wàn)計(jì)的病毒或木馬,都給互聯(lián)網(wǎng)的應(yīng)用帶來(lái)了極大的障礙。目前,網(wǎng)絡(luò)中流行的攻擊包括病毒木馬、DDOS攻擊等,這些病毒木馬常常發(fā)生各類(lèi)型的變異,比如2018年初爆發(fā)的勒索病毒,攻擊了很多政企單位的服務(wù)器,導(dǎo)致終端操作系統(tǒng)無(wú)法登錄和訪問(wèn),傳統(tǒng)的防火墻、殺毒軟件等網(wǎng)絡(luò)安全防御軟件已經(jīng)無(wú)法滿足需求,需要引入大數(shù)據(jù)技術(shù),以便能夠?qū)⒈粍?dòng)防御技術(shù)改進(jìn)為主動(dòng)防御技術(shù),及時(shí)的查處網(wǎng)絡(luò)中的病毒或木馬,從而可以提高互聯(lián)網(wǎng)防御水平。

1.網(wǎng)絡(luò)安全防御現(xiàn)狀研究

網(wǎng)絡(luò)安全防御經(jīng)過(guò)多年的研究,已經(jīng)吸引了很多的學(xué)者和企業(yè)開(kāi)發(fā)先進(jìn)的防御技術(shù),比如360安全衛(wèi)士、訪問(wèn)控制列表、防火墻等,同時(shí)還提出了一些更加先進(jìn)的深度包過(guò)濾和自治網(wǎng)絡(luò)等防御技術(shù),這些技術(shù)均由許多的網(wǎng)絡(luò)安全防御學(xué)者、專(zhuān)家和企業(yè)進(jìn)行研究提出,已經(jīng)在網(wǎng)絡(luò)中部署喝應(yīng)用,一定程度上提高了網(wǎng)絡(luò)防御水平。(1)防火墻防火墻是一種部署于因特網(wǎng)和局域網(wǎng)之間防御工具,其類(lèi)似一個(gè)過(guò)濾器,可以不熟一些過(guò)濾規(guī)則,從而可以讓正常的數(shù)據(jù)通過(guò)防火墻,也可以阻止攜帶病毒或木馬的數(shù)據(jù)通過(guò)防火墻,防火墻經(jīng)過(guò)多年的部署,已經(jīng)誕生了數(shù)據(jù)庫(kù)防火墻、網(wǎng)絡(luò)防火墻、服務(wù)器防火墻等,使用枚舉規(guī)則禁止查看每一個(gè)協(xié)議是否正常,能夠防御一定的病毒或木馬。(2)殺毒軟件殺毒軟件也是一個(gè)非常關(guān)鍵的程序代碼,可以在殺毒軟件系統(tǒng)的服務(wù)器中保存檢測(cè)出的病毒或木馬基因特征片段,將這些片段可以與網(wǎng)絡(luò)中的數(shù)據(jù)信息進(jìn)行匹配,從而可以查找網(wǎng)絡(luò)中的病毒或木馬,及時(shí)的將其從網(wǎng)絡(luò)中清除。殺毒軟件為了能夠準(zhǔn)確的識(shí)別病毒,目前引入了許多的先進(jìn)技術(shù),這些技術(shù)包括脫殼技術(shù)、自我保護(hù)技術(shù)等,同時(shí)目前也吸引了更多的網(wǎng)絡(luò)安全防御公司研究殺毒軟件,最為著名的軟件廠商包括360、瑞星、江民、卡巴斯基等,同時(shí)騰訊公司、搜狗公司也開(kāi)發(fā)了自己的安全管理技術(shù),大大的提高網(wǎng)絡(luò)防御能力。(3)訪問(wèn)控制列表訪問(wèn)控制列表是一個(gè)易于配置、安裝簡(jiǎn)單和管理容易的網(wǎng)絡(luò)安全防御工具,設(shè)置了黑白兩個(gè)關(guān)鍵名單,白名單收錄了安全數(shù)據(jù)源IP地址,黑名單收錄了非法的數(shù)據(jù)源IP地址。訪問(wèn)控制列表已經(jīng)可以在四個(gè)層次配置防御策略,分別是目錄及控制級(jí)、入網(wǎng)訪問(wèn)控制級(jí)、屬性控制級(jí)和權(quán)限控制級(jí)。訪問(wèn)控制列表級(jí)別越高訪問(wèn)性能越好,但是工作效率非常慢,不能夠?qū)崟r(shí)升級(jí)訪問(wèn)控制列表,因此應(yīng)用的場(chǎng)所比較簡(jiǎn)單,一般都是不重要的中小學(xué)實(shí)驗(yàn)室等,許多大型政企單位都不用這個(gè)防御措施。(4)深度包過(guò)濾深度包過(guò)濾能夠嵌入到硬件中形成一個(gè)固件,這樣就可以快速的采集網(wǎng)絡(luò)中的數(shù)據(jù),然后利用深度包過(guò)濾的枚舉檢查規(guī)則,不僅檢查數(shù)據(jù)包的頭部IP地址、目的IP地址,還檢查數(shù)據(jù)包中的內(nèi)容,以便能夠深入到數(shù)據(jù)包內(nèi)部檢查是否存在病毒或木馬,一旦發(fā)現(xiàn)就可以啟動(dòng)防御軟件。深度包過(guò)濾可以實(shí)施穿透式檢查規(guī)則,分析每一個(gè)協(xié)議字段,深入到內(nèi)部檢查的更加詳細(xì)和全面,從而避免病毒或木馬隱藏在數(shù)據(jù)包內(nèi)部,因此深度包過(guò)濾已經(jīng)在很多領(lǐng)域得到應(yīng)用,比如阿里云、騰訊云、百度云等都采用了這些技術(shù),許多的政企單位也采用了深度包過(guò)濾技術(shù),進(jìn)一步提高了數(shù)據(jù)防御水平。(5)自治網(wǎng)絡(luò)自治網(wǎng)絡(luò)作為一種先進(jìn)的互聯(lián)網(wǎng)安全防御技術(shù),其采用了自動(dòng)愈合的建設(shè)理念,在網(wǎng)絡(luò)中構(gòu)建了一個(gè)冗余策略,一旦網(wǎng)絡(luò)受到病毒或木馬的攻擊,此時(shí)自治網(wǎng)絡(luò)就可以將這些一部分網(wǎng)絡(luò)設(shè)備隔離,同時(shí)形成一個(gè)新傳輸通道為網(wǎng)絡(luò)設(shè)備提供連接,知道數(shù)據(jù)修復(fù)完畢之后才能夠?qū)⑦@些網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)納入到網(wǎng)絡(luò)中。自治網(wǎng)絡(luò)可以實(shí)現(xiàn)自我防御,也可以調(diào)動(dòng)網(wǎng)絡(luò)信息安全的許多的資源,將網(wǎng)絡(luò)病毒導(dǎo)入備用服務(wù)器,此時(shí)就可以殺滅這些病毒。

2.基于大數(shù)據(jù)的網(wǎng)絡(luò)安全防御系統(tǒng)設(shè)計(jì)

網(wǎng)絡(luò)安全防御系統(tǒng)集成了很多先進(jìn)的技術(shù),尤其是快速的數(shù)據(jù)采集和大數(shù)據(jù)分析技術(shù),能夠?qū)鹘y(tǒng)的被動(dòng)網(wǎng)絡(luò)安全防御模式轉(zhuǎn)變?yōu)橹鲃?dòng),提高網(wǎng)絡(luò)安全防御性能。本文結(jié)合傳統(tǒng)的網(wǎng)絡(luò)安全防御功能及引入的大數(shù)據(jù)技術(shù),給出了網(wǎng)絡(luò)安全防御系統(tǒng)的主要功能,這些功能包括四個(gè)關(guān)鍵方面,分別是數(shù)據(jù)采集功能、大數(shù)據(jù)圖1基于大數(shù)據(jù)的網(wǎng)絡(luò)安全防御系統(tǒng)功能分析功能、網(wǎng)絡(luò)安全防御功能和防御效果評(píng)估功能。(1)網(wǎng)絡(luò)數(shù)據(jù)采集功能目前,人們已經(jīng)進(jìn)入到了“互聯(lián)網(wǎng)+”時(shí)代,網(wǎng)絡(luò)部署的軟硬件資源非常多,訪問(wèn)的用戶頻次數(shù)以億計(jì),因此網(wǎng)絡(luò)安全防御首先需要構(gòu)建一個(gè)強(qiáng)大的數(shù)據(jù)采集功能,可以及時(shí)的采集網(wǎng)絡(luò)中的軟硬件數(shù)據(jù)資源,將這些網(wǎng)絡(luò)數(shù)據(jù)發(fā)送給大數(shù)據(jù)分析功能。網(wǎng)絡(luò)數(shù)據(jù)采集過(guò)程中可以引入深度包過(guò)濾功能,利用這個(gè)深度包過(guò)濾可以快速的采集網(wǎng)絡(luò)數(shù)據(jù),提高網(wǎng)絡(luò)數(shù)據(jù)采集速度。(2)大數(shù)據(jù)分析和處理功能網(wǎng)絡(luò)數(shù)據(jù)采集完畢之后,系統(tǒng)將數(shù)據(jù)發(fā)送給大數(shù)據(jù)分析和處理模塊,該模塊中包含了很多的病毒基因片段或特征,可以針對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行智能分析,將預(yù)處理后的網(wǎng)絡(luò)數(shù)據(jù)與學(xué)習(xí)到的特征進(jìn)行對(duì)比,以便能夠發(fā)現(xiàn)這些數(shù)據(jù)信息中是否潛藏著木馬或病毒,發(fā)現(xiàn)之后及時(shí)的將其發(fā)送給安全防御模塊。(3)網(wǎng)絡(luò)安全防御功能網(wǎng)絡(luò)安全防御與傳統(tǒng)的防御技術(shù)一致,采用木馬或病毒查殺軟件,因此一旦發(fā)現(xiàn)網(wǎng)絡(luò)中存在病毒或木馬,此時(shí)就可以啟動(dòng)網(wǎng)絡(luò)安全防御工具,及時(shí)的將網(wǎng)絡(luò)中的病毒或木馬殺滅,并且可以跟蹤病毒或木馬來(lái)源,從而可以鎖定源頭服務(wù)器,將源頭清除掉。如果源頭涉及到犯罪就可以獲取這些證據(jù),同時(shí)將這些證據(jù)發(fā)送給公安機(jī)關(guān)進(jìn)行偵破。(4)防御效果評(píng)估功能網(wǎng)絡(luò)安全防御功能完成之后,系統(tǒng)可以針對(duì)處理效果進(jìn)行評(píng)估,從而可以獲取網(wǎng)絡(luò)系統(tǒng)中的殺毒信息,將這些網(wǎng)絡(luò)病毒消滅,避免網(wǎng)絡(luò)中的病毒或木馬復(fù)發(fā)。網(wǎng)絡(luò)安全防御效果評(píng)估之后,還可以跟蹤大數(shù)據(jù)分析的準(zhǔn)確度,一旦準(zhǔn)確度降低就可以及時(shí)進(jìn)行學(xué)習(xí),從而提高網(wǎng)絡(luò)安全防御性能。大數(shù)據(jù)是一種非常關(guān)鍵的數(shù)據(jù)處理和分析技術(shù),可以利用多種算法,比如BP神經(jīng)網(wǎng)絡(luò)算法、支持向量機(jī)、深度學(xué)習(xí)、K-means算法等挖掘數(shù)據(jù)中潛在的知識(shí),這些知識(shí)對(duì)人們是有價(jià)值的,能夠幫助人們進(jìn)行決策。本文為了能夠更好的展示互聯(lián)網(wǎng)應(yīng)用性能,重點(diǎn)描述了深度學(xué)習(xí)算法分析互聯(lián)網(wǎng)安全數(shù)據(jù)過(guò)程。深度學(xué)習(xí)算法是一種多層次的卷積神經(jīng)網(wǎng)絡(luò),包括兩個(gè)非常關(guān)鍵的層次結(jié)構(gòu),一個(gè)是卷積層稱(chēng)為病毒數(shù)據(jù)特征提取層,一個(gè)卷積層為病毒數(shù)據(jù)特征映射層,可以識(shí)別病毒數(shù)據(jù)中的特征數(shù)據(jù),同時(shí)將池化層進(jìn)行處理,壓縮和處理池化層數(shù)據(jù)信息,比如進(jìn)行預(yù)處理、二值化等,刪除病毒數(shù)據(jù)中的一些明顯的噪聲特征。池化層可以將海量的病毒數(shù)據(jù)進(jìn)行壓縮,減少卷積神經(jīng)網(wǎng)絡(luò)分析時(shí)設(shè)置的參數(shù),解決卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)和訓(xùn)練時(shí)容易產(chǎn)生的過(guò)度擬合問(wèn)題,避免病毒識(shí)別模型陷入到一個(gè)過(guò)度擬合狀態(tài),避免無(wú)法提高病毒識(shí)別能力,還會(huì)提升病毒識(shí)別處理開(kāi)銷(xiāo)。全連接層就是一個(gè)關(guān)鍵分類(lèi)器,可以將學(xué)習(xí)到的病毒知識(shí)標(biāo)記到一個(gè)特征空間,這樣就可以提高病毒識(shí)別結(jié)果的可解釋性。卷積神經(jīng)網(wǎng)絡(luò)通過(guò)學(xué)習(xí)和訓(xùn)練之后,其可以形成一個(gè)動(dòng)態(tài)優(yōu)化的網(wǎng)絡(luò)結(jié)構(gòu),這個(gè)結(jié)構(gòu)可以在一定時(shí)期內(nèi)保持不變,能夠?qū)崿F(xiàn)病毒特征的識(shí)別、分析,為病毒識(shí)別提供一個(gè)準(zhǔn)確的結(jié)果。

篇9

關(guān)鍵詞:邊緣檢測(cè);邊緣;梯度算子

中圖分類(lèi)號(hào):TP391

邊緣檢測(cè)是圖像處理中最基本最經(jīng)典的技術(shù)問(wèn)題之一,它對(duì)于圖像分析和圖像理解有著重要作用。因此,邊緣檢測(cè)在模式識(shí)別等高層次圖像處理領(lǐng)域有著重要的地位。然而由于圖像前期處理過(guò)程中的失誤易造成圖像的模糊和變形使得邊緣檢測(cè)很困難,這就要求研究性能更好的邊緣檢測(cè)算子。經(jīng)過(guò)多年的發(fā)展,到現(xiàn)在算法已有成百上千種。

邊緣為圖像中灰度發(fā)生急劇變化的區(qū)域邊界,兩個(gè)具有不同灰度值的相鄰區(qū)域之間總存在著邊緣,可以利用微分運(yùn)算方便地檢測(cè)到。人們提出了用圖像灰度分布的梯度來(lái)反映圖像灰度變化的微分邊緣算子,如1965年提出的Robert算子[1],在其基礎(chǔ)上改進(jìn)得到的Sobel算子、Prewitt算子和Kirsch算子等。這些算子由于計(jì)算量小和操作簡(jiǎn)單在當(dāng)今使用較多,但易產(chǎn)生較寬的響應(yīng),故需作細(xì)化處理,影響了邊緣定位的精度。因而又產(chǎn)生了與邊緣方向無(wú)關(guān)的二階微分邊緣檢測(cè)算子,即Laplacian算子[2]。它利用圖像強(qiáng)度的二階導(dǎo)數(shù)零交叉點(diǎn)使邊緣的定位更準(zhǔn)確。

近年來(lái)隨著應(yīng)用的需要,傳統(tǒng)方法越來(lái)越難以滿足要求。針對(duì)這種情況,人們提出了許多新的邊緣檢測(cè)方法。這些新的方法利用各種新的理論工具對(duì)圖像進(jìn)行邊緣檢測(cè),例如基于數(shù)學(xué)形態(tài)學(xué)的檢測(cè)技術(shù),借助統(tǒng)計(jì)學(xué)方法的檢測(cè)技術(shù)[4]、利用神經(jīng)網(wǎng)絡(luò)的檢測(cè)技術(shù)[5]、利用模糊理論的檢測(cè)技術(shù)[6]、利用信息論的檢測(cè)技術(shù)[7]、利用遺傳算法的檢測(cè)技術(shù)等得到了興起與發(fā)展,表現(xiàn)異?;钴S。

由于實(shí)際圖像中含有噪聲和物理和光照等原因,利用一種邊緣檢測(cè)算子不可能有效的檢測(cè)出這些邊緣,當(dāng)需要提取多空間范圍內(nèi)的變化特性時(shí),要考慮多算子的綜合應(yīng)用。因此,傳統(tǒng)的邊緣檢測(cè)算法檢測(cè)效果并不理想。

1 邊緣檢測(cè)的步驟

1.1 邊緣檢測(cè)的步驟

(1)濾波:邊緣和噪聲同屬于圖像中強(qiáng)度劇烈變化部位,因此噪聲對(duì)邊緣檢測(cè)有很大的影響,于是有必要使用濾波器來(lái)改善邊緣檢測(cè)算子的性能。

(2)增強(qiáng):增強(qiáng)邊緣的原理是確定圖像各點(diǎn)鄰域強(qiáng)度的變化值。增強(qiáng)算法可以將鄰域灰度值有顯著變化的點(diǎn)突顯出來(lái)。

(3)檢測(cè):在圖像中,有許多點(diǎn)的梯度幅值比較大,而這些點(diǎn)并不都是邊緣,所以需要確定哪些點(diǎn)是真正的邊緣點(diǎn)。最簡(jiǎn)單的辦法是利用梯度幅值的閾值作為判據(jù)。

(4)定位:邊緣定位即精確的確定邊緣點(diǎn)的具置。

圖像邊緣檢測(cè)的基本步驟如圖1所示:

1.2 邊緣檢測(cè)要求

對(duì)于圖像的邊緣檢測(cè)來(lái)說(shuō),一般在檢測(cè)過(guò)程中出現(xiàn)各種各樣的情況,導(dǎo)致誤差的出現(xiàn)。因此,對(duì)邊緣檢測(cè)有如下的要求:

(1)漏檢率與誤檢率較少。

(2)邊緣定位較準(zhǔn)確。

(3)對(duì)于每一個(gè)邊緣只有一個(gè)響應(yīng)。

2 經(jīng)典邊緣檢測(cè)算法

2.1 經(jīng)典邊緣檢測(cè)的基本算法

一階微分算子是通過(guò)梯度算子或一階導(dǎo)數(shù)算子估計(jì)圖像灰度變化的梯度方向,增強(qiáng)圖像中的灰度變化區(qū)域,然后將梯度值與給定的閾值進(jìn)行比較來(lái)確定具體的邊緣。

對(duì)于連續(xù)函數(shù) ,它在點(diǎn) 處的x方向,y方向和 方向的一階方向?qū)?shù)為:

它在點(diǎn) 處的梯度是一個(gè)矢量,即

梯度幅值為:

梯度方向角為:

基于上述理論人們提出了許多經(jīng)典算子的,如Sobel算子、Roberts算子、Prewitt算子等。但在實(shí)際應(yīng)用中,常常以圖像的一階差分運(yùn)算代替圖像的一階微分運(yùn)算。所有這些基于梯度的邊緣檢測(cè)算法主要有兩點(diǎn)區(qū)別:1)邊緣檢測(cè)算子的方向。2)在同一方向上近似圖像一階導(dǎo)數(shù)合成梯度算子的方式。

2.1.1 Sobel算子

Sobel是一種將方向差分運(yùn)算與局部平均相結(jié)合的邊緣檢測(cè)方法。它計(jì)算一個(gè)圖像強(qiáng)度的梯度近似值。該算子是在以(x,y)為中心的3 3鄰域上計(jì)算 的偏導(dǎo)數(shù)。為了抑制噪聲,給它的中心點(diǎn)加一個(gè)權(quán)重,則它的數(shù)字梯度近似等于下式:

梯度大小為:

它的卷積模板算子如下:

用以上模板與圖像進(jìn)行卷積運(yùn)算后,按照式9可以求出圖像的梯度幅度值g(x,y),然后選擇適當(dāng)?shù)拈撝礣,如果在(x,y)處g(x,y)>T,則此點(diǎn)為邊緣點(diǎn);否則為非邊緣點(diǎn)。

在較小的鄰域范圍內(nèi),Sobel算子比較理想,受噪聲的影響比較小。當(dāng)使用到大的鄰域時(shí),抗噪聲特性會(huì)更好,但計(jì)算量會(huì)增加,得出的邊緣較粗。因?yàn)榫植科骄?jì)算的原因,易產(chǎn)生誤檢,造成邊緣定位精度不夠高。因此,Sobel算子在精度要求不高的情況下,是一種不錯(cuò)的邊緣檢測(cè)算法。Sobel算子對(duì)噪聲具有平滑作用,提供較為精確的邊緣方向信息。如果它與其他的算法相結(jié)合可能會(huì)達(dá)到更好的檢測(cè)效果。

2.1.2 Canny算子

Canny邊緣檢測(cè)方法是通過(guò)計(jì)算圖像像素點(diǎn)的梯度,根據(jù)局部極值來(lái)獲得邊緣信息的方法。1986年,Canny通過(guò)對(duì)過(guò)去一系列邊緣檢測(cè)算子的方法和應(yīng)用,進(jìn)行總結(jié)分析,用數(shù)學(xué)的形式推導(dǎo)出最優(yōu)邊緣檢測(cè)算子。Canny認(rèn)為一個(gè)良好的邊緣檢測(cè)算法應(yīng)滿足以下幾點(diǎn)要求:

(1)定位能力好。檢測(cè)出的邊緣點(diǎn)盡可能落在實(shí)際圖像邊緣的中心。

(2)優(yōu)良的檢測(cè)性能。誤檢和漏檢的概率小。

(3)單一響應(yīng)。盡可能減少虛假邊緣的響應(yīng)和多個(gè)響應(yīng)的發(fā)生,最好是單一邊緣只產(chǎn)生一個(gè)響應(yīng)。

Canny邊緣檢測(cè)算法主要步驟:

第一步:平滑。使用高斯函數(shù)對(duì)待檢測(cè)圖像進(jìn)行平滑濾波處理,得到平滑圖像。

第二步:計(jì)算平滑圖像中每個(gè)像素點(diǎn)的局部梯度幅度值和邊緣方向。

第三步:對(duì)梯度進(jìn)行非極大值抑制。在梯度幅度的集合圖像中,在邊緣強(qiáng)度的極大值附近會(huì)產(chǎn)生屋脊帶。為了細(xì)化邊緣,尋找梯度幅值圖像中極大值的點(diǎn),并將所有非極大值的像素設(shè)為零。

第四步:得到圖像邊緣信息。給定兩個(gè)閾值T1和T2,T1

Canny邊緣檢測(cè)算子的缺點(diǎn)與改進(jìn):1)高斯濾波對(duì)于某些特定的噪聲效果不是很好,還有待改進(jìn),提供性能更好的自適應(yīng)去噪方法。2)雙閥值的參數(shù)是人為設(shè)定,不能根據(jù)圖像的邊緣特征來(lái)確定的,有可能對(duì)噪聲的抑制不是很好,同時(shí)也可能丟失邊緣信息,導(dǎo)致邊緣檢測(cè)效果是很理想,即對(duì)于不同的圖像不具有自適應(yīng)性。因此,有必要根據(jù)圖像的特征自適應(yīng)確定圖像的閥值來(lái)達(dá)到理想的檢測(cè)效果。3)在多角度上計(jì)算梯度。

3 基于形態(tài)學(xué)邊緣檢測(cè)

設(shè)g(x,y)為輸入圖像,E(x,y)表示圖像的邊緣函數(shù),f(x,y)為檢測(cè)算子。形態(tài)學(xué)中的膨脹會(huì)縮小圖像的背景區(qū)域,擴(kuò)張圖像的目標(biāo)區(qū)域;而腐蝕恰恰相反,它會(huì)擴(kuò)張背景區(qū)域,縮小目標(biāo)區(qū)域。根據(jù)這樣性質(zhì),可以構(gòu)造圖像的邊緣檢測(cè)算子如下:

灰度膨脹運(yùn)算表示: (11)

同理灰度腐蝕運(yùn)算表示: (12)

那么膨脹腐蝕型邊緣檢測(cè)算子可如下表示:

由以上的操作運(yùn)算,我們知道膨脹運(yùn)算會(huì)使圖像邊緣變的模糊,腐蝕運(yùn)算會(huì)使圖像邊緣信息損失一些細(xì)節(jié)信息。為了避免上述情況,對(duì)上述算子加以修改:

邊緣算子修正為:

邊緣算子改進(jìn)以后,添加了一些原圖像邊緣信息,也可能添加了一些噪聲。

4 神經(jīng)網(wǎng)絡(luò)邊緣檢測(cè)算法

為了檢測(cè)有256灰度值的灰度圖像的邊緣,可以考慮一個(gè)類(lèi)似BP神經(jīng)網(wǎng)絡(luò)[3][9]的模型,該模型由8個(gè)子BP神經(jīng)網(wǎng)絡(luò)組成,每一個(gè)子網(wǎng)絡(luò)可以檢測(cè)2值圖像的邊緣。每一個(gè)子BP神經(jīng)網(wǎng)絡(luò)對(duì)應(yīng)灰度圖像的一個(gè)位平面。每個(gè)神經(jīng)網(wǎng)絡(luò)的輸出會(huì)根據(jù)每個(gè)位平面的權(quán)重做調(diào)整。8個(gè)位平面的權(quán)重依次為1/256、2/256、4/256、8/256、16/256、32/256、64/256、128/256。通過(guò)類(lèi)似的模型,可以很精確的檢測(cè)出灰度圖像的邊緣。結(jié)構(gòu)如圖2所示:

5 總結(jié)

邊緣檢測(cè)是圖像處理領(lǐng)域中最基本的問(wèn)題,也是圖像處理其他工作的基礎(chǔ)。如何準(zhǔn)確、快速地進(jìn)行邊緣檢測(cè)一直是圖像處理領(lǐng)域的熱點(diǎn)。一個(gè)邊緣檢測(cè)算法的好壞主要體現(xiàn)在能否做到以下兩點(diǎn):一是正確地檢測(cè)出所有邊緣并不出現(xiàn)偽邊緣;二是盡可能地抑制噪聲對(duì)圖像的影響,即去噪能力。通過(guò)上面的分析可知,前人提出的很多經(jīng)典算法,比如微分算子法,BP神經(jīng)網(wǎng)絡(luò)算法,基于形態(tài)學(xué)的檢測(cè)算法,基于關(guān)聯(lián)規(guī)則的檢測(cè)算法[8]等,對(duì)于現(xiàn)在邊緣檢測(cè)的要求而言,其效果都不是特別理想。這就需要我們尋找更好的算法,其研究更多的向多尺度、多領(lǐng)域、多方法融合的方向發(fā)展。

參考文獻(xiàn):

[1]岡薩雷斯.數(shù)字圖像處理[M].北京:電子工業(yè)出版社,2007:467-471.

[2]孫即祥.數(shù)字圖像處理[M].河北出版社,1993.

[3]Weiqing Li,Chengbiao Wang,Qun Wang,Guangshe Chen,An Edge Detection Method Based on Optimized BP Neural Network. ? 2008 IEEE DOI 10.1109/ISISE.2008,310.

[4]S.Konishi,A.Yuille and J.Coughlan.A statistical approach to multi-scale edge detection.Image and Vision Computing,2003,21:37-485.

[5]S.C.Douglas,T.H.Meng.Design of Edge Detection Templates Using a Neural Network.Proc.International Joint Conference on Neural Networks,1990,2:331-334.

[6]D.S.Kim,W.H.Lee and I.S.Kweon.Automatic edge detection using 3*3 ideal binary pixel patterns and fuzzy-based edge thresholding.Pattern Recognition Letters,2004,25:101-106.

[7]Q.Tian,X.Li and N.M.Bilgutay.Multiple Target Detection Using Split Spectrum Processing and Group Delay Moving Entropy.IEEE Trans.On UFFC,1995,42(6):1075-1886.

[8]洪俊田,陶劍鋒,李剛.基于灰色關(guān)聯(lián)的數(shù)字圖像去噪研究[J].武漢理工大學(xué)學(xué)報(bào),2006,2:15-17.

[9[S.C.Douglas.TH.Meng.Design of Edge Detection Templates Using a Neural Network.Proc.International Joint Conference on Neural Networks,1990,2:331-334.

篇10

關(guān)鍵詞:視覺(jué)注意;自頂向下;顯著性;對(duì)象信息;卷積神經(jīng)網(wǎng)

中圖分類(lèi)號(hào):TP391.41

文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-9081(2016)11-3217-05

0 引言

視覺(jué)注意機(jī)制的研究是探索人眼視覺(jué)感知的重要一環(huán)。在過(guò)去幾十年中,如何用計(jì)算模型模擬人眼視覺(jué)注意過(guò)程一直是核心問(wèn)題。盡管取得了很大的進(jìn)步,但是快速準(zhǔn)確地在自然場(chǎng)景中預(yù)測(cè)人眼視覺(jué)注意區(qū)域仍然具有很高的挑戰(zhàn)性。顯著性是視覺(jué)注意的一項(xiàng)重要研究?jī)?nèi)容,它反映了區(qū)域受關(guān)注的程度。本文的研究著眼于顯著性計(jì)算模型,更多模型對(duì)比和模型分類(lèi)可以參考Borji等[1]的文章。視覺(jué)注意存在兩種機(jī)制:自底向上(Bottom-up)和自頂向下(Top-down)。過(guò)去的研究中,大多數(shù)的計(jì)算模型是基于自底向上的信息,即直接從圖像像素獲取特征。

自底向上顯著性計(jì)算模型開(kāi)創(chuàng)性工作源自于文獻(xiàn)[2]的Itti模型,該模型是很多其他模型的基礎(chǔ)和對(duì)照基準(zhǔn),它通過(guò)整合多種低層次特征,如顏色、亮度、方向等,給出一個(gè)顯著度的概率分布圖。Harel等[3]在Itti模型的基礎(chǔ)上引入圖算法,通過(guò)計(jì)算節(jié)點(diǎn)間特征值相似性和空間位置距離進(jìn)行差異性度量獲取顯著圖。近年來(lái)隨著深度學(xué)習(xí)技術(shù)在目標(biāo)識(shí)別領(lǐng)域的成功應(yīng)用[4],研究者們對(duì)特征學(xué)習(xí)產(chǎn)生了更多的興趣。Borji等[5]通過(guò)稀疏編碼方法獲取特征,使用圖像塊的稀疏表示結(jié)合局部和全局統(tǒng)計(jì)特性計(jì)算圖像塊的稀有性(rarity),稀有性反映了當(dāng)前圖像塊中心位置的顯著性。Vig等[6]通過(guò)訓(xùn)練多個(gè)神經(jīng)網(wǎng)絡(luò)獲取層次特征,然后自動(dòng)優(yōu)化特征組合。特征提取的過(guò)程可以看作是一種隱式空間映射,在映射空間中使用簡(jiǎn)單的線性模型進(jìn)行顯著或非顯著的分類(lèi)。以上學(xué)習(xí)方法獲得的特征都是一些低層次特征,對(duì)圖像中的邊緣和特定紋理結(jié)構(gòu)敏感。此外,部分研究人員希望從數(shù)學(xué)統(tǒng)計(jì)和信號(hào)處理的角度來(lái)度量顯著性。Bruce等[7]根據(jù)最大化信息采樣的原則構(gòu)建顯著性模型。Li等[8]總結(jié)了多種基于頻域的視覺(jué)注意研究工作,提出了一種基于超復(fù)數(shù)傅里葉變換(Hypercomplex Fourier Transform)的視覺(jué)注意模型,并展示了其他多種基于頻域的模型在某種程度上都是此模型的特例。

以上模型均為數(shù)據(jù)驅(qū)動(dòng)的顯著性模型,模擬人眼視覺(jué)注意過(guò)程中自底向上的機(jī)制。由于人眼視覺(jué)注意過(guò)程中不可避免地受到知識(shí)、任務(wù)、經(jīng)驗(yàn)、情感等因素的影響,因而整合自底向上和自頂向下信息的視覺(jué)注意研究受到更多的關(guān)注?,F(xiàn)有模型整合的自頂向下信息可以分為三類(lèi):任務(wù)需求、場(chǎng)景上下文和對(duì)象特征。

Borji等[9]提出了一種構(gòu)建任務(wù)驅(qū)動(dòng)的視覺(jué)注意模型的聯(lián)合貝葉斯方法。Zhang等[10]提出了一種使用貝葉斯框架整合自底向上和自頂向下顯著性信息的方法。Siagian等[11]利用多種低層次特征對(duì)場(chǎng)景主旨進(jìn)行建模,使用場(chǎng)景主旨引導(dǎo)視覺(jué)注意的轉(zhuǎn)移??紤]到任務(wù)需求和場(chǎng)景上下文建模的復(fù)雜性,研究人員將對(duì)象特征視為一種高層次的知識(shí)表示形式引入視覺(jué)注意模型中。Judd等[12]和Zhao等[13]通過(guò)將低層次特征和對(duì)象特征整合在一個(gè)學(xué)習(xí)框架下來(lái)獲得特征整合過(guò)程中每張?zhí)卣鲌D的疊加權(quán)重,但是模型使用的對(duì)象特征只有人臉、行人、車(chē)輛等有限的幾種。Borji等[14]遵循了同樣的方法,但是在整合過(guò)程中添加了更多特征并且結(jié)合了其他顯著性模型的結(jié)果,最后用回歸、支撐向量機(jī)(Support Vector Machine, SVM)、 AdaBoost等多種機(jī)器學(xué)習(xí)算法結(jié)合眼動(dòng)跟蹤數(shù)據(jù)進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明對(duì)象特征引入較大地提高了模型性能。Xu等[15]將特征劃分為像素級(jí)、對(duì)象級(jí)和語(yǔ)義級(jí)三個(gè)層次,并重點(diǎn)探索對(duì)象信息和語(yǔ)義屬性對(duì)視覺(jué)注意的作用;然而,模型中的對(duì)象級(jí)和語(yǔ)義級(jí)特征是手工標(biāo)定的,因而不是一種完全意義上的計(jì)算模型。

總的來(lái)看,雖然部分模型已經(jīng)使用對(duì)象特征作為自頂向下的引導(dǎo)信息,但是在對(duì)象特征的獲取和整合上仍有很大的局限性。首先,對(duì)不包含特定對(duì)象的場(chǎng)景適應(yīng)性較差;其次,對(duì)象特征描述困難,通常是通過(guò)特定目標(biāo)檢測(cè)方法獲取對(duì)象特征,計(jì)算效率低下;此外,對(duì)象特征的簡(jiǎn)單整合方式不符合人眼的視覺(jué)感知機(jī)制。本文提出了一種結(jié)合深度學(xué)習(xí)獲取對(duì)象特征的視覺(jué)注意計(jì)算模型,重點(diǎn)研究了對(duì)象級(jí)特征的獲取和整合方法。算法結(jié)構(gòu)如1所示,其中像素級(jí)突出圖獲取采用現(xiàn)有視覺(jué)注意模型的方法,對(duì)象級(jí)突出圖獲取采用本文提出的基于卷積神經(jīng)網(wǎng)(Convolutional Neural Network, CNN)的特征學(xué)習(xí)和基于線性回歸的特征整合方法。實(shí)驗(yàn)結(jié)果表明,對(duì)象級(jí)特征的引入可以明顯提高顯著性預(yù)測(cè)精度,預(yù)測(cè)結(jié)果更符合人類(lèi)視覺(jué)注意效果。

1 對(duì)象信息獲取

1.1 對(duì)象特征

大量實(shí)驗(yàn)證據(jù)表明對(duì)象特征引導(dǎo)視覺(jué)注意的轉(zhuǎn)移。視覺(jué)注意中引入對(duì)象特征是為了獲得圖像中對(duì)象位置等信息,目的與計(jì)算機(jī)視覺(jué)中的目標(biāo)檢測(cè)類(lèi)似。因而,已有的視覺(jué)注意計(jì)算模型的對(duì)象特征通常是通過(guò)特定目標(biāo)檢測(cè)方法獲得。其中,Viola&Jones人臉檢測(cè)和Felzenszwalb車(chē)輛行人檢測(cè)是最常用的方法。文獻(xiàn)[12-14]均使用此類(lèi)方法引入對(duì)象特征。由于這一類(lèi)特征針對(duì)特定對(duì)象樣本進(jìn)行設(shè)計(jì)和訓(xùn)練,因而推廣能力不強(qiáng)。

li=fixations(obji)area(obji)(3)

其中: fixations()表示落入當(dāng)前對(duì)象區(qū)域的正樣本的數(shù)目;area()表示對(duì)象區(qū)域面積。li衡量當(dāng)前對(duì)象單位面積受關(guān)注的程度,對(duì)象單位面積受關(guān)注程度越高,其在對(duì)象整合過(guò)程中的權(quán)重應(yīng)越高,因而li與疊加權(quán)重成正比。

式(4)通過(guò)一個(gè)線性回歸模型對(duì)已有樣本數(shù)據(jù)進(jìn)行訓(xùn)練,獲得對(duì)象整合疊加權(quán)重W:

L=WF(4)

其中:F={F1,F(xiàn)2,…,F(xiàn)N}為訓(xùn)練樣本數(shù)據(jù)集合;L={l1,l2,…,lN}為訓(xùn)練樣本標(biāo)簽集合。

測(cè)試時(shí)根據(jù)式(5)~(6)獲得對(duì)象級(jí)突出圖:

3 顯著圖生成

視覺(jué)注意是自底向上和自頂向下兩種機(jī)制作用的結(jié)果。完全使用自頂向下的對(duì)象特征進(jìn)行顯著區(qū)域預(yù)測(cè)有一定缺陷,主要表現(xiàn)在以下幾個(gè)方面:首先,知識(shí)是對(duì)訓(xùn)練樣本數(shù)據(jù)的抽象表示,由于神經(jīng)網(wǎng)絡(luò)的規(guī)模和訓(xùn)練樣本中對(duì)象種類(lèi)的限制,場(chǎng)景中部分對(duì)象對(duì)應(yīng)的特征沒(méi)有被抽象在網(wǎng)絡(luò)結(jié)構(gòu)中;其次,部分不具有明確語(yǔ)義的區(qū)域被錯(cuò)誤地認(rèn)為是對(duì)象,對(duì)視覺(jué)注意形成錯(cuò)誤的引導(dǎo);另外,人眼視覺(jué)注意轉(zhuǎn)移的生理學(xué)機(jī)制并不清楚,興趣區(qū)可能落在不具有對(duì)象特征區(qū)域中。因此,使用像素級(jí)特征給出低層次顯著性信息是必要的。

視覺(jué)注意模型中常用的像素級(jí)特征有顏色、亮度、方向等[2-3,12]。本文直接使用GBVS(Graph-Based Visual Saliency)算法[4]整合多種像素級(jí)特征獲取像素級(jí)突出圖Spixel。式(7)給出了整合的方法:

其中:S(i, j)為最終給出的視覺(jué)注意顯著圖;N()為歸一化操作;λ控制對(duì)象級(jí)突出圖與像素級(jí)突出圖的相對(duì)權(quán)重,通過(guò)實(shí)驗(yàn)分析可知λ=0.4時(shí)效果較好。當(dāng)圖像中不存在顯著物體或無(wú)法獲得高置信度的對(duì)象信息時(shí),圖像任意位置Sobj(i, j)=0,此時(shí)完全由像素級(jí)特征驅(qū)動(dòng)的視覺(jué)注意引導(dǎo)。

4 實(shí)驗(yàn)結(jié)果及分析

本次實(shí)驗(yàn)是以Visual Studio 2012為實(shí)驗(yàn)平臺(tái),選取OSIE和MIT數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)。OSIE數(shù)據(jù)集包含700張含有一個(gè)或多個(gè)明顯語(yǔ)義對(duì)象的圖片以及15名受試者的眼動(dòng)跟蹤數(shù)據(jù),此外該數(shù)據(jù)集還提供了語(yǔ)義對(duì)象統(tǒng)計(jì)及人工標(biāo)注的精確對(duì)象區(qū)域。MIT數(shù)據(jù)集包含1003張自然場(chǎng)景圖片以及15名受試者的眼動(dòng)跟蹤數(shù)據(jù)。這兩個(gè)數(shù)據(jù)集是當(dāng)前視覺(jué)注意研究領(lǐng)域中較大的數(shù)據(jù)集。為了驗(yàn)證本文方法的準(zhǔn)確率,將本文算法與GBVS[4]、 Itti[2]、 Judd[3]、 AIM[10]、LG[8]等視覺(jué)注意方法進(jìn)行對(duì)比。

對(duì)比實(shí)驗(yàn)中使用的評(píng)價(jià)指標(biāo)為ROC(Receiver Operating Characteristic)曲線,實(shí)現(xiàn)方法與文獻(xiàn)[12,15]相同。圖6~8為實(shí)驗(yàn)對(duì)比結(jié)果,顯著區(qū)域百分比是通過(guò)對(duì)歸一化顯著圖作閾值處理獲得,真正率(True Positive Rate)反映當(dāng)前落入顯著區(qū)域的樣本占所有樣本的比例。通過(guò)變化顯著區(qū)域百分比獲得ROC曲線。為了更直觀比較算法效果,實(shí)驗(yàn)結(jié)果圖中標(biāo)注了每種算法的AUC(Area Under Curve)值,AUC值通過(guò)計(jì)算ROC曲線下的面積獲得。AUC值越大表示該方法給出的顯著性預(yù)測(cè)結(jié)果越準(zhǔn)確。

圖6為利用對(duì)象級(jí)突出圖作為顯著圖在OSIE數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。相對(duì)于RCNN算法, fasterRCNN算法使用了更深層次的網(wǎng)絡(luò)結(jié)構(gòu)和更多對(duì)象類(lèi)別的訓(xùn)練樣本,具有較高的對(duì)象位置預(yù)測(cè)準(zhǔn)確率和對(duì)象檢出率。實(shí)驗(yàn)分析可以看出,使用fasterRCNN算法生成對(duì)象級(jí)突出圖可以更好進(jìn)行顯著性預(yù)測(cè)。同時(shí),人臉特征(FACE)的引入進(jìn)一步提升了預(yù)測(cè)準(zhǔn)確性,從一個(gè)側(cè)面說(shuō)明了對(duì)象性信息對(duì)視覺(jué)注意的轉(zhuǎn)移具有引導(dǎo)作用。

圖7是多種視覺(jué)注意算法在OSIE數(shù)據(jù)集上的ROC曲線,可以看出本文方法實(shí)驗(yàn)效果明顯好于其他算法。僅次于本文算法的是GBVS和Judd,Itti的準(zhǔn)確率較差。圖中對(duì)象級(jí)特征曲線為使用fasterRCNN結(jié)合人臉特征生成對(duì)象級(jí)突出圖獲得,由于該方法完全使用自頂向下的對(duì)象特征,顯著性預(yù)測(cè)準(zhǔn)確率明顯弱于其他方法,因而證明了引入像素級(jí)特征必要性。圖8為MIT數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,本文方法和Judd算法為最好的兩種方法,實(shí)驗(yàn)結(jié)果相差不大。AIM和LG方法效果較差。本文方法和Judd方法均使用了對(duì)象特征,可以看出整合了對(duì)象特征的方法相對(duì)于完全自底向上模型有明顯優(yōu)勢(shì)。

圖9中給出了多種算法顯著圖的直觀對(duì)比。與其他方法強(qiáng)調(diào)對(duì)象邊緣不同,本文結(jié)合了對(duì)象信息的方法可以有效突出圖像中的完整對(duì)象區(qū)域。

5 結(jié)語(yǔ)

本文提出一種結(jié)合對(duì)象信息的視覺(jué)注意方法。與傳統(tǒng)的視覺(jué)注意整合對(duì)象方法相比,該方法利用卷積神經(jīng)網(wǎng)學(xué)到的對(duì)象特征,獲取圖像中對(duì)象位置等信息;然后通過(guò)一個(gè)線性回歸模型將同一幅圖像的多個(gè)對(duì)象加權(quán)整合,獲得對(duì)象級(jí)突出圖;最后,根據(jù)視覺(jué)注意的層次整合機(jī)制,將低層次特征和對(duì)象特征進(jìn)行融合形成最終的顯著圖。本文方法在不同數(shù)據(jù)集上的準(zhǔn)確率要高于現(xiàn)有模型。針對(duì)包含明顯對(duì)象的圖像,本文方法克服了部分現(xiàn)有模型由于邊緣強(qiáng)化效果導(dǎo)致的顯著區(qū)域預(yù)測(cè)不準(zhǔn)的問(wèn)題。本文方法仍然存在一定局限性,未來(lái)的工作將嘗試非線性對(duì)象整合以及增大訓(xùn)練樣本數(shù)量和網(wǎng)絡(luò)規(guī)模以獲取更多種對(duì)象特征。

參考文獻(xiàn):