期刊VIP學術指導 符合學術規范和道德
保障品質 保證專業,沒有后顧之憂
摘 要:目前多數圖像分類的方法是采用監督學習或者半監督學習對圖像進行降維,然而監督學習與半監督學習需要圖像攜帶標簽信息。針對無標簽圖像的降維及分類問題,提出采用混階棧式稀疏自編碼器對圖像進行無監督降維來實現圖像的分類學習。首先,構建一個具有三個隱藏層的串行棧式自編碼器網絡,對棧式自編碼器的每一個隱藏層單獨訓練,將前一個隱藏層的輸出作為后一個隱藏層的輸入,對圖像數據進行特征提取并實現對數據的降維。其次,將訓練好的棧式自編碼器的第一個隱藏層和第二個隱藏層的特征進行拼接融合,形成一個包含混階特征的矩陣。最后,使用支持向量機對降維后的圖像特征進行分類,并進行精度評價。在公開的四個圖像數據集上將所提方法與七個對比算法進行對比實驗,實驗結果表明,所提方法能夠對無標簽圖像進行特征提取,實現圖像分類學習,減少分類時間,提高圖像的分類精度。
關鍵詞:無監督學習;棧式自編碼器;降維;混階特征;圖像分類
《個人電腦》(月刊)創刊于1994年,由南開大學主辦,是中國第一本專業IT評測媒體,首先將“產品評測”的概念帶到中國,使“評測”的科學意識和體系在神州大陸上落地生根。
0 引言
隨著計算機視覺應用的普及,圖像分類在各領域有著廣泛的應用,是人工智能領域的研究熱點。目前在機器學習領域主要有監督學習、無監督學習和半監督學習三大類,其中監督學習和半監督學習處理圖像需要圖像攜帶標簽信息,對無標簽圖像的處理是監督學習和半監督學習面臨的一大難題。因而利用圖像自身的特征,進行處理后分類,實現圖像分類,是一種有效的方法。
現實中很多圖像都具有較高的像素,直接處理高維數據會有“維數災難”的問題。從高維數據中提取出有用信息至關重要。當前,常用的方法是對高維數據進行降維。目前主要有兩類降維方法:線性降維和非線性降維。典型的線性降維方法有主成分分析(Principal Component Analysis, PCA)[1]和線性判別分析(Linear Discriminant Analysis, LDA )[2]。常見的非線性降維算法有界標等距映射(Landmark IsomaP, LIP)算法[3]、局部線性嵌入(Locally Linear Embedding, LLE)算法[4]、擴散映射(Diffusion MaP, DMP)算法[5]、隨機距離嵌入(Stochastic Proximity Embedding, SPE)算法[6]和基于神經網絡的自編碼器(AutoEncoder, AE)。
自編碼器是一種無監督的神經網絡,該網絡一般包含三個部分:輸入層、隱藏層和輸出層。自編碼器的核心思想是通過限制輸出數據與輸入數據間的歐幾里得距離,實現對編碼權重矩陣和解碼權重矩陣的調整,該方法的優點是不需要數據攜帶標簽信息即可實現網絡的訓練,通過提取自編碼器隱藏層的信息,解決了無標簽高維數據降維問題,該過程是一種無監督降維的學習過程。近年來,眾多學者把注意力放在了研究自編碼網絡的應用上,文獻[7-9]使用自編碼器對圖像進行處理。在文獻[7-9]的基礎上,文獻[10]將棧式自編碼器應用于提高圖像檢索的效率。文獻[11-13]在醫學診斷方面取得了不錯的成就,實現了計算機輔助診斷。上述研究均將自編碼應用于單標簽分類任務。除此之外,文獻[14]用自編碼解決多標簽問題,文獻[15]用多標簽的方法對癌癥進行基因注釋,文獻[16]將自編碼網絡應用于運動目標的檢測。這些采用自編碼的方法,均在其特定的應用上獲得了不錯的效果。
為了解決監督學習需要數據帶標簽及緩解高維數據的“維數災難”問題,本文采用無監督的混階棧式自編碼器(Mixed-Order Stacked Sparse AutoEncoder, MOSSAE)來實現對圖像的特征提取與拼接融合,進行圖像分類學習。具體過程如下:首先,建立一個具有三個隱藏層的串行棧式自編碼器網絡,采用貪婪算法逐層訓練自編碼器,得到每一層接近最優的自編碼器網絡,然后微調整個網絡,使整個網絡接近整體最優。網絡是逐層訓練,每一層都是特征的表達,并且把前一層的輸出用來當作下一層的輸入,所以越往后的隱藏層,其特征階數就越高。其次,將訓練好的網絡的第一隱藏層和第二隱藏層的特征進行拼接融合,形成混階特征矩陣,實現圖像的特征提取。最后,使用融合得到的混階特征矩陣,用支持向量機(Support Vector Machine, SVM)[17-18]進行分類得到分類結果,將該分類結果與原始圖像的標簽進行比對得到分類精度。在公開的四個圖像數據集上進行實驗,結果表明所提方法能夠在無監督情況下有效提取圖像特征,降低圖像維度,得到較好的圖像分類學習效果。
1 相關工作
假設原始高維空間圖像集X={xi|i=1,2,…,N}是N個樣本集合構成的矩陣,xi是m×m維的圖像轉成的一維向量,滿足D=m×m,X是D×N維矩陣。Y={yi|i=1,2,…,N}是降維后N樣本集合構成的矩陣,yi是d維向量,Y是d×N維矩陣,且dD,降維目的是得到一個從X→Y的映射關系,即Y=f(X)。基于自編碼器的降維算法在圖像識別與分類領域應用廣泛,是一種基于無監督學習的非線性降維方法,其分類結果一般要優于線性降維方法。本文應用混階棧式自編碼器,通過該方法來實現對圖像特征的提取,使用提取的混階特征進行圖像分類。分類方法采用SVM,通過分類精度和降維時間這兩指標來描述降維方法的有效性。
降維方法分為兩大類:線性降維和非線性降維。主成分分析(PCA)[1]是線性降維方法,該方法通過分析計算矩陣的特征值、特征向量來實現降維的目的,PCA是將n維特征映射到k(n
2 自編碼器
自編碼器在圖像分類領域具有廣泛的應用,是一種無監督的學習方法,對樣本的訓練不需要添加特定的標簽。目前常見的自編碼器包括稀疏自編碼器、棧式自編碼器等,都是在基本的自編碼器上發展得到的。
2.1 自編碼器
自編碼器是一種無監督的神經網絡,其核心是讓網絡輸出盡可能地等于或者逼近于輸入,結構如圖2所示。自編碼器網絡結構主要分為三部分:輸入層、隱藏層和輸出層,其中隱藏層可以單層或多層。為了使輸出X′能夠盡可能地逼近輸入X,中間的隱藏層必須能夠盡可能地保留輸入層的特征。圖2表明隱藏層的神經元數目要少于輸入層,故利用自編碼器可以有效地對高維數據進行降維。為了更好地描述自編碼器網絡的特點,定義目標函數為:
J(W,b,X)=12‖hW,b(X)-X‖。假定隱藏層神經元j的激活度用j(x)來描述,假設j(x)=ρ,其中ρ為稀疏性參數,當ρ的值趨近于零時,表明該神經網絡的隱藏神經元激活度低,去掉數據的冗余信息,降低數據復雜度。