av日韩亚洲,一本一本a久久,亚洲一区二区三区,亚洲一区二区三区免费视频

復(fù)雜背景下昆蟲圖像的快速分割與識(shí)別

來(lái)源:期刊VIP網(wǎng)所屬分類:園林學(xué)時(shí)間:瀏覽:

  摘要:昆蟲圖像分割是昆蟲圖像的識(shí)別與鑒定的重點(diǎn)和難點(diǎn)。目前,昆蟲分割算法速度慢、過(guò)程復(fù)雜且大多數(shù)只針對(duì)于單一背景圖像。為了更準(zhǔn)確高效地實(shí)現(xiàn)昆蟲圖像的前景背景圖像分離,提出一種基于逐像素聚類的端對(duì)端的昆蟲圖像分割方法,能夠同時(shí)實(shí)現(xiàn)復(fù)雜背景下的昆蟲圖像分割與昆蟲種類識(shí)別。采用覆蓋5個(gè)昆蟲目級(jí)階元的37種實(shí)際場(chǎng)景下拍攝的昆蟲圖像作為研究對(duì)象,首先通過(guò)試驗(yàn)確定所提模型的最優(yōu)參數(shù)設(shè)置,選擇ResNet101作為分割模型的主干特征提取網(wǎng)絡(luò),在IoU取0.50時(shí),其掩膜分支平均準(zhǔn)確度均值、定位平均準(zhǔn)確度均值及平均識(shí)別誤差率分別為93.15%、95.06%和12.12%,分割每張昆蟲圖像僅需0.080 s,所提模型能夠同步實(shí)現(xiàn)復(fù)雜背景下昆蟲目標(biāo)與背景的快速準(zhǔn)確分割并進(jìn)行分類。

  關(guān)鍵詞:昆蟲圖像;復(fù)雜背景;實(shí)時(shí)性;實(shí)例分割;識(shí)別分類

  作者:陳冬梅

  通信作者:吳開華

  龐大的昆蟲家族是大自然生物鏈中的重要一環(huán),占據(jù)著節(jié)肢動(dòng)物門的最大一綱。這些生物形態(tài)各異,數(shù)量驚人,分布又極其廣泛,迄今發(fā)現(xiàn)的昆蟲有120多萬(wàn)種,占整個(gè)動(dòng)物界種類的80%左右[1]。其中,絕大多數(shù)昆蟲以植物為寄主,通過(guò)取食作物獲取營(yíng)養(yǎng),會(huì)造成農(nóng)作物的產(chǎn)量和品質(zhì)顯著降低,成為制約農(nóng)業(yè)生產(chǎn)的重要因素之一[2]。因此,研究昆蟲的規(guī)律,找出其中可供利用的特性,對(duì)于農(nóng)業(yè)發(fā)展,尤其是害蟲防治策略的設(shè)計(jì)和益蟲的保護(hù)與利用都具有十分重要的意義。在昆蟲研究中,昆蟲的識(shí)別既是昆蟲研究和害蟲防治的基礎(chǔ),也是昆蟲研究的重要內(nèi)容之一[3]。

  傳統(tǒng)的昆蟲識(shí)別是通過(guò)分類學(xué)專家或具有昆蟲分類知識(shí)的技術(shù)人員對(duì)昆蟲進(jìn)行種類的鑒定[4]。但現(xiàn)有的分類學(xué)專家和掌握分類的技術(shù)人員無(wú)論在分布還是在數(shù)目上均難以滿足時(shí)下正呈現(xiàn)擴(kuò)大傾向的各類實(shí)際場(chǎng)景需求。同時(shí),昆蟲圖像識(shí)別由于昆蟲本身紋理豐富而被視為一類相對(duì)困難的圖像細(xì)粒度識(shí)別問(wèn)題。當(dāng)識(shí)別種類及數(shù)量較多時(shí),群體所呈現(xiàn)出的種間相似性、種內(nèi)多樣性以及不同姿態(tài)的差異會(huì)進(jìn)一步增加數(shù)據(jù)復(fù)雜度,此類圖像的區(qū)分信息更多地集中在像素層面,用人為構(gòu)建并篩選的特征對(duì)圖像進(jìn)行表達(dá)很容易丟失其中的細(xì)節(jié)[5]。

  信息技術(shù)的快速發(fā)展使得計(jì)算機(jī)代替人腦進(jìn)行判別的方法成為了可能,以計(jì)算機(jī)為基礎(chǔ)的昆蟲自動(dòng)識(shí)別方法可以處理最常見(jiàn)的昆蟲圖像數(shù)據(jù),先將采集的昆蟲圖像進(jìn)行圖像處理和背景前景分離,再使用圖像識(shí)別方法進(jìn)行類別分析。目前,基于計(jì)算機(jī)的昆蟲圖像分割主要依賴于傳統(tǒng)圖像分割方法,如基于閾值的分割方法、基于邊緣的分割方法、基于區(qū)域的分割方法以及基于數(shù)學(xué)形態(tài)學(xué)的分割方法等[6]。Mele等提出了基于全局閾值與局部種子區(qū)域生長(zhǎng)法相結(jié)合的昆蟲圖像分割方法[7]。劉曉靜等根據(jù)復(fù)雜背景下的昆蟲彩色圖像的特點(diǎn),采用了一種融合顏色和空間信息的靜態(tài)圖像壓縮(JSEG)分割算法[8]。一方面,這些研究只利用圖片中邊緣、顏色、紋理等低級(jí)特征,分割結(jié)果并不精確,同時(shí)對(duì)于圖像的要求較高,且對(duì)于昆蟲的分類大多是在分割結(jié)果的基礎(chǔ)上進(jìn)行,整個(gè)過(guò)程須要分步進(jìn)行,存在效率低、適用性差等缺點(diǎn)。另一方面,目前多數(shù)研究是將某領(lǐng)域中較成熟的圖像分割算法直接或稍加改進(jìn)后,在較小的測(cè)試集或某張圖像上進(jìn)行仿真測(cè)試,很少對(duì)大樣本的圖像做測(cè)試,不能充分說(shuō)明方法的可行性[9]。自然環(huán)境下昆蟲種類繁多,實(shí)際場(chǎng)景下獲取的昆蟲圖像背景復(fù)雜,有些昆蟲目標(biāo)與背景相似度高,這使得僅依靠圖片中低級(jí)特征去解決復(fù)雜背景下昆蟲目標(biāo)的分割及識(shí)別分類存在較大的局限性。

  近年來(lái),隨著機(jī)器學(xué)習(xí)的迅速發(fā)展,國(guó)內(nèi)外學(xué)者越來(lái)越關(guān)注以機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法為基礎(chǔ)的圖像識(shí)別分割。在昆蟲分割方面,楊信廷等以粉虱和薊馬為例,提出了一種基于邊緣檢測(cè)算子分割和支持向量機(jī)的溫室粉虱和薊馬誘蟲板的圖像識(shí)別算法,實(shí)現(xiàn)溫室害蟲的誘蟲板圖像識(shí)別[10]。王衛(wèi)民等針對(duì)害蟲圖像分割和計(jì)數(shù)存在的問(wèn)題,在U-Net基礎(chǔ)上改進(jìn)得到了Insect-Net模型用于昆蟲的識(shí)別和計(jì)數(shù)[11]。竺樂(lè)慶等基于全卷積網(wǎng)絡(luò)實(shí)現(xiàn)了鱗翅目標(biāo)本圖像前背景的自動(dòng)分割[12]。Pang等針對(duì)傳統(tǒng)分類器對(duì)圖像要求高且分類不準(zhǔn)確等問(wèn)題,基于F-RCN對(duì)昆蟲進(jìn)行識(shí)別[13]。上述昆蟲分割方法僅在實(shí)驗(yàn)室環(huán)境無(wú)背景或單一背景的昆蟲圖像上具有較好的分割效果。對(duì)于自然環(huán)境下復(fù)雜背景的昆蟲圖像的分割及識(shí)別分類效果還有待進(jìn)一步探索。

  針對(duì)自然環(huán)境下昆蟲圖像分割和識(shí)別的特殊性和復(fù)雜性,以及目前昆蟲圖像分割及識(shí)別的不足,本試驗(yàn)提出逐像素聚類的端對(duì)端的昆蟲圖像分割方法,擬同時(shí)實(shí)現(xiàn)復(fù)雜背景下的昆蟲圖像背景分離和昆蟲識(shí)別,本研究主要包括材料與方法、試驗(yàn)與結(jié)果以及總結(jié)與展望。

  1 材料與方法

  1.1 圖像數(shù)據(jù)與試驗(yàn)環(huán)境

  本試驗(yàn)的試驗(yàn)圖像數(shù)據(jù)涵蓋5個(gè)目級(jí)階元下的37類共4 285張昆蟲圖像[14-15]。所有圖像都是通過(guò)數(shù)碼相機(jī)(佳能、尼康和移動(dòng)設(shè)備等)捕獲的。為了消除光照變化的潛在負(fù)面影響,所有樣品圖像在作物田間情況下均采用統(tǒng)一的光照設(shè)置進(jìn)行預(yù)處理。本試驗(yàn)采用圖像標(biāo)注軟件Labelme[16]以VOC格式對(duì)圖像添加掩膜標(biāo)簽,并生成模型訓(xùn)練所需的掩膜圖片,數(shù)據(jù)集中每類昆蟲圖像及其對(duì)應(yīng)的掩膜圖像示例如圖1所示。圖1中對(duì)應(yīng)每種昆蟲的編號(hào)、種類名稱及數(shù)量均在表1中詳細(xì)列出。試驗(yàn)在杭州電子科技大學(xué)高性能計(jì)算機(jī)平臺(tái)上進(jìn)行。該平臺(tái)操作系統(tǒng)為Windows 10,平臺(tái)采用單塊型號(hào)為NVDIA GTX 1080Ti的圖形處理器,搭載Intel(R) Core(TM) i7-8700k的CPU,內(nèi)存為11 G。

  1.2 昆蟲圖像分割方法概述

  本研究擬使用基于YOLCAT++[17]的昆蟲分割模型,其算法整體流程如圖2所示。首先,昆蟲原始圖像通過(guò)主干特征提取網(wǎng)絡(luò)得到特征圖,然后C3~C5層特征圖通過(guò)特征金字塔網(wǎng)絡(luò)FPN[18]得到P3~P5層特征圖。同時(shí)為消除混疊效應(yīng),對(duì)P3~P5層進(jìn)行卷積得到新的P3~P5層,P6、P7層是由P5層卷積得到。模型將分割過(guò)程拆分為頭部預(yù)測(cè)和原型網(wǎng)絡(luò)2個(gè)并行的分支,將2個(gè)分支的輸出合并獲得最終的掩膜。筆者使用快速非極大抑制對(duì)每個(gè)實(shí)例預(yù)測(cè)得到的掩膜進(jìn)行處理。通過(guò)裁剪將邊界外的掩膜清零,其中訓(xùn)練階段的邊界是真實(shí)邊框,評(píng)估階段的邊界是預(yù)測(cè)的邊框。最后,以0.5為閾值對(duì)生成的掩膜進(jìn)行圖像二值化處理得到最終結(jié)果。

  1.2.1 主干特征提取網(wǎng)絡(luò)結(jié)構(gòu) 目前,主流的圖像識(shí)別算法主要是利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)自動(dòng)提取圖像特征,而后依據(jù)提取到的特征進(jìn)行目標(biāo)的提取和分類。特征金字塔網(wǎng)絡(luò)是一種通用結(jié)構(gòu),它可以與VGG[19]、ResNet[20]、Mobilenets[21]、Darknet[22]等不同的骨架網(wǎng)絡(luò)組合使用。本研究分別使用了ResNet50、ResNet101與FPN組合的結(jié)構(gòu),具體結(jié)構(gòu)如圖3所示。從圖3可以看出,ResNet-FPN分為3個(gè)部分,分別是自下而上連接部分、自下而上連接部分及橫向連接部分。其中,自下而上部分是以ResNet作為骨架結(jié)構(gòu)進(jìn)行特征的提取,ResNet分為5個(gè)不同的階段,其中將階段3到階段5各層最后輸出的一層特征分別定義為C3、C4、C5。自上而下是從最高層開始以最近鄰法進(jìn)行上采樣。橫向連接是利用256×1×1的卷積核對(duì)C3~C5各層進(jìn)行卷積操作,不經(jīng)過(guò)激活函數(shù)直接得到256通道的特征圖輸出,將其與上采樣得到的特征圖進(jìn)行加和得到融合特征圖。然后用3×3的卷積核對(duì)融合后的特征圖進(jìn)行卷積,以便消除混疊效應(yīng)。最終得到 P3~P5特征層。特征層P6則是P5經(jīng)過(guò)步長(zhǎng)為2的最大池化下采樣得到,特征層P7則是P6經(jīng)過(guò)步長(zhǎng)為2的最大池化下采樣得到。 其中, P3用于輸入到原型網(wǎng)絡(luò)分支,P3~P7特征層作為后續(xù)頭部預(yù)測(cè)分支的輸入。

  1.2.2 原型掩膜及系數(shù)計(jì)算 原型網(wǎng)絡(luò)是一種簡(jiǎn)單、高效的學(xué)習(xí)方式,其基本思路是對(duì)于每一個(gè)分類來(lái)創(chuàng)建一個(gè)原型表示。模型中原型網(wǎng)絡(luò)分支由若干卷積層組成,其結(jié)構(gòu)如圖4-a所示。以P3層作為輸入進(jìn)入到原型網(wǎng)絡(luò)分支,利用全卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生一系列與圖像大小一致的原型掩膜,這一過(guò)程不依賴任一特定實(shí)例且不依賴重池化,因此產(chǎn)生了質(zhì)量非常高且穩(wěn)定性更好的掩碼。P3層昆蟲特征圖經(jīng)過(guò)卷積層卷積后輸出維度為138×138×32的掩膜,即32個(gè)大小是138×138的原型掩膜。

  為了提高速度,達(dá)到實(shí)時(shí)分割的目的,引入共享卷積網(wǎng)絡(luò),在RetinaNet[23]的基礎(chǔ)上改進(jìn)得到頭部預(yù)測(cè)分支,其網(wǎng)絡(luò)結(jié)構(gòu)如圖4-b所示。以P3~P7作為輸入進(jìn)入到預(yù)測(cè)頭,然后有1個(gè)分支輸出目標(biāo)位置,1個(gè)分支輸出掩膜系數(shù),1個(gè)分支輸出分類的置信率,即在原本目標(biāo)檢測(cè)分支的基礎(chǔ)上添加一個(gè)掩膜輸出,對(duì)每個(gè)錨框來(lái)預(yù)測(cè)掩膜系數(shù),也就是對(duì)實(shí)例的表示編碼為原型域的表達(dá)。所以決定目標(biāo)的有4(位置)+k(掩膜系數(shù))+37(分類置信率)個(gè)參數(shù)。將預(yù)測(cè)頭分支得到的掩膜系數(shù)和原型分支得到的原型掩膜做矩陣乘法,得到圖像中每一個(gè)目標(biāo)物體的掩膜。

  以P3層昆蟲特征圖為例進(jìn)行說(shuō)明,P3的維度是69×69×256,則P3層生成的錨框個(gè)數(shù)是14 283(69×69×3=14 283)。然后頭部預(yù)測(cè)分支將其分為3個(gè)分支輸出,分別是 (1)類別置信度,本數(shù)據(jù)集共有38類(包括背景),所以其維度為542 754(P3層生成的錨框個(gè)數(shù)×38);(2)位置偏移,維度為 57 132(P3層生成的錨框個(gè)數(shù)×4);(3)掩膜置信度,維度為457 056(P3層生成的錨框個(gè)數(shù)×32)。對(duì)P4~P7進(jìn)行相同的操作,最后將這些結(jié)果拼接起來(lái),標(biāo)記共有19 248,本數(shù)據(jù)集共有38類(包括背景),所以全部類別的置信度維度為731 424(標(biāo)記個(gè)數(shù)×38);全部位置偏移維度為76 992(標(biāo)記個(gè)數(shù)×4);全部掩膜的置信度維度為615 936(標(biāo)記個(gè)數(shù)×32)。

  同時(shí),在模型中引入了可變形卷積[24],即采用自由形式的采樣代替了傳統(tǒng)的剛性網(wǎng)格采樣,將ResNet C3~C5層中的各個(gè)3×3標(biāo)準(zhǔn)卷積每隔3個(gè)卷積層換成一個(gè)3×3可變形卷積。因此,相比標(biāo)準(zhǔn)卷積,可變形卷積通過(guò)學(xué)習(xí)位置偏移得到更符合待檢目標(biāo)形狀和尺寸的采樣點(diǎn)。在錨框策略上,本研究采用的是保持比例[1,1/2,2]不變,把FPN每一層的特征尺寸數(shù)目增加3倍。

  1.3 分割結(jié)果評(píng)價(jià)指標(biāo)

  圖像分割的評(píng)價(jià)指標(biāo)是從文獻(xiàn)檢索演變而來(lái)的,將圖像分割的像素點(diǎn)屬于感興趣區(qū)域的可能性與文本的相關(guān)性相關(guān)聯(lián),從而將文本檢索中的性能評(píng)價(jià)指標(biāo)應(yīng)用到圖像分割[25]。目標(biāo)一般分為2類(正例和負(fù)例,分別用P和N表示)。模型評(píng)價(jià)指標(biāo)一般由TP(true positive)、FP(false positive)、FN(false negative)及TN(true negative)4個(gè)參數(shù)表示(表2)。其中,TP表示把正例判為正例的數(shù)目,F(xiàn)N表示把正例判為負(fù)例的數(shù)目,F(xiàn)P表示把負(fù)例判為正例的數(shù)目,TN表示把負(fù)例判為負(fù)例的數(shù)目。

  準(zhǔn)確率是指判斷正確的情況占所有情況的比例,其中判斷正確的總共有(TP+TN)個(gè),準(zhǔn)確率A可通過(guò)公式(1)計(jì)算得到。精確率是指把正的預(yù)測(cè)為正的個(gè)數(shù)占所有預(yù)測(cè)為正的樣本的比例。預(yù)測(cè)為正的樣本總共有(TP+FP)個(gè),精確率P可由公式(2)計(jì)算得到。召回率是指所有正樣本中被預(yù)測(cè)正確的占所有正樣本的比例,其中正樣本預(yù)測(cè)為正的有TP個(gè),正樣本總共有(TP+FN)個(gè)。召回率R可通過(guò)公式(3)計(jì)算得到。

主站蜘蛛池模板: 建宁县| 阿图什市| 中江县| 黄大仙区| 九寨沟县| 海兴县| 临城县| 卓资县| 长垣县| 黄大仙区| 左贡县| 河池市| 高雄县| 长乐市| 准格尔旗| 三江| 石首市| 蒲城县| 长宁县| 合水县| 正定县| 景泰县| 镶黄旗| 应用必备| 乐安县| 仙居县| 石楼县| 游戏| 水城县| 合肥市| 达尔| 太白县| 蕲春县| 邯郸县| 楚雄市| 互助| 彭泽县| 越西县| 咸阳市| 繁峙县| 新沂市|