本篇文章3180字,讀完約8分鐘
深圳汽車(chē)抵押貸款【科技在線(xiàn)】最近,百度利用新的人臉檢測(cè)深度學(xué)習(xí)算法pyramidbox,在全球權(quán)威人臉檢測(cè)公開(kāi)評(píng)測(cè)集wider face的“easy”、“medium”、“hard”三個(gè)評(píng)測(cè)子集中排名第一,業(yè)界表現(xiàn)良好 論文簡(jiǎn)要介紹該算法背后的技術(shù)。
1引言
人臉檢測(cè)是各種人臉APP測(cè)試中的基本任務(wù)。 viola - jones [1]的獨(dú)創(chuàng)性研究利用具有類(lèi)哈爾特征的adaboost算法來(lái)訓(xùn)練級(jí)聯(lián)臉部和非人臉部的分類(lèi)器。 之后,不斷有人深入研究[ 2,3,4,5,6,7 ]以改進(jìn)級(jí)聯(lián)檢測(cè)器。 然后,[8、9、10]通過(guò)對(duì)可變形的面部關(guān)系進(jìn)行建模,將可變形部件模型( dpm )導(dǎo)入到面部檢測(cè)任務(wù)中。 這些方法主要基于設(shè)計(jì)的特點(diǎn),這些特點(diǎn)表現(xiàn)性差,經(jīng)過(guò)分離的步驟訓(xùn)練。
近年來(lái),卷積神經(jīng)互聯(lián)網(wǎng)( cnn )取得了很大的突破,基于cnn的現(xiàn)代目標(biāo)檢測(cè)技術(shù)在人臉檢測(cè)方面取得了很大的進(jìn)展。 例如,多虧了r-CNN(11、12、13、14 )、SSD )、Yolo(16 )、focalloss ) 17 )及其擴(kuò)展產(chǎn)物強(qiáng)大的深度學(xué)習(xí)方法和端到端的優(yōu)化,cnn
現(xiàn)有的基于anchor的檢測(cè)框架,如wider face[ 18 ]所示,是以檢測(cè)不受控制的環(huán)境的非常規(guī)臉部為目的的。 ssh [ 19 ]和s3fd [ 20 ]為了在單一的神經(jīng)互聯(lián)網(wǎng)中檢測(cè)來(lái)自不同層的尺度不同的面孔,開(kāi)發(fā)了尺度不變的互聯(lián)網(wǎng)。 面部r - fcn [ 21 ]利用位置敏感的平均池,對(duì)嵌入在得分圖中的響應(yīng)進(jìn)行重新加權(quán),消除面部各部位不均勻分布的影響。 fan [ 22 ]提出了anchor級(jí)的觀察機(jī)制,通過(guò)強(qiáng)調(diào)臉部區(qū)域的特征來(lái)檢測(cè)被遮擋的臉部。
這些事業(yè)為設(shè)計(jì)anchor和相關(guān)互聯(lián)網(wǎng)檢測(cè)不同尺度的人臉提供了比較有效的方法,但利用上下文新聞進(jìn)行人臉檢測(cè)還沒(méi)有得到足夠的重視,該問(wèn)題在非常規(guī)人臉檢測(cè)中應(yīng)發(fā)揮重要的意義。 很明顯,人臉不會(huì)單獨(dú)出現(xiàn)在現(xiàn)實(shí)世界中,肩膀和身體一般也一起出現(xiàn),特別是在分辨率低、模糊、由于外部遮擋而無(wú)法區(qū)別人臉紋理的情況下,提供了豐富的上下文相關(guān)資源。 與這個(gè)問(wèn)題相比,我們提出了一種新的上下文輔助互聯(lián)網(wǎng)框架,完全利用上下文信號(hào),具體步驟如下
首先,互聯(lián)網(wǎng)不僅要學(xué)習(xí)人的臉部特征,還必須學(xué)習(xí)頭和身體等上下文部分的特征。 為了實(shí)現(xiàn)這一點(diǎn),需要添加標(biāo)簽,并設(shè)計(jì)與之匹配的anchor。 在本任務(wù)中,我們利用半監(jiān)督處理方案生成臉部相關(guān)上下文部分的近似標(biāo)簽,同時(shí)發(fā)明了一系列名為pyramidanchors的anchor,添加到基于anchor的常規(guī)架構(gòu)中。
其次,高層次語(yǔ)境特征必須與低層次語(yǔ)境特征充分結(jié)合。 通常的臉和非常規(guī)則的臉的外觀可能有很大的不同。 這意味著并非所有的語(yǔ)義特征都有助于識(shí)別小臉。 我們將研究featurepyramidnetworks圖1:pyramid盒體系結(jié)構(gòu)。 這包括可縮放主層、低級(jí)特征金字塔層( lfpn )、對(duì)上下文敏感的預(yù)測(cè)層和pyramidbox損耗層。的性能,將其水平改為低級(jí)別的feature pyramid network( lfpn ),結(jié)合相互有用的特征。
第三,預(yù)計(jì)分支互聯(lián)網(wǎng)應(yīng)完全利用合作的特點(diǎn)。 為了將對(duì)象臉部周?chē)恼Z(yǔ)境新聞與更廣闊更深入的互聯(lián)網(wǎng)結(jié)合起來(lái),我們引入了語(yǔ)境敏感預(yù)測(cè)模塊( cpm )。 另外,為了進(jìn)一步提高分類(lèi)互聯(lián)網(wǎng)的性能,提出了可以預(yù)測(cè)模塊的大輸入輸出層。
此外,提出了名為“數(shù)據(jù)-anchor-采樣”的培訓(xùn)戰(zhàn)略,調(diào)整了培訓(xùn)數(shù)據(jù)集的分布。 為了學(xué)習(xí)更具代表性的特征,非定型的面孔樣本的多樣化很重要,可以通過(guò)樣本間的數(shù)據(jù)擴(kuò)展來(lái)獲得。
為了明確表達(dá),本研究可以歸納為以下五點(diǎn)。
1 .本文提出一種基于anchor的語(yǔ)境支持方法pyramidanchors,從而引入有監(jiān)控的新聞,學(xué)習(xí)小、模糊、部分隱藏的人面部的語(yǔ)境特征。
2、我們?cè)O(shè)計(jì)了低級(jí)特征金字塔互聯(lián)網(wǎng)( lfpn ),更好地融合了語(yǔ)境特征和面部特征。 另外,這種做法在一次拍攝中可以很好地解決不同尺度的人的臉部。
3 .我們提出了一種由混合互聯(lián)網(wǎng)結(jié)構(gòu)和大輸入輸出層組成的、對(duì)根據(jù)融合特征學(xué)習(xí)準(zhǔn)確定位和分類(lèi)的語(yǔ)境敏感的預(yù)測(cè)模型
4 .我們提出可以感知尺度的數(shù)據(jù)-anchor-采樣戰(zhàn)略,改變訓(xùn)練樣本的分布,關(guān)注小臉。
5 .在通用人臉檢測(cè)標(biāo)準(zhǔn)fddb和wider face上,我們達(dá)到了目前的好水平。
3行星盒
3.1互聯(lián)網(wǎng)體系結(jié)構(gòu)
基于anchor許多復(fù)雜anchor設(shè)計(jì)的目標(biāo)檢測(cè)框架表明,當(dāng)在不同級(jí)別的特征圖上執(zhí)行預(yù)測(cè)時(shí),可以相對(duì)有效地解決可變尺度的面部。 另外,fpn結(jié)構(gòu)表明融合上層的特征和下層的特征會(huì)帶來(lái)很大的特征。 pyramidbox (圖1 )的架構(gòu)采用與s3FD )相同的擴(kuò)展vgg16主干網(wǎng)架構(gòu)和anchor尺度設(shè)計(jì),可以生成與不同層次的特征圖等比的anchor。 低級(jí)的fpn被添加到這個(gè)骨干架構(gòu)中,同時(shí)采用對(duì)上下文敏感的預(yù)測(cè)模塊作為各個(gè)pyramid檢測(cè)層的分支互聯(lián)網(wǎng)來(lái)獲得最終的輸出。 這個(gè)方法的關(guān)鍵是我們?cè)O(shè)計(jì)了新的pyramid anchor方法。 這可以為每個(gè)面部在不同的級(jí)別上生成一系列錨點(diǎn)。 架構(gòu)中每個(gè)組件的詳細(xì)信息如下:
可縮放的骨干互聯(lián)網(wǎng)層。 我們采用s3fd基層和附加卷積層作為骨干互聯(lián)網(wǎng)層,其中保存從vgg16的conv 1_1層到pool 5層,然后將fc 6層和fc 7層轉(zhuǎn)換為conv fc層,增加越來(lái)越多的卷積層加深。
低級(jí)特征金字塔層。 為了提高人臉檢測(cè)器解決不同尺度人臉的能力,高分辨率的低級(jí)特征起著重要的作用。 因此,目前很多優(yōu)秀的研究[ 25,20,22,19 ]都是在同一幀內(nèi)構(gòu)建不同的結(jié)構(gòu)來(lái)檢測(cè)可變尺寸的面部。 其中,高級(jí)別的特征用于檢測(cè)尺寸大的臉部,低級(jí)的特征用于檢測(cè)尺寸小的臉部。 為了將高級(jí)特征整合為高分辨率的低級(jí)特征,fpn[23]提出了自上而下的框架,以利用所有尺度的高級(jí)語(yǔ)義特征圖。 最新的研究表明,fpn型框架在目標(biāo)檢測(cè)和人臉檢測(cè)上都取得了相當(dāng)好的性能。
通過(guò)自上而下的中間層結(jié)構(gòu),我們構(gòu)建了低級(jí)別的特征金字塔互聯(lián)網(wǎng)( lfpn )。 其感受野不是頂級(jí)的一半,而是接近輸入大小。 另外,各lfpn塊的結(jié)構(gòu)與fpn [23]相同,越來(lái)越多的新聞參見(jiàn)圖2(a )。
[23]
圖2(a )具有特色的金字塔互聯(lián)網(wǎng)。 ) b )對(duì)上下文敏感的預(yù)測(cè)模塊。 ( c )支付箱損失。
4實(shí)驗(yàn)
表1 )從不同層開(kāi)始的lfpn的表現(xiàn)。
表2:pyramidanchors的參數(shù)。
表3 :對(duì)上下文敏感的預(yù)測(cè)模塊。
表4:pyramidbox的wider face驗(yàn)證子集的結(jié)果。
論文: pyramid box:a上下文輔助設(shè)計(jì)器
面部檢測(cè)研究從多年前就開(kāi)始了,在不受控制的環(huán)境中檢測(cè)小、模糊和部分隱藏的面部仍然是一個(gè)需要處理的課題。 與棘手的人臉檢測(cè)問(wèn)題相比,本文提出了一種上下文輔助的單一人臉檢測(cè)新方法pyramidbox。 考慮到語(yǔ)境的重要性,我們將從以下三個(gè)方面改進(jìn)語(yǔ)境新聞的利用。 首先,我們?cè)O(shè)計(jì)了全新的語(yǔ)境anchor,用半監(jiān)督的方式監(jiān)督高級(jí)語(yǔ)境特征學(xué)習(xí)。 我們稱(chēng)之為粒子加速器。 其次,我們提出了一種低層二級(jí)特征金字塔互聯(lián)網(wǎng),將足夠高級(jí)別的上下文語(yǔ)義特征和低級(jí)的人臉特征結(jié)合起來(lái),使得pyramidbox能夠一次預(yù)測(cè)所有大小的人臉,而不會(huì)重復(fù)。 再次,我們引入了對(duì)語(yǔ)境敏感的結(jié)構(gòu),擴(kuò)大了預(yù)測(cè)互聯(lián)網(wǎng)的容量,提高了最終的輸出精度。 此外,還使用“數(shù)據(jù)-anchor-采樣”的方法擴(kuò)展了不同大小的訓(xùn)練樣本,增加了小面孔訓(xùn)練數(shù)據(jù)的多樣化。 pyramidbox完全利用語(yǔ)境的價(jià)值,在兩個(gè)常用的人臉檢測(cè)標(biāo)準(zhǔn)fddb和wider face上脫穎而出,取得了目前的優(yōu)勢(shì)水平。
標(biāo)題:“世界權(quán)威評(píng)測(cè)冠軍:百度人臉檢測(cè)算法PyramidBox的背后”
地址:http://www.mawius.com//xwdt/41660.html