湖南人臉識別技術(shù)的發(fā)展歷程
早在20世紀(jì)50年代,認(rèn)知科學(xué)家就已著手對人臉識別展開研究。20世紀(jì)60年代,人臉識別工程化應(yīng)用研究正式開啟。當(dāng)時的方法主要利用了人臉的幾何結(jié)構(gòu),通過分析人臉器官特征點及其之間的拓?fù)潢P(guān)系進(jìn)行辨識。這種方法簡單直觀,但是一旦人臉姿態(tài)、表情發(fā)生變化,則精度嚴(yán)重下降。
1991年,著名的“特征臉”方法[1]第一次將主成分分析和統(tǒng)計特征技術(shù)引入人臉識別,在實用效果上取得了長足的進(jìn)步。這一思路也在后續(xù)研究中得到進(jìn)一步發(fā)揚(yáng)光大,例如,Belhumer成功將Fisher判別準(zhǔn)則應(yīng)用于人臉分類,提出了基于線性判別分析的Fisherface方法[2]。
21世紀(jì)的前十年,隨著機(jī)器學(xué)習(xí)理論的發(fā)展,學(xué)者們相繼探索出了基于遺傳算法、支持向量機(jī)(Support Vector Machine, SVM)、boosting、流形學(xué)習(xí)以及核方法等進(jìn)行人臉識別。 2009年至2012年,稀疏表達(dá)(Sparse Representation)[3]因為其優(yōu)美的理論和對遮擋因素的魯棒性成為當(dāng)時的研究熱點。
與此同時,業(yè)界也基本達(dá)成共識:基于人工精心設(shè)計的局部描述子進(jìn)行特征提取和子空間方法進(jìn)行特征選擇能夠取得最好的識別效果。Gabor[4]及LBP[5]特征描述子是迄今為止在人臉識別領(lǐng)域最為成功的兩種人工設(shè)計局部描述子。這期間,對各種人臉識別影響因子的針對性處理也是那一階段的研究熱點,比如人臉光照歸一化、人臉姿態(tài)校正、人臉超分辨以及遮擋處理等。也是在這一階段,研究者的關(guān)注點開始從受限場景下的人臉識別轉(zhuǎn)移到非受限環(huán)境下的人臉識別。LFW人臉識別公開競賽在此背景下開始流行,當(dāng)時最好的識別系統(tǒng)盡管在受限的FRGC測試集上能取得99%以上的識別精度,但是在LFW上的最高精度僅僅在80%左右,距離實用看起來距離頗遠(yuǎn)。
2013年,MSRA的研究者首度嘗試了10萬規(guī)模的大訓(xùn)練數(shù)據(jù),并基于高維LBP特征和Joint Bayesian方法[6]在LFW上獲得了95.17%的精度。這一結(jié)果表明:大訓(xùn)練數(shù)據(jù)集對于有效提升非受限環(huán)境下的人臉識別很重要。然而,以上所有這些經(jīng)典方法,都難以處理大規(guī)模數(shù)據(jù)集的訓(xùn)練場景。
2014年前后,隨著大數(shù)據(jù)和深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)重受矚目,并在圖像分類、手寫體識別、語音識別等應(yīng)用中獲得了遠(yuǎn)超經(jīng)典方法的結(jié)果。香港中文大學(xué)的Sun Yi等人提出將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到人臉識別上[7],采用20萬訓(xùn)練數(shù)據(jù),在LFW上第一次得到超過人類水平的識別精度,這是人臉識別發(fā)展歷史上的一座里程碑。自此之后,研究者們不斷改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),同時擴(kuò)大訓(xùn)練樣本規(guī)模,將LFW上的識別精度推到99.5%以上。我們給出了人臉識別發(fā)展過程中一些經(jīng)典的方法及其在LFW上的精度,一個基本的趨勢是:訓(xùn)練數(shù)據(jù)規(guī)模越來越大,識別精度越來越高。