百度人臉識別搜索是怎么實(shí)現(xiàn)的？

2013-01-25 13:03:54來源：創(chuàng)事記作者：

如何通過一張圖片，找到另一張圖片？

對于搜索引擎而言，尋找圖片之間的內(nèi)在聯(lián)系，與常見的關(guān)鍵詞搜索并沒有本質(zhì)區(qū)別——都是通過關(guān)鍵特征的比對，按照一定的邏輯規(guī)則完成匹配。然而不同之處也是顯而易見的，以圖片為輸入發(fā)起的搜索，存在多種搜索含義的可能。

比方，一張圖片可能既包括風(fēng)景又包括人，用戶想要尋找的是類似風(fēng)景、類似布局結(jié)構(gòu)的圖片還是類似的人？谷歌以圖搜圖功能，甚至可以根據(jù)一張圖片猜出拍攝地，但并不會嘗試對圖片中的人物精確匹配。多數(shù)搜索引擎都會如此。

而且大部分以圖片作為輸入的搜索引擎，例如tineye(2008年上線)、搜狗識圖(2011年上線)等，本質(zhì)上是進(jìn)行圖片近似拷貝檢測，即搜索看起來幾乎完全一樣的圖片。2010年推出的百度識圖(shitu.baidu.com)也是如此。

如果用戶給出一張圖片，百度識圖會判斷里面是否出現(xiàn)人臉，如果有，百度識圖在相似圖片搜索之外，同時會全網(wǎng)尋找出現(xiàn)過的類似人像。

在經(jīng)歷兩年多的沉寂之后，百度識圖開始向另一個方向探索。

上周的百度年會中，李彥宏特意提到百度識圖：“以圖搜圖的準(zhǔn)確率從20%提升到80%”。不過與之前相比，百度識圖找到相似圖片的能力似乎并未顯著提升，那么改變從何而來？李彥宏把這種明顯的提升歸因于剛上線的人臉識別搜索。

與之前的區(qū)別在于，如果用戶給出一張圖片，百度識圖會判斷里面是否出現(xiàn)人臉，如果有，百度識圖在相似圖片搜索之外，同時會全網(wǎng)尋找出現(xiàn)過的類似人像。

新增加的技術(shù)簡而言之，首先是人臉檢測并提取出特征表達(dá)，隨后再據(jù)此進(jìn)行數(shù)據(jù)庫對比，最后按照相似度排序返回結(jié)果。其實(shí)，人臉檢測并不是新技術(shù)，相關(guān)研究已有三十年歷史，然而直到去年底，百度才決定推動這一技術(shù)付諸實(shí)施。

這里面自然有戰(zhàn)略層面的考慮。兩年前，李彥宏就對未來做出讀圖時代的判斷；去年的KDD大會上，李彥宏提出的九大待解技術(shù)挑戰(zhàn)中，基于內(nèi)容的圖像搜索技術(shù)被列在第三；現(xiàn)實(shí)層面百度的圖片相關(guān)產(chǎn)品、云相冊等均對這一技術(shù)有需求。

百度還希望借助這一途徑，挖掘圖片之間的聯(lián)系，進(jìn)而激發(fā)二次瀏覽。然而要把想法變?yōu)楝F(xiàn)實(shí)，百度至少要解決兩個問題：一是算法，二是數(shù)據(jù)。

——算法方面。同樣是基于圖片進(jìn)行搜索，人臉識別和以圖搜圖并不一樣。百度資深工程師陶吉告訴創(chuàng)事記，百度人臉識別首先并不關(guān)注完整的圖像結(jié)構(gòu)，其次顏色也沒有任何意義。最主要的特征表達(dá)來自于臉部紋理，并進(jìn)行一些再加工。

具體算法作為商業(yè)機(jī)密，難以對外界披露。不過資料顯示，目前人臉識別算法中LBP是比較流行的一種特征提取方式，即通過像素周邊8個臨近像素的灰度值和中心灰度值比較，得到一個八位編碼，然后再根據(jù)編碼的直方圖進(jìn)行分類。

而影響算法效果的因素還可能包括預(yù)處理、特征選擇、特征點(diǎn)定位精度、分類器設(shè)計和后處理乃至各種方式的融合、閾值選擇等各個方面。

一張圖片中，人臉至少有40×40像素(約一個指甲蓋大小)，才會被當(dāng)作有效的識別對象。如果一張圖片中多個人像，目前百度的解決辦法是僅識別尺寸最大的那個，未來百度將提供焦點(diǎn)選擇功能，用戶可以通過選點(diǎn)確定搜索對象。

——數(shù)據(jù)方面。算法的改善如果算是充分條件，數(shù)據(jù)的處理則是必要條件。從機(jī)器搜索的角度看，光照、姿態(tài)、表情、角度等因素，均是影響巨大的因素，所謂“笑和不笑，都是不同”。所以用來訓(xùn)練的數(shù)據(jù)量越大，變化的包容性就越好。

人臉識別搜索實(shí)際使用時，同一張人臉積累的數(shù)據(jù)越多，越能在匹配對比時提供更好的支持。為此百度需要把全網(wǎng)近百億規(guī)模的圖片抽取出來，然后把沒有人臉的數(shù)據(jù)去掉，再海量掃描一遍，建立起盡量高效的索引。

人臉識別引入搜索引擎，必然會加劇外界關(guān)于隱私泄漏的擔(dān)心。百度強(qiáng)調(diào)人臉?biāo)阉髦粫诠_的信息范圍內(nèi)進(jìn)行，封閉的個人相冊并不會被觸及。

這還涉及準(zhǔn)確率、召回率等概念。假設(shè)數(shù)據(jù)庫里有一百張劉德華的圖片，用劉德華的頭像發(fā)起搜索，前50張結(jié)果中40張是真正的劉德華，那么前50張的召回率就是40%，準(zhǔn)確率是80%。同樣假如數(shù)據(jù)庫中只有兩張路人甲的圖片，當(dāng)用路人甲的頭像發(fā)起搜索，前50張可能只有1張真正的路人甲，那么前50張的召回率是50%，準(zhǔn)確率是2%。

由于名人在網(wǎng)上的照片較多，能被用戶感知到的準(zhǔn)確率要比普通人高很多，而召回率是用戶感知不到的。據(jù)透露，人臉識別搜索技術(shù)會在百度云相冊內(nèi)部進(jìn)一步結(jié)合，幫助用戶在圖片之間建立聯(lián)系，而且未來不排除開放API的可能。

除了上述技術(shù)討論之外，從百度的研發(fā)體系看，人臉識別搜索也頗具代表性。

這個先后投入幾十個工程師、百度基礎(chǔ)技術(shù)部的多媒體部門負(fù)責(zé)核心算法的項(xiàng)目，去年11月下旬立項(xiàng)，12月底就已經(jīng)上線運(yùn)行。這個速度在百度并不常見，因此也有人半開玩笑的說這是百度近期“改作風(fēng)”運(yùn)動成效的代表。

值得注意的是百度新成立的基礎(chǔ)技術(shù)部。這個部門由百度首席科學(xué)家王海峰帶領(lǐng)，并且直接向李彥宏匯報。據(jù)說一些李彥宏會親自參與一些重點(diǎn)項(xiàng)目。自然語言處理、互聯(lián)網(wǎng)數(shù)據(jù)挖掘、多媒體、推薦和個性化等技術(shù)研發(fā)，均由百度基礎(chǔ)技術(shù)部負(fù)責(zé)。

還是在百度年會上，談及近期遇到的挑戰(zhàn)，李彥宏稱百度不會忽視渠道的價值，但技術(shù)才是未來產(chǎn)業(yè)的關(guān)鍵。“相信技術(shù)的力量，未來就在我們手里”，李彥宏發(fā)出這樣的號召。顯然，百度的“變奏”已是必然要上演。

關(guān)鍵詞：百度人臉識別搜索

百度人臉識別搜索是怎么實(shí)現(xiàn)的？

相關(guān)閱讀:

贊助商鏈接:

百度人臉識別搜索是怎么實(shí)現(xiàn)的？

相關(guān)閱讀:

贊助商鏈接:

百度人臉識別搜索是怎么實(shí)現(xiàn)的？