百度人臉識別搜索是怎么實(shí)現(xiàn)的?

2013-01-25 13:03:54來源:創(chuàng)事記作者:

如何通過一張圖片,找到另一張圖片?

如何通過一張圖片,找到另一張圖片?

對于搜索引擎而言,尋找圖片之間的內(nèi)在聯(lián)系,與常見的關(guān)鍵詞搜索并沒有本質(zhì)區(qū)別——都是通過關(guān)鍵特征的比對,按照一定的邏輯規(guī)則完成匹配。然而不同之處也是顯而易見的,以圖片為輸入發(fā)起的搜索,存在多種搜索含義的可能。

比方,一張圖片可能既包括風(fēng)景又包括人,用戶想要尋找的是類似風(fēng)景、類似布局結(jié)構(gòu)的圖片還是類似的人?谷歌以圖搜圖功能,甚至可以根據(jù)一張圖片猜出拍攝地,但并不會嘗試對圖片中的人物精確匹配。多數(shù)搜索引擎都會如此。

而且大部分以圖片作為輸入的搜索引擎,例如tineye(2008年上線)、搜狗識圖(2011年上線)等,本質(zhì)上是進(jìn)行圖片近似拷貝檢測,即搜索看起來幾乎完全一樣的圖片。2010年推出的百度識圖(shitu.baidu.com)也是如此。

\
如果用戶給出一張圖片,百度識圖會判斷里面是否出現(xiàn)人臉,如果有,百度識圖在相似圖片搜索之外,同時會全網(wǎng)尋找出現(xiàn)過的類似人像。

在經(jīng)歷兩年多的沉寂之后,百度識圖開始向另一個方向探索。

上周的百度年會中,李彥宏特意提到百度識圖:“以圖搜圖的準(zhǔn)確率從20%提升到80%”。不過與之前相比,百度識圖找到相似圖片的能力似乎并未顯著提升,那么改變從何而來?李彥宏把這種明顯的提升歸因于剛上線的人臉識別搜索。

與之前的區(qū)別在于,如果用戶給出一張圖片,百度識圖會判斷里面是否出現(xiàn)人臉,如果有,百度識圖在相似圖片搜索之外,同時會全網(wǎng)尋找出現(xiàn)過的類似人像。

新增加的技術(shù)簡而言之,首先是人臉檢測并提取出特征表達(dá),隨后再據(jù)此進(jìn)行數(shù)據(jù)庫對比,最后按照相似度排序返回結(jié)果。其實(shí),人臉檢測并不是新技術(shù),相關(guān)研究已有三十年歷史,然而直到去年底,百度才決定推動這一技術(shù)付諸實(shí)施。

這里面自然有戰(zhàn)略層面的考慮。兩年前,李彥宏就對未來做出讀圖時代的判斷;去年的KDD大會上,李彥宏提出的九大待解技術(shù)挑戰(zhàn)中,基于內(nèi)容的圖像搜索技術(shù)被列在第三;現(xiàn)實(shí)層面百度的圖片相關(guān)產(chǎn)品、云相冊等均對這一技術(shù)有需求。

百度還希望借助這一途徑,挖掘圖片之間的聯(lián)系,進(jìn)而激發(fā)二次瀏覽。然而要把想法變?yōu)楝F(xiàn)實(shí),百度至少要解決兩個問題:一是算法,二是數(shù)據(jù)。

——算法方面。同樣是基于圖片進(jìn)行搜索,人臉識別和以圖搜圖并不一樣。百度資深工程師陶吉告訴創(chuàng)事記,百度人臉識別首先并不關(guān)注完整的圖像結(jié)構(gòu),其次顏色也沒有任何意義。最主要的特征表達(dá)來自于臉部紋理,并進(jìn)行一些再加工。

具體算法作為商業(yè)機(jī)密,難以對外界披露。不過資料顯示,目前人臉識別算法中LBP是比較流行的一種特征提取方式,即通過像素周邊8個臨近像素的灰度值和中心灰度值比較,得到一個八位編碼,然后再根據(jù)編碼的直方圖進(jìn)行分類。

而影響算法效果的因素還可能包括預(yù)處理、特征選擇、特征點(diǎn)定位精度、分類器設(shè)計和后處理乃至各種方式的融合、閾值選擇等各個方面。

一張圖片中,人臉至少有40×40像素(約一個指甲蓋大小),才會被當(dāng)作有效的識別對象。如果一張圖片中多個人像,目前百度的解決辦法是僅識別尺寸最大的那個,未來百度將提供焦點(diǎn)選擇功能,用戶可以通過選點(diǎn)確定搜索對象。

——數(shù)據(jù)方面。算法的改善如果算是充分條件,數(shù)據(jù)的處理則是必要條件。從機(jī)器搜索的角度看,光照、姿態(tài)、表情、角度等因素,均是影響巨大的因素,所謂“笑和不笑,都是不同”。所以用來訓(xùn)練的數(shù)據(jù)量越大,變化的包容性就越好。

人臉識別搜索實(shí)際使用時,同一張人臉積累的數(shù)據(jù)越多,越能在匹配對比時提供更好的支持。為此百度需要把全網(wǎng)近百億規(guī)模的圖片抽取出來,然后把沒有人臉的數(shù)據(jù)去掉,再海量掃描一遍,建立起盡量高效的索引。

人臉識別引入搜索引擎,必然會加劇外界關(guān)于隱私泄漏的擔(dān)心。百度強(qiáng)調(diào)人臉?biāo)阉髦粫诠_的信息范圍內(nèi)進(jìn)行,封閉的個人相冊并不會被觸及。

這還涉及準(zhǔn)確率、召回率等概念。假設(shè)數(shù)據(jù)庫里有一百張劉德華的圖片,用劉德華的頭像發(fā)起搜索,前50張結(jié)果中40張是真正的劉德華,那么前50張的召回率就是40%,準(zhǔn)確率是80%。同樣假如數(shù)據(jù)庫中只有兩張路人甲的圖片,當(dāng)用路人甲的頭像發(fā)起搜索,前50張可能只有1張真正的路人甲,那么前50張的召回率是50%,準(zhǔn)確率是2%。

由于名人在網(wǎng)上的照片較多,能被用戶感知到的準(zhǔn)確率要比普通人高很多,而召回率是用戶感知不到的。據(jù)透露,人臉識別搜索技術(shù)會在百度云相冊內(nèi)部進(jìn)一步結(jié)合,幫助用戶在圖片之間建立聯(lián)系,而且未來不排除開放API的可能。

除了上述技術(shù)討論之外,從百度的研發(fā)體系看,人臉識別搜索也頗具代表性。

這個先后投入幾十個工程師、百度基礎(chǔ)技術(shù)部的多媒體部門負(fù)責(zé)核心算法的項(xiàng)目,去年11月下旬立項(xiàng),12月底就已經(jīng)上線運(yùn)行。這個速度在百度并不常見,因此也有人半開玩笑的說這是百度近期“改作風(fēng)”運(yùn)動成效的代表。

值得注意的是百度新成立的基礎(chǔ)技術(shù)部。這個部門由百度首席科學(xué)家王海峰帶領(lǐng),并且直接向李彥宏匯報。據(jù)說一些李彥宏會親自參與一些重點(diǎn)項(xiàng)目。自然語言處理、互聯(lián)網(wǎng)數(shù)據(jù)挖掘、多媒體、推薦和個性化等技術(shù)研發(fā),均由百度基礎(chǔ)技術(shù)部負(fù)責(zé)。

還是在百度年會上,談及近期遇到的挑戰(zhàn),李彥宏稱百度不會忽視渠道的價值,但技術(shù)才是未來產(chǎn)業(yè)的關(guān)鍵。“相信技術(shù)的力量,未來就在我們手里”,李彥宏發(fā)出這樣的號召。顯然,百度的“變奏”已是必然要上演。


關(guān)鍵詞:百度人臉識別搜索

贊助商鏈接: