內(nèi)容決定社區(qū),品質(zhì)選擇用戶
到底是什么決定了2011年社區(qū)產(chǎn)品(以SNS為代表)在國(guó)內(nèi)外發(fā)展的紅紅火火,Web2.0大行其道?點(diǎn)點(diǎn)雖給不出一個(gè)絕對(duì)的答案,不過不難看出,信息爆炸對(duì)時(shí)代的沖擊,徹底地改變著人們的生活方式,也為這個(gè)時(shí)代的發(fā)展全方位拓寬了方向。從最初的基礎(chǔ)的信息獲取渠道——報(bào)紙電視,到新生的高速信息渠道——互聯(lián)網(wǎng),大量信息獲取對(duì)日常生活的沖擊越來(lái)越大,使得人們對(duì)信息的實(shí)時(shí)性要求變得越來(lái)越高。在Web1.0時(shí)代,網(wǎng)站創(chuàng)造、整合、推送內(nèi)容,用戶僅僅作為內(nèi)容的消費(fèi)者,這樣對(duì)用戶來(lái)說(shuō),獲取內(nèi)容的品質(zhì)有保證,對(duì)網(wǎng)站來(lái)說(shuō),也可以很好地主導(dǎo)社區(qū)走向,相對(duì)容易形成社區(qū)良好的氛圍?墒请S著用戶對(duì)數(shù)據(jù)量的要求越來(lái)越大,Web1.0社區(qū)逐漸有些力不從心,需求催生了Web2.0里用戶既是內(nèi)容和數(shù)據(jù)的產(chǎn)生者,整理收集者,信息守門員,同時(shí)也作為內(nèi)容消費(fèi)者的新型互動(dòng)模式,讓用戶自發(fā)地形成圈子,可新的問題隨之到來(lái):用戶產(chǎn)生內(nèi)容良莠不齊,話題也不集中,怎么辦?在這個(gè)狀況下,就有了相應(yīng)的數(shù)據(jù)挖掘/ 推薦系統(tǒng)。
“人工”智能
眾所周知,數(shù)據(jù)挖掘與推薦是在有一定數(shù)據(jù)量基礎(chǔ)上的算法,所以大家在比較大的網(wǎng)站做數(shù)據(jù)挖掘相對(duì)容易,數(shù)據(jù)的分類聚類效果會(huì)更好,那么在網(wǎng)站初期,或者大網(wǎng)站在開辟一個(gè)新的內(nèi)容形式時(shí)該如何進(jìn)行機(jī)器學(xué)習(xí)?
在點(diǎn)點(diǎn)網(wǎng)最初就遇到了這樣的問題,我們采取的方案就是采用“人工”智能,讓用戶參與進(jìn)來(lái)對(duì)內(nèi)容進(jìn)行分類與高品質(zhì)數(shù)據(jù)的篩選,通過鼓勵(lì)用戶給不同內(nèi)容增加不同的標(biāo)簽來(lái)進(jìn)行精準(zhǔn)的分類,通過用戶對(duì)一個(gè)內(nèi)容的喜歡分享,對(duì)博客的分類推薦來(lái)收集精品內(nèi)容,精品博客。也即:增加數(shù)據(jù)的多樣性,從盡可能多的角度去考查現(xiàn)有的少量數(shù)據(jù),同時(shí)采用類似PAGE RANK的思想,好的內(nèi)容由好博客產(chǎn)生,好博客產(chǎn)生好的內(nèi)容。
在處理點(diǎn)點(diǎn)的數(shù)據(jù)時(shí)主要有以下幾個(gè)方面
- 文章聚合
在處理文章時(shí)首先會(huì)根據(jù)作者帶的標(biāo)簽情況做有監(jiān)督的聚合,可有時(shí)也會(huì)發(fā)現(xiàn)用戶誤用標(biāo)簽的情況,比方說(shuō)為了增加文章的曝光率加入了許多同義標(biāo)簽,對(duì)這樣的標(biāo)簽就需要進(jìn)行初步的同義詞篩選。做了聚合之后的數(shù)據(jù)就可以應(yīng)用于標(biāo)簽系統(tǒng)。其次就是對(duì)原文做切詞處理,并且加入原博客自帶屬性。這部分?jǐn)?shù)據(jù)可以應(yīng)用于內(nèi)容推薦
- 標(biāo)簽相關(guān)度
相關(guān)度主要用于測(cè)量不同標(biāo)簽之間的向量距離,用來(lái)衡量不同標(biāo)簽之間的相關(guān)程度,包括用戶對(duì)標(biāo)簽的誤拼等修正,從數(shù)據(jù)方面提供給其它算法以提高文章分類的準(zhǔn)備度,另一方面從產(chǎn)品角度在用戶填寫標(biāo)簽時(shí)做相關(guān)標(biāo)簽建議
- 博客聚合
在點(diǎn)點(diǎn)里,一個(gè)用戶可以擁有多個(gè)不同興趣愛好的博客,這提供給用戶便利的管理內(nèi)容與關(guān)系網(wǎng)絡(luò)的方法,我們?cè)趯?duì)文章按照博客進(jìn)行聚合時(shí)會(huì)依據(jù)博客類型進(jìn)行區(qū)分,對(duì)默認(rèn)博客劃分為用戶關(guān)系網(wǎng)絡(luò),在默認(rèn)博客里的關(guān)注與被關(guān)注假定為線下/線上關(guān)系的映射,不參與內(nèi)容向量劃分。
對(duì)于關(guān)注量較大的子博會(huì)用歷史的標(biāo)簽以及博客本身標(biāo)簽構(gòu)建聚合中心,對(duì)內(nèi)容向量進(jìn)行權(quán)重加成。
- 熱度排序
在對(duì)所有內(nèi)容做好向量圖規(guī)劃后,會(huì)依據(jù)不同展現(xiàn)需求做圖切割。對(duì)達(dá)到閾值的內(nèi)容做熱度排序,主要通過用戶對(duì)內(nèi)容的喜歡,轉(zhuǎn)發(fā)等交互,以及小編的評(píng)分來(lái)考究這方面的加權(quán),對(duì)排序靠前的內(nèi)容在無(wú)用戶興趣指向性等推薦位進(jìn)行展現(xiàn),比方說(shuō)發(fā)現(xiàn)墻,針對(duì)有興趣指向性的內(nèi)容在原圖切割的基礎(chǔ)上再做好排序,這樣就可以在雷達(dá)等位置進(jìn)行有針對(duì)性地展現(xiàn)。
“你的數(shù)據(jù)挖掘!” “是點(diǎn)點(diǎn)的數(shù)據(jù)挖掘。”
數(shù)據(jù)挖掘算法在不同的場(chǎng)景下需要做相應(yīng)的調(diào)整,這樣才能很好地適應(yīng)不同的環(huán)境,算法做出的推薦內(nèi)容也最符合用戶的胃口。特別是點(diǎn)點(diǎn)最初的這一套方案上線運(yùn)行一段時(shí)間后,我們發(fā)現(xiàn)熱點(diǎn)數(shù)據(jù)越來(lái)越集中,推薦的效果逐漸變差,同時(shí)不利于隱性內(nèi)容的挖掘。而且在點(diǎn)點(diǎn)更注重的是人與內(nèi)容的關(guān)系,需要提煉人與內(nèi)容的共性,使兩者更緊密的聚合在一起。人是會(huì)變化的,而內(nèi)容是不變的,所以這里就需要分別對(duì)待,對(duì)內(nèi)容的分類處理時(shí)效性更長(zhǎng),而對(duì)人的分類時(shí)效性就會(huì)沒那么長(zhǎng)。
這世界上唯一不變的就是“變化”
在面對(duì)上面的問題時(shí),將后端推薦算法做相應(yīng)的改進(jìn),把用戶的關(guān)系網(wǎng)絡(luò)以及興趣網(wǎng)絡(luò)做了數(shù)據(jù)分析:
- 用戶關(guān)系模型
用戶的主博客主要體現(xiàn)了線上/線下的好友關(guān)系,對(duì)于互相follow的情況聚合成用戶關(guān)系簇,通過對(duì)數(shù)據(jù)的分析,會(huì)發(fā)現(xiàn)同一個(gè)群體的用戶在關(guān)系劃分時(shí)會(huì)更集中在同一個(gè)集合內(nèi),同時(shí)用戶的交互行為也更加密切,所以當(dāng)出現(xiàn)新用戶在做博客推薦的時(shí)候就可以通過查找好友的好友來(lái)促進(jìn)用戶生成自己的圈子。提高用戶的粘性,隨后通過分析單向follow關(guān)系來(lái)考查用戶興趣圈子。
- 用戶興趣模型
用戶的興趣圈子與關(guān)系圈子最大的區(qū)別在于它會(huì)隨著時(shí)間推移在不斷地改變,在不同的階段,每個(gè)人的興趣愛好也在發(fā)生著變化。如果在這時(shí)做推薦還是基于歷史所有的數(shù)據(jù),那未免會(huì)讓用戶有“這個(gè)推薦以前不是挺好的么,現(xiàn)在怎么越來(lái)越差了”的想法。所以在做推薦的時(shí)候,需要把有時(shí)效性的數(shù)據(jù)獨(dú)立出來(lái)考慮,這里還需要有折中,如果時(shí)間選擇的太短,那數(shù)據(jù)量小就會(huì)波動(dòng)特別大,如果時(shí)間選擇的太長(zhǎng),那實(shí)時(shí)性又得不到保證。在這里我們選擇時(shí)效性就需要依據(jù)不同的內(nèi)容。點(diǎn)點(diǎn)里對(duì)“滑雪”這類的內(nèi)容歸類為“seasonally”,而“閱讀”就歸類為“decade”(同時(shí)歸在這一類的還有攝影等...),同時(shí)還對(duì)一級(jí)子類進(jìn)行細(xì)分,比方說(shuō)在“音樂”類別下的“搖滾”就歸類為“yearly”。這樣對(duì)人做分類時(shí),他的歷史數(shù)據(jù)就可以有不同的權(quán)重,然而上文已經(jīng)把內(nèi)容做好了分類,如此這般就可以提高推薦算法的精確度。
在“變化”這個(gè)話題里還有一類的變化時(shí)效性更高,它已經(jīng)有別于“興趣”,那就是位置數(shù)據(jù)。在移動(dòng)互聯(lián)網(wǎng)火地?zé)ü傻漠?dāng)下,如何高效地利用用戶的碎片時(shí)間,提高即時(shí)的數(shù)據(jù)推薦的準(zhǔn)確性也是正在內(nèi)部研究的一個(gè)方向,包括用戶到達(dá)一個(gè)商區(qū)后是提高美食的內(nèi)容還是電影影評(píng)?這些算法都基于事先把內(nèi)容分好類(省下了很多的計(jì)算量),然后通過用戶的一兩個(gè)關(guān)鍵信息做出實(shí)時(shí)準(zhǔn)確推薦等。
我知道你想知道你不知道的東西
一個(gè)社區(qū)的好壞,能否留住新用戶,很大一部分關(guān)系就在于顯性內(nèi)容的優(yōu)質(zhì)程度,一個(gè)新用戶進(jìn)來(lái)一看,哇,都是喜歡的好東西。贊!那他就會(huì)不自覺地看看這,點(diǎn)點(diǎn)那,增加在社區(qū)停留的時(shí)間,才有可能深入體驗(yàn)產(chǎn)品細(xì)節(jié)。所以很多社區(qū)都在做的一件事,就是隱性內(nèi)容的挖掘,每個(gè)社區(qū)都或多或少地有些人力貢獻(xiàn)在尋找隱性高品質(zhì)內(nèi)容上面,而把不那么優(yōu)秀的數(shù)據(jù)權(quán)重調(diào)低,相信在運(yùn)營(yíng)了一些時(shí)日的網(wǎng)站里都已經(jīng)沉淀了很多很好的數(shù)據(jù),那么如何把老數(shù)據(jù)展現(xiàn)給用戶呢?如果是個(gè)新聞,那就沒有重現(xiàn)天日的價(jià)值了,如果是一個(gè)游記,那就有很高的價(jià)值再次推薦給用戶看,在這里再次出現(xiàn)了“時(shí)間”的概念,所以把內(nèi)容和人做區(qū)別處理, “時(shí)間”標(biāo)簽打在“人”身上是很有必要的,這樣內(nèi)容就更多地與時(shí)間無(wú)關(guān),只要是用戶沒看過的內(nèi)容,多一次展現(xiàn)機(jī)會(huì)又何妨?
數(shù)據(jù)挖掘與推薦是個(gè)很有趣的話題,在這里淺顯地分享些SNS數(shù)據(jù)挖掘的思路,避開枯燥無(wú)味的公式和理論,點(diǎn)點(diǎn)也還有很長(zhǎng)的路要走,歡迎對(duì)這方面有興趣的朋友一起交流。