A/B 測試通常用來測量兩個或多個方案在某一單一維度上的績效表現(xiàn)。通俗的說,就是用盡可能科學(xué)嚴(yán)謹(jǐn)?shù)姆椒,對比方案之間的優(yōu)劣。這種方法雖然是穿白大褂的科學(xué)家發(fā)明并用于科學(xué)實驗,但現(xiàn)在它已經(jīng)被善于借鑒的市場專家、用戶體驗專家們廣泛地應(yīng)用在市場研究、產(chǎn)品界面方案評估等更“感性”的領(lǐng)域。
對于界面改進(jìn)設(shè)計,A/B測試通常由控制版本和對照版本組成,即A為當(dāng)前線上方案,B為改進(jìn)方案。通過小流量線上平臺測試,考察對方案評估比較重要的績效數(shù)據(jù),如點擊率、停留時間、出錯率等。
為什么要進(jìn)行A/B測試?
首先,在用戶體驗行業(yè),哪個方案好哪個方案要被拍掉這樣的討論、辯論、爭論無時無刻不在世界各地重復(fù)上演。不知道聽誰的,主要是因為大家的理由都來自于“推理”。雖然UCD已經(jīng)深入人心,但仍然避免不了博弈各方自詡為用戶代言人,推想用戶的行為。而此時,A/B測試的威力就變得特別顯眼。它在用于界面方案評估時可以提供客觀、準(zhǔn)確的數(shù)據(jù)。哪種方案點擊率高、哪種方案更有利于將用戶的點擊轉(zhuǎn)化為在線購買行為等問題,可以通過數(shù)據(jù)獲得清晰、明確的結(jié)論。讓數(shù)據(jù)說話,大家不知道要少費多少口舌,為公司省下多少礦泉水呢。
第二,A/B測試不僅可以回答哪種方案好的問題,更有可能回答好多少的問題。在日常設(shè)計中,經(jīng)常出現(xiàn)這樣的困擾:在一番廝殺博弈后,已經(jīng)沒有人懷疑新設(shè)計方案能比原方案有更好的效果。但至此,還不能天真地認(rèn)為萬事大吉了。方案仍然會被質(zhì)疑:“為了這一點效果的改善,是否值得動用寶貴的開發(fā)資源?”如果此時可以使用A/B測試,定量的回答新方案比原方案在關(guān)鍵指標(biāo)上的改善率,則可以有效的評估成本和效益,幫助進(jìn)行設(shè)計決策。值不值得給研發(fā)密密麻麻的排期表上再添一行,大家心里都更清楚了一些。
測試哪些內(nèi)容?
總體上說,任何可以讓用戶的行為造成變化的內(nèi)容都可以進(jìn)行A/B測試。但在界面設(shè)計中,經(jīng)常進(jìn)行以下內(nèi)容的測試:
按鍵大小、顏色、位置
標(biāo)題、文案風(fēng)格
文字長度、大小、間隔
表單數(shù)量、字段類型
頁面布局、結(jié)構(gòu)
……
一次只改變一個變量
在設(shè)計A/B測試時,每次測試,無論對比方案有多少,都只能在一個地方進(jìn)行改動。
如果你發(fā)現(xiàn),按鈕大小和顏色都可能影響該按鈕的點擊率,那么你需要分別進(jìn)行三組測試。第一組,只變化按鈕的大小,其他方面均保持不變;第二組實驗則只變化按鈕顏色。如果你對比的方案中,既有按鈕大小的變化又有按鈕顏色的變化,那么在分析結(jié)果時則完全無法分清,某方案的績效改善到底是由哪個因素決定的。
足夠的流量
在很多時候,A/B測試不是一種快速的研究方法,你需要耐心的積累數(shù)據(jù)流量。如果流量不夠,我們則無法區(qū)分考察點的績效差異是由于方案不同造成的還是由于樣本量的偶然因素造成的。此外,還應(yīng)該避免流量的巨大波動。往往訪問量的異動通常是受到某些突發(fā)偶然事件的影響,無法真實反映出實驗的效果。
拉開方案之間的距離
測試方案之間應(yīng)該保證一定程度的差異,這樣可以最大程度地提高測試的效率。如果對比方案間差異過小,一方面測試結(jié)果有可能無法發(fā)現(xiàn)統(tǒng)計學(xué)上有意義的明顯差異。另一方面,即使方案差異明顯,也不易進(jìn)行下一步測試。舉個例子,如果你發(fā)現(xiàn)12X12的圖標(biāo)比11X11的圖標(biāo)方案效果更好,那么你是不是需要實驗一下13X13呢?如果13X13好,那么14X14呢?這樣下去可能需要太多輪測試,你才能發(fā)現(xiàn)原來20X20的圖標(biāo)效果最好。所以,步子邁得大一些,可以更快的找到答案。
總之,AB測試是一種行之有效、豐儉由人、可龐大可迷你的不錯的研究方法。正確的使用會帶來事半功倍的效果。從今天開始,大膽的AB一下吧!AB測試是一種態(tài)度,AB測試是一種生活方式…