
前段時間用博客的幾個測試頁面嘗試了下使用Google Website Optimizer做A/B測試,經過這段時間收集了一些測試數據,感謝大家幫忙點擊。其實之前一直想介紹Google的這個網站對比實驗優化工具,完全免費而且操作簡單,并且在不久的將來獨立的Google Website Optimizer就會消失,這塊功能會被整合到Google Analytics里面,相信很多GA的用戶已經在Content模塊中發現了新增的Experiments這個功能,這個就是從Google Website Optimizer衍生而來,功能和使用上面應該會有些調整和變化。
對于Google Website Optimizer的使用其實并沒有那么復雜,使用實驗的創建向導結合網頁的提示和幫助,普通的用戶創建自己的實驗完全沒有問題,只是網站的千差萬別可能有很多的細節方面需要注意,或者需要想一些辦法讓實驗過程和監控結果更加有效。所以這里不介紹GWO工具使用本身,我比較感興趣的其實是實驗輸出的結果報表,里面涉及對結果的區間預估,測試方案勝出的概率,提升幅度等,這些指標都用統計學的方法計算得到,相比直接比較兩組觀察值,比較結果更加科學,更具說服力。
首先看下GWO輸出的報告,這里用的是A/B測試,如果使用Multivariate Testing(MVT)報告會有細微的差異,但指標及統計邏輯應該是相同的:

我用GWO實現了一個最簡單的A/B測試,一個原始版本和一個測試版本,輸出的報告主要是比較實驗過程中設定的轉化率。上方的折線圖顯示的是原始版本和實驗版本的轉化率趨勢,截至目前的轉化情況顯示在下方表格的最右側(Conv./Visitors),從指標名稱看,GWO衡量轉化率用的是轉化的用戶數,應該使用Cookie來唯一識別用戶(這里僅是在博客新建了幾個簡單測試頁面,所以數據量較小,而轉化率相比正常網站都明顯偏高)。
所以,這里重點研究了下圖中表格紅框內的3個指標,看它們是如何計算得到的。
估算轉化率
從圖中紅框1中可以看到Est. conv. rate,GWO報表對目前得到的轉化率做了正負區間的預估,進而可以得到目前該版本轉化率可能的置信區間(詳見前一篇文章——參數估計與置信區間),這里用當前的轉化率估計該版本的總體轉化率p,進而可以計算得到總體標準差σ= sqrt(p(1-p)/n),比如這里原始版本的總體標準差約為0.0540,而測試版本的標準差約為0.0647,根據Zα/2×σ計算得到的上表中正負的7.6%和9.1%,所以我們就可以猜出GWO用的Zα/2大概為1.4,這個數值我在測試期間接連驗證過幾次,基本非常穩定,根據Z值表,這個置信區間大概的置信度在84%,也不知道為什么GWO要選擇這么個置信度。
紅框1的上方我們可以看到GWO根據測試的效果將測試版本分成了三類,分別用綠色表示勝出的測試版本,黃色表示不確定的測試版本,紅色表示落敗的測試版本。Google僅給出了簡單的說明,建議我們可以選擇使用顯示為綠色的版本,因為它們有很大的可能性(也只是可能)優于原始版本,而顯示紅色版本建議可以停止測試。具體到指標需要達到怎樣的水平才會顯示綠色或紅色,我沒有去驗證,有使用經驗的或者感興趣的同學可以去觀察下試試。
勝過原始版本的幾率
之前在T檢驗和卡方檢驗這篇文章介紹過可以使用卡方檢驗的方法來比較二項分布數據間的概率是否存在顯著差異,但卡方檢驗只能檢驗差異的顯著性,沒法直接說明某組樣本的概率有多少的幾率超過另外一個樣本,所以在GWO的報告里面沒有使用卡方檢驗,而使用了單尾Z檢驗。當樣本數量超過30的時候,我們一般會使用Z檢驗來替代T檢驗比較兩組獨立或配對樣本間的均值差異,因為這里只是為了證明一組樣本概率明顯超過另外一組樣本的可能性,所以使用了單尾檢驗。計算Z統計量的公式如下:

根據表格的數據,原始方案和測試方案的轉化率均值p分別為78.9%和78.0%,根據公式S2=p(1-p)分別計算兩組樣本的方差為0.1665和0.1716,而兩組樣本數n分別為57和41,進而計算得到Z=0.1068,查Z值表可得Z=0.10的概率為46.02%,Z=0.11的概率為45.62%,表中顯示的Chance to Beat Orig.=45.9%,介于兩者之間,使用的應該是類似的統計方法得到的值,偏差是因為中間精度處理引起的。
觀察到的改進
圖中紅框3的Observed improvement,這個指標需要結合紅框1的轉化率置信區間來看,結合條形圖可以比較清晰地得出結果,看下我用Excel畫的展現估算轉化率的類似條形圖:

這里我用了兩條輔助的虛線,如果第一個是原始版本,那么測試版本所有與原始版本轉化率預估區間的差異都會用顏色展現,而觀察到的改進就是著色區間的轉化率差異。比如圖中第二個條形的紅色區間展現的相應值為-4.2%,而第三個應該是-1.6%+0.6%=-1.0%,即左側的負值區間加上右側的正值區間,第四個為2.9%。這樣GWO報表中所有指標的計算都可以明確了。
其實,大部分時候我們使用工具來完成分析或測試的過程,也不一定非要了解所有指標最底層的計算邏輯,我們只要知道這些指標的含義及作用,在分析具體問題時合理地使用這些指標就可以。而有些時候我們只能統計得到一些基礎數據,所以如何使用這些基礎數據得到一些有價值有說服力的分析結論就需要用到一些合適的統計學方法,這也是這篇文章去解讀GWO輸出報表的原因。
» 本文采用 BY-NC-SA 協議,轉載請注明來源:網站數據分析 » 《Google Website Optimizer報告解讀》