在網(wǎng)站分析中,經(jīng)常會(huì)做網(wǎng)站優(yōu)化測(cè)試,就會(huì)比較不同方案的轉(zhuǎn)換率,例如跳出率,訂單購(gòu)買率,按鈕點(diǎn)擊率等;也會(huì)記錄訪客或者客戶的詳細(xì)數(shù)據(jù)表現(xiàn)。但很多時(shí)候差異都很小,究竟是保持現(xiàn)狀還是全面采用新方案的內(nèi)容,很難有結(jié)論,于是兩者差異在統(tǒng)計(jì)學(xué)的意義是否顯著就變得很重要。
這篇文章主要講解兩種檢驗(yàn)數(shù)據(jù)的方法:分別是在Excel中使用已經(jīng)寫(xiě)好函數(shù)的數(shù)據(jù)顯著性計(jì)算器,和使用SPSS對(duì)詳細(xì)客戶數(shù)據(jù)進(jìn)行顯著性檢驗(yàn)。
一、Excel-數(shù)據(jù)顯著性計(jì)算器
假設(shè)有下列的數(shù)據(jù):
社交媒體來(lái)源訪問(wèn)數(shù)訂單訂單購(gòu)買率
YouTube250008903.56%
Facebook48002405%
那么我們可以使用Avinash Kaushik介紹的Excel-數(shù)據(jù)顯著性計(jì)算器來(lái)檢驗(yàn),詳細(xì)請(qǐng)查看http://www.kaushik.net/avinash/excellent-analytics-tip1-statistical-significance/
Excel文件可從此處下載: http://vdisk.weibo.com/s/cz9E6
輸入數(shù)據(jù)后計(jì)算得知(Number of Test Participants是分母,Number of Conversions是分子),差異是顯著的,因?yàn)榉娇蛑酗@示了”Yes”


以上方法的原理是兩組數(shù)據(jù)的差異超過(guò)了數(shù)據(jù)置信區(qū)間的話,那么就會(huì)出現(xiàn)數(shù)據(jù)顯著性差異的結(jié)果。
以上的方法適用于簡(jiǎn)單的兩個(gè)比率之間的對(duì)比,接下來(lái)要說(shuō)說(shuō)高級(jí)點(diǎn)的內(nèi)容,SPSS中的假設(shè)檢驗(yàn)問(wèn)題來(lái)比較兩個(gè)樣本的均值。
二、兩獨(dú)立樣本T檢驗(yàn)
SPSS中比較均值的方法包括:
假設(shè)檢驗(yàn)的方法樣本變量關(guān)系范例
均值(單雙因素)單樣本變量之間網(wǎng)站分析師的月(工資、經(jīng)驗(yàn)、工作地點(diǎn))關(guān)系
單樣本T檢驗(yàn)單樣本變量自身iPhone的機(jī)身長(zhǎng)度
兩獨(dú)立樣本T檢驗(yàn)雙樣本變量之間不同促銷方案的效果、男女性的身高
配對(duì)樣本T檢驗(yàn)同一總體雙樣本變量自身不同月份訪客的購(gòu)買行為
在介紹兩獨(dú)立樣本T檢驗(yàn)之前,先說(shuō)下均值的比較情況,由淺入深。
1.均值的檢驗(yàn)
假設(shè)檢驗(yàn)的步驟一般分為以下幾步:
1)確定原假設(shè)和備選假設(shè)(原假設(shè)就的意思是對(duì)總體的比例、均值或分布做出某種假設(shè))
2)選擇檢驗(yàn)統(tǒng)計(jì)量
3)計(jì)算檢驗(yàn)統(tǒng)計(jì)量觀測(cè)值發(fā)生的概率,P值
4)給定顯著性水平α, 如果P<α, 即小概率事件發(fā)生,即原假設(shè)發(fā)生的概率很小,那么推翻原假設(shè),如果P>α, 那么原假設(shè)成立。
假設(shè)有以下兩種情況:
1)工廠的質(zhì)量管理員說(shuō):產(chǎn)品缺陷率只有1/1000, 然后你開(kāi)始抽查,抽了5件,就有2件是有問(wèn)題的,那么問(wèn)題就大單了。
因?yàn)?000件中最大缺陷數(shù)是1件,現(xiàn)在有2件,也就是概率極小的事情發(fā)生。
最大缺陷數(shù)原假設(shè)檢驗(yàn)結(jié)論
11/10002/5否定
2)工廠的質(zhì)量管理員說(shuō):產(chǎn)品缺陷率只有1/100,然后你開(kāi)始抽查,抽了5件,就有2件是有問(wèn)題的,那么問(wèn)題也挺大單。
1000件中最大缺陷數(shù)是10,現(xiàn)在有2件,接下來(lái)還有995件要查,那么有兩種可能:
*產(chǎn)品缺陷率遠(yuǎn)遠(yuǎn)高于1%,質(zhì)量管理員忽悠人;
*碰巧抽到有缺陷的產(chǎn)品,接下來(lái)的995件很少有缺陷的了。
概率計(jì)算:

原假設(shè):也就是假設(shè)產(chǎn)品缺陷率是1/100, 前面抽了5件,就有2件次品的概率是0.088%;
最大缺陷數(shù)原假設(shè)檢驗(yàn)結(jié)論
101/1002/5未定
抽5件中2件,后續(xù)抽查產(chǎn)品缺陷率小于1/100的的概率為0.088%;抽5件中2件,后續(xù)抽查產(chǎn)品缺陷率大于1/100的的概率為99.912%,即原假設(shè)發(fā)生的概率<α,如果α為5%,那么0.088%<5%, 即檢驗(yàn)中的小概率事件發(fā)生,原本不太可能的事情發(fā)生了,那么推翻原假設(shè)。
注意:數(shù)據(jù)案例來(lái)自李洪成老師的SPSS資料
2.兩獨(dú)立樣本T檢驗(yàn)
兩獨(dú)立樣本T檢驗(yàn)指的是兩個(gè)樣本來(lái)自的總體相互獨(dú)立,目的是分析兩個(gè)獨(dú)立樣本的均值是否有顯著的統(tǒng)計(jì)差異。接下來(lái)的案例背景是:不同優(yōu)化方案影響訪客訂單價(jià)值的情況。
一、前提條件:
要進(jìn)行兩獨(dú)立樣本T檢驗(yàn),要滿足以下條件:
1)總體相互獨(dú)立
2)總體服從正態(tài)分布
3)樣本的方差相同
原始數(shù)據(jù)如下:

1.數(shù)據(jù)設(shè)置
1)選擇分析-描述統(tǒng)計(jì)-探索

2)將訪客銷售額(sales)填入因變量列表,不同方案(test類型)填入因子列表:

3)點(diǎn)擊繪制,勾選直方圖和帶檢驗(yàn)的正態(tài)圖

2.數(shù)據(jù)報(bào)告
由下圖得知,兩個(gè)方案各有200個(gè)樣本:

由下圖得知:
1) 0方案的銷售額均值(1697)大于1方案的銷售額均值(1570)
2)二者的標(biāo)準(zhǔn)差相差不大,657/610標(biāo)準(zhǔn)差比為約等于1。
推薦閱讀
<b>一個(gè)能比擬團(tuán)購(gòu)網(wǎng)站獲利規(guī)模的新商模在哪裡?</b>
今日忙碌,分享十月號(hào)在管理雜志的專欄文章,欲見(jiàn)其他精彩內(nèi)容請(qǐng)前去購(gòu)買雜志! 我們常將「破壞式創(chuàng)新」(disruptive innovation)掛在嘴邊,「破壞」(disruptive)讓人興奮,也讓人充滿希望。 兩年來(lái),一直有創(chuàng)業(yè)家問(wèn)我>>>詳細(xì)閱讀
本文標(biāo)題:<b>網(wǎng)站分析中數(shù)據(jù)的統(tǒng)計(jì)學(xué)顯著性檢驗(yàn)</b>
地址:http://www.brh9h.cn/a/22/20120920/86248.html