掌握描述性統(tǒng)計(jì)是數(shù)據(jù)分析的基本功。今天,我們一起聊一聊這個(gè)統(tǒng)計(jì)學(xué)知識(shí)。
1. 數(shù)據(jù)集中趨勢(shì)的度量
說到描述數(shù)據(jù)的集中趨勢(shì),我們最常用的工具就是均值、中位數(shù)和眾數(shù)。這三個(gè)工具各有特點(diǎn),讓我們一一道來。
1.1 均值:數(shù)據(jù)的"中心"
均值,也就是我們常說的平均數(shù),是最為人熟知的統(tǒng)計(jì)量。計(jì)算方法非常簡(jiǎn)單,就是所有數(shù)據(jù)的總和除以數(shù)據(jù)的個(gè)數(shù)。
假如你是一家視頻網(wǎng)站的運(yùn)營(yíng)人員,你想知道網(wǎng)站上視頻的平均播放時(shí)長(zhǎng)。你把所有視頻的播放時(shí)長(zhǎng)加起來,然后除以視頻數(shù)量,得到的就是平均播放時(shí)長(zhǎng)。
這個(gè)數(shù)字能給你一個(gè)直觀的印象:用戶通常會(huì)花多長(zhǎng)時(shí)間觀看一個(gè)視頻。
但均值也有局限性。
比如,如果你的網(wǎng)站上有少數(shù)特別長(zhǎng)的視頻(比如電影),它們會(huì)大大拉高平均值,可能無法真實(shí)反映大多數(shù)短視頻的情況。
這時(shí)候,我們就需要搬出下一個(gè)法寶了。
1.2 中位數(shù):對(duì)付極端值的高手
中位數(shù)是將所有數(shù)據(jù)排序后,位于中間位置的那個(gè)數(shù)。它的妙處在于不受極端值的影響。
還是以視頻網(wǎng)站為例。如果你用中位數(shù)來看視頻播放時(shí)長(zhǎng),那些極少數(shù)的長(zhǎng)視頻就不會(huì)對(duì)結(jié)果產(chǎn)生太大影響。中位數(shù)能告訴你:有一半的視頻播放時(shí)長(zhǎng)低于這個(gè)數(shù),另一半高于這個(gè)數(shù)。這可能更接近你網(wǎng)站上大多數(shù)視頻的實(shí)際情況。
1.3 眾數(shù):發(fā)現(xiàn)數(shù)據(jù)的"明星"
眾數(shù)是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的值。它可以幫你發(fā)現(xiàn)數(shù)據(jù)中的"熱點(diǎn)"。
比如,你在分析用戶每天使用你的APP的次數(shù)。你可能會(huì)發(fā)現(xiàn),雖然平均使用次數(shù)是3.5次,但最多的用戶使用次數(shù)(也就是眾數(shù))是2次。這個(gè)信息可能會(huì)影響你的產(chǎn)品設(shè)計(jì)決策,比如是否要增加一些鼓勵(lì)用戶增加使用頻次的功能。
2. 數(shù)據(jù)離散程度的度量
了解了數(shù)據(jù)的集中趨勢(shì),我們還需要知道數(shù)據(jù)的離散程度,也就是數(shù)據(jù)的分散或變異情況。
這就要請(qǐng)出方差、標(biāo)準(zhǔn)差和四分位數(shù)了。
2.1 方差和標(biāo)準(zhǔn)差:數(shù)據(jù)波動(dòng)的"溫度計(jì)"
方差和標(biāo)準(zhǔn)差都是用來衡量數(shù)據(jù)的離散程度的。方差是每個(gè)數(shù)據(jù)點(diǎn)與平均值差異的平方的平均值,而標(biāo)準(zhǔn)差則是方差的平方根。
這聽起來可能有點(diǎn)抽象,讓我們用一個(gè)例子來說明。
假設(shè)你在分析你的電商平臺(tái)上兩種產(chǎn)品的銷量數(shù)據(jù):
產(chǎn)品A的日銷量:[95, 100, 105, 98, 102]
產(chǎn)品B的日銷量:[50, 150, 80, 120, 100]
這兩種產(chǎn)品的平均日銷量都是100,但顯然產(chǎn)品B的銷量波動(dòng)更大。通過計(jì)算標(biāo)準(zhǔn)差,你會(huì)發(fā)現(xiàn)產(chǎn)品A的標(biāo)準(zhǔn)差較小,而產(chǎn)品B的標(biāo)準(zhǔn)差較大。
這告訴你,產(chǎn)品B的銷量不太穩(wěn)定,可能需要進(jìn)一步分析原因。
2.2 四分位數(shù):深入了解數(shù)據(jù)分布
四分位數(shù)把數(shù)據(jù)等分成四份,我們通常最關(guān)心的是第一四分位數(shù)(Q1,25%位置的數(shù))、第二四分位數(shù)(中位數(shù))和第三四分位數(shù)(Q3,75%位置的數(shù))。
在商業(yè)分析中,四分位數(shù)常常用于繪制箱線圖,這是一種非常直觀的展示數(shù)據(jù)分布的方法。
例如,你在分析用戶在你的社交媒體平臺(tái)上每天發(fā)帖的次數(shù)。通過箱線圖,你可以很快看出:
中位數(shù)(第二四分位數(shù)):一半用戶的發(fā)帖次數(shù)高于這個(gè)值,一半低于這個(gè)值
第一四分位數(shù):25%的用戶發(fā)帖次數(shù)低于這個(gè)值
第三四分位數(shù):75%的用戶發(fā)帖次數(shù)低于這個(gè)值
異常值:那些發(fā)帖特別多或特別少的"特殊"用戶
這樣的分析可以幫助你更好地了解用戶的行為模式,為產(chǎn)品優(yōu)化提供依據(jù)。
3. 描述性統(tǒng)計(jì)在商業(yè)分析中的實(shí)際應(yīng)用描述性統(tǒng)計(jì)在商業(yè)分析中的應(yīng)用非常廣泛。以下是幾個(gè)常見的應(yīng)用場(chǎng)景:
3.1 用戶畫像分析
通過描述性統(tǒng)計(jì),我們可以勾勒出用戶的基本特征。例如:
用戶年齡的均值和中位數(shù):可以告訴我們用戶群體的大致年齡段
用戶消費(fèi)金額的四分位數(shù):可以幫我們劃分不同的消費(fèi)群體
用戶使用App功能的眾數(shù):可以顯示最受歡迎的功能
3.2 產(chǎn)品性能評(píng)估
描述性統(tǒng)計(jì)也是評(píng)估產(chǎn)品性能的有力工具。比如:
頁面加載時(shí)間的均值和標(biāo)準(zhǔn)差:可以反映你的網(wǎng)站性能及其穩(wěn)定性。
比如頁面加載時(shí)間的均值味2.5秒,標(biāo)準(zhǔn)差是0.5秒。這告訴你網(wǎng)站整體表現(xiàn)不錯(cuò)(業(yè)界標(biāo)準(zhǔn)是3秒),而且很穩(wěn)定。但如果標(biāo)準(zhǔn)差突然增加到1.5秒,就說明可能有些用戶遇到了嚴(yán)重的加載問題,需要立即排查。用戶評(píng)分的中位數(shù)和四分位距:可以給出產(chǎn)品口碑的整體評(píng)價(jià)。如果中位數(shù)和四分位數(shù)差別較小,說明產(chǎn)品整體體驗(yàn)較為穩(wěn)定;如果差距很大,說明用戶的體驗(yàn)差別較大,部分用戶滿意,但另一部分用戶不滿意。
功能使用頻率的眾數(shù):可以指出最受歡迎和最不受歡迎的功能。
3.3 市場(chǎng)趨勢(shì)分析
在分析市場(chǎng)趨勢(shì)時(shí),描述性統(tǒng)計(jì)也能發(fā)揮重要作用:
銷售額的移動(dòng)平均:可以幫助我們發(fā)現(xiàn)長(zhǎng)期趨勢(shì)
市場(chǎng)份額的方差:可以反映市場(chǎng)競(jìng)爭(zhēng)的激烈程度。比如在智能手機(jī)市場(chǎng),如果市場(chǎng)份額的方差從去年的15%上升到今年的25%,這可能意味著:市場(chǎng)競(jìng)爭(zhēng)加劇、新玩家入場(chǎng)、消費(fèi)者選擇更加多樣化。這些信息都是制定競(jìng)爭(zhēng)策略的重要依據(jù)。
描述性統(tǒng)計(jì)就像是數(shù)據(jù)分析的入門鑰匙,它能幫你打開數(shù)據(jù)分析的大門,讓你對(duì)數(shù)據(jù)有一個(gè)基本的、直觀的認(rèn)識(shí)。
當(dāng)然,數(shù)據(jù)分析的世界遠(yuǎn)不止于此,但請(qǐng)記住,無論你的數(shù)據(jù)分析功力如何精進(jìn),描述性統(tǒng)計(jì)永遠(yuǎn)是你的基本功,是你分析數(shù)據(jù)的第一步。
正如古人云:千里之行,始于足下。
看完覺得寫得好的,不防打賞一元,以支持藍(lán)海情報(bào)網(wǎng)揭秘更多好的項(xiàng)目。