大家好,我是策略產品夏師傅。
產品經理無論在進行日常的數(shù)據(jù)分析,還是AB實驗數(shù)據(jù)整理,我們都會看到一些不合群的數(shù)據(jù),也就是看上去就覺得有問題的數(shù)據(jù)。
那么當我們遇到這種數(shù)據(jù),該如何處理?
一般來說包含兩步:
1. 確定是否異常
2. 處理異常數(shù)據(jù)
接下來我們分別看一下每一步該如何操作。
01 確定異常數(shù)據(jù)
確定異常數(shù)據(jù)是指我們如何從大量的數(shù)據(jù)當中定位出那些不太合理的數(shù)據(jù)。一般我們可以用下面的幾種方法:
第一種就是先驗知識輸入。通常我們對于某個具體的數(shù)據(jù)指標都會有一個先驗的知識,比如對于ctr,正常的統(tǒng)計口徑下,他一定是一個[0%,100%]的數(shù)據(jù),所以如果你對某個區(qū)域的ctr進行分析,那么所分析的數(shù)據(jù)也應該是處于[0%,100%]這個范圍。
第二種就是3倍標準差方法。這種方法有一個前提,就是數(shù)據(jù)整體的分布呈現(xiàn)正態(tài)分布。那么這個方法怎么用,原理如下:
在統(tǒng)計學當中,通常把等于 ±3σ的誤差作為極限誤差,對于正態(tài)分布的數(shù)據(jù)來說,落在 ±3σ以外的概率只有 0.27%,所以正是這種概率事件讓我們認為如果超過3倍的標準差,那么基本可以確定為是異常的。
怎么比較?
測量值-平均值的絕對值大于3倍的標準差,那么即認為這個數(shù)值是異常值
第三種是excel當中常的一種數(shù)據(jù)圖形類型,箱型圖,比較類似股票的蠟燭線。
根據(jù)箱型圖的作圖方法進行繪制,如果發(fā)現(xiàn)測量值位于了上下邊緣的外邊,那么即為異常值。
02 如何處理異常值
異常值的處理有很多種方法,今天跟大家講幾種比較常見的方法:
1. 刪除。最常見,簡單的方法無非就針對異常值進行刪除處理,一般比比較適用于樣本量比較足的情況,比如你做AB數(shù)據(jù),總共收集了7天的指標數(shù)據(jù),那么就不太適合用這種方法處理。
2. 修正。所謂的修正是指我們利用某個一個比較折中的值去進行修改。比如你可以用兩個觀測值的平均數(shù)來進行修正,這種方法比較適合樣本量較小的時候使用,效果還不錯。
其實,上面兩種處理辦法對于產品經理進行基礎的數(shù)據(jù)分析基本能夠滿足了。
3. 分箱法。直接采用百度百科的概念,它是指過考察鄰居(周圍的值)來平滑存儲數(shù)據(jù)的值,用箱的深度表示不同的箱里有相同個數(shù)的數(shù)據(jù),用箱的寬度來表示每個箱值的取值區(qū)間。
舉例:
假設有8、24、15、41、6、10、18、67、25等9個數(shù),先對數(shù)進行從小到大的排序,6、8、10、15、18、24、25、41、67,再分為3箱。
箱1:6、8、10
箱2:15、18、24
箱3:25、41、67
分別用三種不同的分箱法求出平滑存儲數(shù)據(jù)的值:
按箱平均值求得平滑數(shù)據(jù)值:箱1:8,8,8,平均值是8,這樣該箱中的每一個值被替換為8。
按箱中值求得平滑數(shù)據(jù)值:箱2:18,18,18 ,可以使用按箱中值平滑,此時,箱中的每一個值被箱中的中值替換。
按箱邊界值求得平滑數(shù)據(jù)值:箱3:25,25,67,箱中的最大和最小值被視為箱邊界。箱中的每一個值都被最近的邊界值替換。
通過不同分箱方法求解的平滑數(shù)據(jù)值,就是同一箱中3個數(shù)的存儲數(shù)據(jù)的值。
4. 不處理。采用這種方法是有條件的,實際并不是不處理,只不過會把這個處理的過程給滯后了。所以對后續(xù)的環(huán)境要求較高,通常是后續(xù)環(huán)節(jié)采用了一些相對數(shù)據(jù)異常,缺失不敏感的模型。
以上4種是在做數(shù)據(jù)分析時常見的一些異常值處理手段。
當然,還有很多其他的方式,比如缺失、插補的思路一般來說在模型的數(shù)據(jù)預處理階段使用較多,產品經理做日常數(shù)據(jù)分析時候所用較少,所以了解即可。
看完覺得寫得好的,不防打賞一元,以支持藍海情報網(wǎng)揭秘更多好的項目。
標簽: 數(shù)據(jù) 異常 平滑 隨筆