作為商業(yè)分析師,或多或少聽過機器學習。你每天都在用它的產(chǎn)品,比如"猜你喜歡"、"預估配送時間"、"智能客服"等都是機器學習的具體應用。
今天我們就來聊聊最常用的三大類算法,以及使用機器學習時的兩個關鍵注意事項。
不用擔心,我會用最接地氣的方式,讓你輕松理解這些概念。
一、三大類機器學習算法1. 分類算法:預測"是或否"
想象一下,你是音樂APP的產(chǎn)品經(jīng)理,每天面對海量的音樂數(shù)據(jù),如何精準預測用戶會喜歡哪些歌?
這就是一個典型的分類問題。
分類算法就像一個"是非題",它的答案永遠是確定的選項,比如"會喜歡/不會喜歡","是/否","A/B/C"等。
最常用的分類算法有:
決策樹:就像是玩20個問題的游戲。比如:這首歌的風格是民謠嗎?用戶最近聽過這個歌手的歌嗎?用戶是否經(jīng)常在晚上聽這類音樂?通過一系列問題,最終得出"用戶可能會喜歡這首歌"的結論。決策樹的優(yōu)勢在于可解釋性強,你可以清晰地看到每個決策的依據(jù)。
隨機森林:這個聽起來很高大上,其實就是找100個人(100棵決策樹)一起決策,少數(shù)服從多數(shù)。每個決策樹都獨立判斷,互不干擾,最后投票決定。這樣做的好處是,能夠避免單個決策樹的偏見,提高預測準確性。就像在公司做決策,集思廣益總比一個人拍板要靠譜。
在商業(yè)分析中,分類算法的應用無處不在:
預測用戶流失:通過分析用戶的使用頻率、最近登錄時間、消費金額變化等特征,預測哪些用戶可能會流失。這樣我們就能提前對這些用戶進行針對性的營銷挽留。
欺詐檢測:在金融領域,通過分析交易時間、金額、頻率、地點等特征,判斷一筆交易是否可能是欺詐。
商品推薦:結合用戶的歷史瀏覽、購買記錄,以及商品的類別、價格等信息,預測用戶是否會對某個商品感興趣。
舉個實際的例子:某電商平臺想預測用戶是否會在未來30天內(nèi)購買某個商品。他們可能會考慮這些特征:
用戶最近30天的瀏覽次數(shù)
用戶是否將商品加入購物車
用戶歷史購買同類商品的頻率
用戶的客單價水平
商品的折扣力度
商品的庫存狀態(tài)
用戶是否是會員
通過訓練分類模型,就能得到一個預測結果:"該用戶有87%的概率會在未來30天內(nèi)購買這個商品"。
2. 回歸算法:預測具體數(shù)值
如果說分類算法是選擇題,那回歸算法就是填空題。你在使用滴滴打車的時候,你叫車前,它就能估算出價格。這就是回歸算法在發(fā)揮作用?;貧w算法的特點是預測連續(xù)的數(shù)值,而不是離散的類別。
常見的回歸算法包括:
線性回歸:這是最基礎的回歸算法,假設特征和預測值之間存在線性關系。想象你坐公交車,每公里2元,這就是最簡單的線性關系。在實際應用中,可能會考慮多個特征,比如預測房價時,不僅要考慮面積(每平米單價),還要考慮地段、樓層、裝修等因素。
GBDT(梯度提升決策樹):這個名字聽起來嚇人,但實際很好理解。就像打高爾夫,第一桿打偏了,第二桿調(diào)整一點,第三桿再調(diào)整一點,每次都在糾正之前的誤差,最終找到最好的路徑。GBDT在工業(yè)界非常受歡迎,因為它能自動挖掘特征間的非線性關系,預測效果往往比線性回歸好得多。
商業(yè)分析中的應用場景:
銷量預測:預測未來一段時間內(nèi)的商品銷量,這對于庫存管理和供應鏈優(yōu)化至關重要。
廣告點擊率預測:在投放廣告前,預估可能的點擊率,這直接關系到廣告位的定價和排序。
客戶終身價值預測:預測一個客戶在未來可能貢獻的總收入,這對于制定差異化的客戶服務策略非常重要。
3. 聚類算法:發(fā)現(xiàn)相似的群體
聚類算法就像是一個優(yōu)秀的運營,能把相似的用戶分到一組。用戶運營就經(jīng)常用聚類算法來發(fā)現(xiàn)不同的用戶群體,這樣就能精準推送內(nèi)容了。與分類算法不同,聚類算法不需要預先知道分組的標準,它能自動發(fā)現(xiàn)數(shù)據(jù)中的模式。
兩個常用的聚類算法:
K-Means:就像給羊分圈,先定好要分幾個圈(K值),然后看哪只羊離哪個圈最近。這個過程會不斷重復,直到每只羊都找到最合適的圈。K-Means的優(yōu)點是簡單高效,缺點是需要預先指定K值,而且對異常值比較敏感。
DBSCAN:這個更智能,它會自動發(fā)現(xiàn)人群密集的地方,就像在音樂節(jié)上發(fā)現(xiàn)不同的粉絲團。DBSCAN不需要預先指定分組數(shù)量,而是根據(jù)數(shù)據(jù)的密度自動劃分,還能識別出異常點。缺點是對參數(shù)的設置比較敏感,需要一定的經(jīng)驗。
關于各類算法的特點,我總結了下面的表:
二、用好機器學習,這兩點你必須知道1. 所有模型都是錯的,但有些是有用的
所有模型都是錯的,但有些是有用的。
這句話不是我說的,是統(tǒng)計學家George Box說的。它告訴我們:不要追求完美的模型,要追求有用的模型。在商業(yè)分析中,這一點尤其重要。
假設有一位學生為了準備考試。
這個學生在復習時,只是簡單地瀏覽了一下去年的考試內(nèi)容,既沒有記住題目,也沒有深入理解知識點。他既沒有對去年的題目產(chǎn)生深刻的理解,也沒有掌握應對新題型的方法。
因此,當他面對去年的試卷時,錯的很多;而到了正式考試,他依然沒有足夠的知識來應對這些新的問題。
在機器學習中,這種情況就是欠擬合。
欠擬合的模型就像這個沒有深入學習的學生——模型過于簡單,沒有足夠的能力去捕捉數(shù)據(jù)中的重要模式和規(guī)律,所以它在訓練數(shù)據(jù)和測試數(shù)據(jù)上都表現(xiàn)不好。
如果他拿到了去年的考試卷子,并且把每一道題的答案都背得滾瓜爛熟。這種情況下,學生在做和去年的試卷一模一樣的題目時,可能表現(xiàn)得非常好,分數(shù)很高。這就像模型在訓練數(shù)據(jù)上表現(xiàn)非常好一樣。
但是,到了正式考試時,考卷上的題目和去年的不完全一樣,雖然有些題型類似,但題目細節(jié)發(fā)生了變化。由于學生只會死記硬背去年的答案,而沒有真正理解知識,他在新的考題上可能表現(xiàn)得很差。這個學生在應對訓練數(shù)據(jù)(去年的試卷)時表現(xiàn)得很好,但在測試數(shù)據(jù)(正式考試卷)上卻失敗了。
這就是過擬合。過擬合是指模型過于專注于訓練數(shù)據(jù)中的細節(jié)和噪聲,無法很好地應對新數(shù)據(jù)。
過擬合和欠擬合的平衡是很微妙的,真正能用的模型既不能欠擬合也不能過擬合。
那么如果兩個模型效果差不多,怎么辦?這種情況要遵循一個原則:奧卡姆剃刀。
意思是,如果兩個模型效果差不多,那就選擇更簡單的那個。這就像你背單詞,與其背一大堆近義詞,不如先把最常用的掌握好。在實際工作中,我們經(jīng)常會看到:
簡單的決策樹模型,可解釋性強,同事容易理解
線性回歸雖然簡單,但在很多場景下效果足夠好
復雜的深度學習模型,可能會過擬合,導致線上效果不穩(wěn)定
2. 選對評估標準,避免南轅北轍
評估標準就像是考試的評分標準,選對了,才能評判模型的好壞。不同的業(yè)務場景,關注的重點不同,使用的評估標準也應該不同。
拿廣告點擊預測來說,我們經(jīng)常用這些指標:
準確率(Precision):預測點擊的廣告中,真正被點擊的比例
召回率(Recall):所有被點擊的廣告中,被正確預測的比例
F1分數(shù):準確率和召回率的調(diào)和平均數(shù),平衡兩者的取舍
選擇哪個指標?要看你的目標:
如果預算有限,追求精準,就看準確率
如果怕錯過機會,寧可多投,就看召回率
如果兩者都想兼顧,可以看F1分數(shù)
預測情況 | 實際點擊 | 實際不點擊 |
預測點擊 | 真正例(TP) | 假正例(FP) |
預測不點擊 | 假負例(FN) | 真負例(TN) |
準確率 = TP / (TP + FP)
召回率 = TP / (TP + FN)
F1 = 2 * (準確率 * 召回率) / (準確率 + 召回率)
在實際工作中,選擇評估指標時需要注意:
考慮業(yè)務成本:有時候假正例和假負例的成本不一樣,比如在欺詐檢測中,把正常交易判斷為欺詐(假正例)的成本,可能遠小于把欺詐交易判斷為正常(假負例)的成本
數(shù)據(jù)不平衡:在用戶流失預測中,流失用戶往往是少數(shù),這時候準確率可能會產(chǎn)生誤導,應該更關注召回率
綜合多個指標:不要只看單個指標,應該綜合考慮多個指標,全面評估模型性能
現(xiàn)在一般商業(yè)分析師不太自己做機器學習的分析,而是交給算法工程師。
不過學習機器學習,就像學開車。你不需要知道發(fā)動機的每個零件,但要知道什么時候該用什么檔位。作為商業(yè)分析師,你需要掌握這些基礎概念,就能遇到合適的問題的時候,想起可以用機器學習解決這類問題。
·END·
看完覺得寫得好的,不防打賞一元,以支持藍海情報網(wǎng)揭秘更多好的項目。