搜索引擎的基本搜索模型
搜索引擎一般是由在線和離線兩部分構成,離線部分主要是搜索引擎爬取網(wǎng)頁的原始數(shù)據(jù)再將其提取、充實、分析、索引的過程。
這一塊我們需要注意的一點就是在索引數(shù)據(jù)當中有一條關于時效性索引數(shù)據(jù)的內(nèi)容。主要是一些新聞的索引數(shù)據(jù),搜索引擎會對一些有時效性的新聞給予快速的收錄和較高的排名。
但是在過了時效性以后這些排名就會掉了,連收錄都可能會掉出,這個時效性索引數(shù)據(jù)過了時效后的狀態(tài),主要是跟網(wǎng)站的結構和權威性有關。
而我們做搜索優(yōu)化其實主要要在意的還是其離線部分的內(nèi)容。
用戶在輸入了搜索詞以后,搜索系統(tǒng)會進行Query理解從而采用不同的召回策略。
就像我在搜索塑聊的時候,搜索引擎通過字典判斷再給我糾錯為塑料,在搜索su料的時候也會給我糾錯為塑料。
在搜索BTC的時候會給我擴充比特幣的內(nèi)容,在搜索土豆的時候會給我呈現(xiàn)馬鈴薯的時候,都是出于對同義詞的擴充。
在搜索搜索引擎營銷的時候會將這幾個字分詞為搜索/引擎/營銷或者搜/索/引/擎/營/銷/等更多粒度的分詞。
系統(tǒng)在經(jīng)過了召回環(huán)節(jié)后并不是直接就呈現(xiàn)在用戶面前,而是會將這些通過不同召回策略的索引數(shù)據(jù)作為候選集合,候選集合的數(shù)量大概在幾千到幾萬個。再通過更精細的計算模型對候選集合中的內(nèi)容進行分值計算,從而獲得初步的排序。
在經(jīng)過了召回環(huán)節(jié)之后將會進入排序環(huán)節(jié),而排序環(huán)節(jié)會分為粗排、精排和重排三個環(huán)節(jié)。粗排大致上是通過類似于評價搜索詞和文檔之間相關性的BM25算法來獲取一個粗略的排序,這個數(shù)量大概是幾百到幾千個,在百度搜索引擎當中這個數(shù)值最大為760個。
在經(jīng)過了粗排以后,搜索引擎會加載更多的特征和更復雜的模型,對粗排的內(nèi)容進行排序計算,從粗排提供的候選池中選出用戶最有可能點擊的內(nèi)容,這個數(shù)量值大概是在一百以內(nèi)。
在經(jīng)過精排以后,這些內(nèi)容已經(jīng)可以初步呈現(xiàn)給用戶,但是在呈現(xiàn)之前還會有一個規(guī)則干預的環(huán)節(jié),規(guī)則通常服務特定產(chǎn)品目的。例如百度信譽的官網(wǎng)認證服務,企業(yè)用戶在做了官網(wǎng)認證以后,用戶在搜索企業(yè)名稱,企業(yè)內(nèi)容會出現(xiàn)在搜索排名的第一位,這個就是重排。
此外排序并非是一成不變的,在內(nèi)容展現(xiàn)給用戶以后,用戶點擊反饋會影響到排序環(huán)節(jié)模型,用戶點擊更多的網(wǎng)址,在后續(xù)搜索展現(xiàn)當中會獲得更高的排名,這個就是點擊調權的過程,也是重排的過程。
搜索引擎的四類基本算法
TF-IDF 詞頻-逆文本率算法
TF=某個詞在文章中出現(xiàn)的次數(shù)=某個詞在文章中出現(xiàn)的次數(shù)/文章總詞數(shù)
IDF=log(語料庫文檔總數(shù)/(包含該詞文檔數(shù)+1))
TF-IDF=詞頻(TF)*逆文檔頻率(IFD)
這個算法主要是為了評估字詞對于一個文件集中的一份文件的重要程度。
字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加。
但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。
這句話應該怎么去理解呢?我們舉一個簡單的例子:
圖書館有一萬本書,其中一本書關于姜母鴨這詞出現(xiàn)的次數(shù)是66次,關于做法這個詞的出現(xiàn)的次數(shù)是1000次。那做法的TF是高于姜母鴨的。但是對比圖書館里的10000本書中,我們會發(fā)現(xiàn)姜母鴨在其他書中出現(xiàn)的頻次很低,而做法在其他書中出現(xiàn)的頻次也很高。因此會把做法的權重降低從而得出關鍵詞姜母鴨
TF-IDF算法可以過濾掉一些常見詞(如上述的做法)而保留重要的詞(如上述的姜母鴨)從而得出文檔當中的重點。這個算法可以說是搜索引擎的基本算法了,換成我們比較通俗的語言去講,就是關鍵詞密度。
Hits 鏈接分析算法在SEO當中,常常有內(nèi)容為王,外鏈為皇的說法(現(xiàn)在已經(jīng)不適用了),因為在SEO的早期,外鏈算法是對網(wǎng)站排名影響極大的算法。
例如當初李彥宏依靠超鏈分析算法成立了百度,而這個超鏈分析算法也就是我們現(xiàn)在比較熟知的錨文本鏈接。
后來谷歌對超鏈分析算法進行了優(yōu)化,提出了不同網(wǎng)站的權重不同,所以外鏈傳導的權重也應該不同的概念,這個就是后來的PageRank算法。
而現(xiàn)在百度和谷歌對這類算法也經(jīng)歷了無數(shù)個版本的迭代,而且也有新的鏈接分析算法出現(xiàn),例如Hits算法。
Hits算法中有兩個新概念,一個是Authority頁面,一個是Hub頁面。
Authority頁面指的是高質量的權威頁面。
Hub頁面指的是指向很多權威頁面的樞紐頁面。
一個好的權威頁面會被很多樞紐頁面指向
一個好的樞紐頁面會指向很多權威頁面。
這種算法可以比較簡單通過鏈接的去判定網(wǎng)站的優(yōu)劣,但是也比較容易作弊。
比如萬物皆可運營的官網(wǎng)導出的外鏈有騰訊新聞、搜狐新聞、鳳凰新聞、悠然布衣。而騰訊新聞、搜狐新聞等三個都是權威頁面,那么悠然布衣也會被認為是權威頁面。
TextRank算法和LDA主題模型
除了TF-IDF算法以外,像TextRank算法和LDA、LSA這類的主題模型算法也被廣泛地應用在關鍵詞提取領域。
TextRank算法比起TF-IDF算法的特點在于它可以脫離語料庫的背景,對單篇文檔進行分析,提取單篇文檔的關鍵詞。但是缺點就是受分詞、文本清洗影響大,受高頻詞影響大。
這個算法是引入了PageRank算法的理念,將文本拆成詞匯組成網(wǎng)絡模型,將詞匯相似度的共現(xiàn)關系作為投票關系或者說推薦關系,從而去計算每個詞的重要性。
例如:(例子來源于@知乎 黃鑫)
然后對上面這段話進行分詞,去除中間的停用詞,我們可以得到:程序員 英文 程序 開發(fā) 維護 專業(yè) 人員 程序員 分為 程序 設計 人員 程序 編碼 人員 界限 特別 中國 軟件 人員 分為 程序員 高級程序員 系統(tǒng) 分析員 項目 經(jīng)理
然后建一個大小為9的窗口,每個單詞要投票給它前后距離為5以內(nèi)的詞
然后開始迭代投票
這樣得出來程序員是這段話當中權重最高的單詞。
LDA主題模型:在很多場景下,單純的提取文檔里面的關鍵詞是不夠用的,比如中國古代很多的古詩就是這么玩的。
解落三秋葉,能開二月花。過江千尺浪,入竹萬竿斜。這首李嶠的《風》,雖然是描寫風的,但是除了題目全詩沒有一個風字。
還有朱熹的《秋月》:清溪流過碧山頭,空水澄鮮一色秋。隔斷紅塵三十里,白云紅葉兩悠悠。是描寫月亮的但是全詩沒有一個月字。
雖然關鍵詞和文檔之間沒有直接的聯(lián)系,但是需要通過一個維度將其串聯(lián)起來,這個就是主題。每個文檔都應該對應一個或者多個主題,每個主題都會有對應的詞分布。
LDA語義主題模型可以實現(xiàn)相同語義的主題單詞之間的相互關聯(lián),給信息檢索中文本的潛在語義信息的挖掘提供良好的檢索模型框架,可以用來識別大規(guī)模文檔集或語料庫中的潛在隱藏的主題信息。
比如一個文章如果涉及到姜母鴨這個主題,那么閩南、廈門、泉州等詞語就會以較高的頻率出現(xiàn),而如果涉及到老鼠干,那么閩西、客家寧化就會出現(xiàn)的很頻繁。
搜索引擎會分析用戶查詢詞匯與哪些主題是相關的,這些相關會通過形容詞的屬性來作為參考。例如姜母鴨相關的都是屬于美食,那么滋陰降火的功能屬性、濃香鮮美的味道屬性這些內(nèi)容都是與它關聯(lián)的。
現(xiàn)在百度搜索的下拉關聯(lián)搜索、相關搜索等搜索詞,應當就是與TextRank算法、LD算法、DNN算法等相關。
Simhash去重算法
為了計算一篇文檔之間的相似度存在的,通過simhash算法可以計算出文檔的simhash值,通過各個文檔計算出的二進制值來計算文檔之間的漢明距離,然后根據(jù)漢明距離來比較文檔之間的相似度。(漢明距離是指兩個相同長度的字符串相同位置上不同的字符的個數(shù)。)
例子:我元宵節(jié)在家里用烤爐做了一只美味的烤雞和我正月十五在家里用烤箱做了一盤超級好吃的烤雞。
首先去除停用詞后變成了
我 元宵 家里 烤爐 美味 烤雞和我 正月十五 家里 烤箱 超級好吃 烤雞
做詞頻統(tǒng)計,再做同義詞歸一化 元宵=正月十五 烤爐=烤箱 美味=超級好吃
最后判斷這兩句話是同一個意思。
早期百度應該是對網(wǎng)頁結構化數(shù)據(jù)進行simhash識別,而最新的原創(chuàng)識別應該是對句子級別的做simhash識別了。所以當前來說,簡單的語句調換、關鍵詞替換等方法做偽原創(chuàng),其實對搜索引擎的影響不大,他們能夠識別出來。
TF-IDF算法、TextRank算法和LDA主題模型這幾種算法,除了搜索引擎營銷的人員以外,做新媒體運營的同學也可以做相關了解。除了在百度以外,例如抖音、小紅書、微信等平臺搜索算法也與此相關。
今天就簡單的聊一聊搜索引擎的幾類基本算法,了解這些算法,對于指導搜索優(yōu)化和內(nèi)容分發(fā)都有比較大的作用,但是畢竟我不是技術出身的,對這個理解的也不是特別透徹,所以大家感興趣的可以自己再找資料學習學習。
下一篇內(nèi)容,會比較詳細地去盤點一下SEO當中比較常用的一些作弊手段,也就是黑帽SEO。嗯,有緣再更新吧~
看完覺得寫得好的,不防打賞一元,以支持藍海情報網(wǎng)揭秘更多好的項目。