蔣鑫鵬再次補充說明一下,百度其實很累的,它對用戶的每一次搜索行為都要進行統計(當然是機器程序記錄的方式):一般主要記錄搜索的關鍵詞、到訪的頁面及 到訪方式(一般都是鏈接)、各頁面停留時間(之前不容易讀取到,現在百度通過瀏覽cookis、百度賬戶、IP記錄、百度統計【如果網站裝了百度統計的程 序,實際上百度很聰明,用各種方式想盡辦法進入到網站,比如最近流行的百度分享按鈕,這個工具實際上就是最大的間諜】等大量輔助工具來統計),一般測算是 根據搜索后到訪的百度提供的快照頁面的瀏覽行為(先打開哪個,然后打開哪個,在哪里停留的時間長,最后從哪里離開百度來實現,百度對于一個網頁對用戶是否 有用的觀點:在該頁面停留時間最長,并最終在此頁面瀏覽完畢后離開百度為首要標準,其次還有在這些頁面的互動程度所起的因素。
二、關于語義分析:
其實這段要說的在上一段已經都提到,列出來無非是將“語義分析”這一檢索行為與“分詞”區別開來,語義分析與分詞是相輔相成的,語義分析更多的建立在分詞 與用戶瀏覽行為習慣數據的研究結論基礎之上,如前所述,百度通過各種方式大量統計用戶的行為并針對這些行為及所用的關鍵詞及輸入方式索索的統計數據進行分 詞的支撐與分詞的匹配。
畢竟,再怎么算,那么多網頁、每天數十億次的檢索行為,百度還是難以計算出來的(百度正在通過不斷改進方式及完善機器算法來努力實現這一浩大工程),目前 主要采用的是針對熱門搜索的抽樣統計與其他搜索的隨機統計來實現搜索語義分析(此為SEO顧問蔣鑫鵬根據實戰中的觀察做的假想推斷)。

百度最難以捉摸透的與其說是排名算法,不如說是語義分析算法,因為與SEO搞不懂百度算法一樣,百度同樣搞不懂搜索用戶的搜索意圖(所以百度一直在研究, 一直在調整,一直在完善,就像SEO一直在研究,一直在調整,一直在完善一樣的道理)。捉摸不透是一個原因,更重要的是這些計算不僅僅是對于文字及分詞、 匹配度的研究,更是通過統計學、線性數學、邏輯學、行為學、心理學等眾多的學科的精華計算方法結合在一起設計出的算法結構,并不斷修補完善的,說到這個算 法,百度有一個形容“海量基礎算法”,更不用提每種算法的學科本身的難度了,這就是苦逼的SEO遲遲不能搞懂百度算法的根本原因,當然,作為苦逼的 SEO,蔣鑫鵬同樣也是搞不懂的,如果能搞懂的,大多都是數學或計算機天才或頂尖人才,早都去搞自己的研究或者發明去了,還至于追在百度后面吹毛求疵?
更何況,百度本身對于搜索結果的“人為干涉”及“壟斷”都帶來各種斥責,更何況SEO為了一己之利不斷刷排名給用戶推薦低質量的信息,那就更遭懂得并理解 搜索算法的牛人看不起了……所以看到這里,如果你覺得你很牛,就不要做SEO了,如果作為SEO你明白了作者蔣鑫鵬寫此篇文章的意圖,那你就站在SEM或 者網絡運營、網絡營銷的高度來看待SEO,而不是為了半夜趴在電腦前發外鏈混營生而SEO。
扯遠了,回歸正題,做不到像百度一樣設計算法的那個能耐,如果說還能從語義分析中挖掘點對SEO有幫助的東西,那么蔣鑫鵬建議可以去研究研究你正在做的優 化的相關詞的用戶搜索習慣,比如,蔣鑫鵬最近給上海智寶美規車www.zhibaosuv.com做網絡運營服務期間,發現“美規車”這一詞正在受到越來 越多的關注,而做這個詞優化的很多SEO或者說站長都頂住“美規車”一個詞做,而這個詞用戶搜索的時候,有可能衍生為&ldqu右,蔣鑫鵬建議不要超過160字符,因為這樣不僅稀釋關鍵詞匹配 度,而且百度最近的算法調整,對description超出快照顯示的部分將不再做關鍵詞匹配。同樣以智寶美規車www.zhibaosuv.com來說 明,蔣鑫鵬將美規GMC放在描述摘要最好,最近算法調整后不做顯示了(當然可能是個案,僅供參考)。
5.keywords關鍵詞匹配度:
keywords對于百度來講,貌似本身不作為匹配,但是有一點百度很在意:不要將頁面沒有的關鍵詞加到keywords中,如果這樣,有可能會被認為是在作弊,這點對于Google來說更是如此,Google對于keywords作弊比百度嚴格的多。

keywords一般公認的不超過100字符,這點,蔣鑫鵬的理解是,對于Google來講:keywords一定不要過多,要與頁面匹配,一般頁面能容 忍的關鍵詞也就十多個到頭;對于百度來講,建議keywords的設計根據百度權重(可用站長工具或愛站網測試)關鍵詞來設計,有權重的詞,可以加到 keywords中。
對于企業網站而言,因為Title和description限制而字數有限,無法容納公司全稱,這個時候可以考慮將公司全稱及簡稱在keywords中體現一下,因為頁面版權信息中一般會包含公司名和簡稱。
6.頁面內容中的關鍵詞匹配度:
頁面內容不做分詞計算,但標簽中的分詞和快照中存檔的分詞在頁面所占比列計算中會對頁面中包含的關鍵詞進行匹配并計算次數及在整個頁面字符中所占比例。
頁面的關鍵詞重要程度首要的是H標簽和其他重要的標簽,當然在百度快照中主要是按照頁面世家顯示的文字為標準,一般鏈接錨文本中包含的關鍵詞、頁面突出位 置出現的關鍵詞、以突出的方式(字體、顏色)展示出的關鍵詞會比較重要,這點要根據具體頁面作分析,SEO朋友們可以在檢索關鍵詞結果中直接查看百度快照 中顯示的關鍵詞匹配程度,黃色最高,其次為紅色和藍色、綠色。
快照是存放在百度數據庫中的靜態網頁,不是真實的網頁,所以就有快照更新一說。從快照頁面源代碼中可以看出,百度快照中只是記載了頁面的基本代碼及文本文件,并為存儲照片及其他文件,現實中的快照中的圖片是從頁面文件收錄快照時記錄的文件地址調用過來的。
百度快照的存在,才是大家都關心百度快站更新的根本原因,因為如果快照不跟新,獲得排名的機會就會變少,這個時候的你的網站的快照在百度快照數據庫中就像 一個棄嬰……寫到此,作者蔣鑫鵬再次將自己的觀察提醒一下:以前大家都認為靜態頁面更受搜索歡迎,隨著2.0的不斷發展及互聯網社交化的趨勢,似乎這點正 在被改寫并朝著相反方向發展,靜態頁面、偽靜態開始被搜索程序嫌棄……蔣鑫鵬是這樣理解的,如果頁面是靜態的,那么搜索引擎更容易認為你的頁面內容更新會 比較慢,這樣自然影響收錄頻率,蜘蛛到訪的頻次也就降低了……
推薦閱讀
大家好,我是哈爾濱虛實網站設計,最近一直在給客戶做優化,感覺以前用的一些方式,好像有點過時吧,過不過時大家幫我看下吧,我主要就是在標題和關鍵詞描述中作弊,另外就是關鍵詞的錨文點,還有不自然的加一些關鍵>>>詳細閱讀
本文標題:蔣鑫鵬:百度搜索算法總結—關鍵詞分詞算法
地址:http://www.brh9h.cn/a/34/20120513/59571.html