1.其次,如果我們能夠通過對以往收集信息的分析,預(yù)先發(fā)現(xiàn)重復(fù)網(wǎng)頁,在今后的網(wǎng)頁收集過程中就可以避開這些網(wǎng)頁,從而提高網(wǎng)頁的收集速度。有研究表明重復(fù)網(wǎng)頁隨著時間不發(fā)生太大變化,所以這種從重復(fù)頁面集合中選擇部分頁面進(jìn)行索引是有效的。2.從另外一個角度看,如果用戶點擊了一個死鏈接,那么可以將用戶引導(dǎo)到一個內(nèi)容相同頁面,這樣可以有效地增加用戶的檢索體驗。因而近似重復(fù)網(wǎng)頁的及時發(fā)現(xiàn)有利于改善搜索引擎系統(tǒng)的服務(wù)質(zhì)量。
3.另外,如果某個網(wǎng)頁的鏡像度較高,往往是其內(nèi)容比較受歡迎的一種間接體現(xiàn)也就預(yù)示著該網(wǎng)頁相對重要,在收集網(wǎng)頁時應(yīng)賦予它較高的優(yōu)先級,而當(dāng)搜索引擎系統(tǒng)在響應(yīng)用戶的檢索請求并對輸出結(jié)果排序時,應(yīng)該賦予它較高的權(quán)值。
4.首先,如果我們能夠找出這些重復(fù)網(wǎng)頁并從數(shù)據(jù)庫中去掉,就能夠節(jié)省一部分存儲空間,進(jìn)而可以利用這部分空間存放更多的有效網(wǎng)頁內(nèi)容,同時也提高了搜索引擎的搜索質(zhì)量和用戶體驗。
實際工作的搜索引擎往往是在爬蟲階段進(jìn)行近似重復(fù)檢測的,下圖給出了近似重復(fù)檢測任務(wù)在搜索引擎中所處流程的說明。當(dāng)爬蟲新抓取到網(wǎng)頁時,需要和已經(jīng)建立到索引內(nèi)的網(wǎng)頁進(jìn)行重復(fù)判斷,如果判斷是近似重復(fù)網(wǎng)頁,則直接將其拋棄,如果發(fā)現(xiàn)是全新的內(nèi)容,則將其加入網(wǎng)頁索引中。
推薦閱讀
>>>詳細(xì)閱讀
本文標(biāo)題:網(wǎng)站優(yōu)化刪除重復(fù)網(wǎng)頁有利搜索引擎爬行
地址:http://www.brh9h.cn/a/34/20131021/291446.html