數(shù)據(jù)分析系統(tǒng),是搜索引擎整個(gè)工作流程的第二個(gè)系統(tǒng),也就是既搜索引擎蜘蛛抓取系統(tǒng)的后一個(gè)系統(tǒng),搜索引擎的數(shù)據(jù)分析系統(tǒng)主要用來(lái)處理蜘蛛抓取回來(lái)的網(wǎng)頁(yè),今天呢,小強(qiáng)會(huì)給你詳細(xì)的講解,搜索引擎的數(shù)據(jù)分析系統(tǒng)的工作流程及幾個(gè)重要的知識(shí)點(diǎn)。我們剛剛說(shuō)了,數(shù)據(jù)分析系統(tǒng)主要是分析蜘蛛抓取回來(lái)的內(nèi)容,那么怎樣分析呢?主要涵蓋以下幾點(diǎn)。
網(wǎng)頁(yè)結(jié)構(gòu)化
什么是網(wǎng)頁(yè)結(jié)構(gòu)化呢?我們要知道網(wǎng)頁(yè),是由html組成,搜索引擎蜘蛛最后抓取回來(lái)的,也都是html的代碼頁(yè)面,簡(jiǎn)單的說(shuō),網(wǎng)頁(yè)結(jié)構(gòu)化,就是刪掉html代碼,然后留下其中的內(nèi)容,如下圖,圖1是網(wǎng)頁(yè)結(jié)構(gòu)化之前,圖2就是網(wǎng)頁(yè)結(jié)構(gòu)化之后。

網(wǎng)頁(yè)結(jié)構(gòu)化之前

網(wǎng)頁(yè)結(jié)構(gòu)化之后
網(wǎng)頁(yè)的內(nèi)容消噪
在網(wǎng)頁(yè)結(jié)構(gòu)后之后,依然存在著一些搜索引擎不需要的內(nèi)容,比如說(shuō)導(dǎo)航欄的菜單文字,底部的版權(quán)信息等,這些呢,都是搜索引擎不需要的,搜索引擎只需要內(nèi)容,那么在這個(gè)時(shí)候就會(huì)對(duì)網(wǎng)頁(yè)結(jié)構(gòu)化之后的內(nèi)容進(jìn)行消噪處理,簡(jiǎn)單的說(shuō),消噪就是把內(nèi)容之外的文字全部刪掉,比如菜單上的文字,底部版權(quán)的文字等等。
那么搜索引擎的數(shù)據(jù)分析系統(tǒng)怎么判斷哪些是菜單文字哪些是版權(quán)信息呢?
其實(shí)很簡(jiǎn)單,就是對(duì)比,比如一個(gè)內(nèi)容頁(yè),除了內(nèi)容不一樣,其他的內(nèi)容幾乎一樣,比如導(dǎo)航,每個(gè)頁(yè)面都有導(dǎo)航,而且文字也一樣,版權(quán)也是,當(dāng)然也會(huì)根據(jù)html的源碼去分析。
對(duì)頁(yè)面的查重
對(duì)頁(yè)面的查重其實(shí)很好理解,就是搜索引擎蜘蛛在抓取你這個(gè)網(wǎng)站所有的頁(yè)面中,用你這個(gè)頁(yè)面去對(duì)比抓取的頁(yè)面,看看內(nèi)容是否有重復(fù),如果有,那么就刪掉。
分詞
分詞是什么東西呢?簡(jiǎn)單的說(shuō),就是把一句話切割成N個(gè)詞語(yǔ),分詞又分為中文分詞和英文分詞,搜索引擎有一本自己的數(shù)據(jù)庫(kù)字典,里邊有好多詞語(yǔ),然后對(duì)照著字典進(jìn)行分詞;其中還有一點(diǎn),就是在分詞的時(shí)候,會(huì)把一些無(wú)用的字去掉,比如,的、啊等等。
頁(yè)面對(duì)應(yīng)URL的分析
這個(gè)是網(wǎng)頁(yè)分析系統(tǒng)的最后一個(gè)步驟,主要是根據(jù)一些外在因素、內(nèi)在因素對(duì)這個(gè)頁(yè)面對(duì)應(yīng)URL的權(quán)重值的判斷,比如外鏈、內(nèi)鏈等,這個(gè)影響到這個(gè)頁(yè)面關(guān)鍵詞的排名。
本文地址:http://www.shizhanqiang.com/2012071065.html