互聯網上分析IIS的工具倒是不少,不過我沒有遇見能夠符合我要求的,一般的都是只能查詢IIS日志內的蜘蛛爬行的次數而已。下面說個比較簡單且非常實用的方法,通過EXCEL的一些簡單的公式做出想得到的一系列數據,例如時間間隔,爬行頁面,返回狀態(tài)碼,網址參數,蜘蛛類型,蜘蛛IP等,通過以上數據可以進行對網站的問題的排查,更正。 首先必須有自己的服務器或者能夠查看IIS日志的權限,通過FTP將iis日志文件從空間中下載到本地 服務器獲取IIS日志的方式:打開IIS,點擊要查詢網站>右鍵>屬性>網站選項卡>屬性>即可看到如圖 如果是空間的話有些空間服務上會將日志文件放在網站根目錄的。如果沒有的話可以向服務商索取。

然后根據路徑進行查找相應的文件夾然,可以看到文件夾下有很多.log文件就是日志文件,然后通過FTP下載到本地。

如果文件過大操作起來可能不方面,可以使用UltraEdit打開,篩查你想得到的數據(具體自己下載一個研究下)。文件不是很大可以使用記事本直接打開后復制到EXCEL。

然后將前4行刪除,選擇A列,點擊excel數據>分列>分割符號


下一步>其他>輸入空格>下一步>完成。這樣第一步就完成了。

然后選擇A1列>右鍵>插入 然后將C,D,E,I列刪除。在第一行分別輸入:日期,時間,網頁,參數,端口,IP,蜘蛛,狀態(tài)碼 另外說明一下參數,參數這個是動態(tài)網頁面問號(?)后面的部分。http://www.huiwang.org/jiaju/chufang/5309_3.html 這個路徑后面的參數值為3,那么組合之后真是的URL就是http://www.huiwang.org/jiaju/chufang/5309_3.html?3 因此說明蜘蛛還是可以分辨參數的,有些網站投放廣告后面經常都會帶上參數進行統(tǒng)計,但經過抓取后參數都會被去除的。所以盡量不要在內容頁使用此類的URL。

選中G列>數據>篩選>點擊G列箭頭>文本篩選>包含

輸入baidupider 點擊確定。即可看到所有百度蜘蛛訪問的數據 這樣的話大致的數據已經呈現出來了,如果查看google在篩選時候輸入googlebot就可以了。隨后制作一個簡單的數據透視表便于分析。 一次順序:插入>數據透視表>數據透視表>確定 在右側按先后順序勾選網頁,蜘蛛,時間。然后點擊蜘蛛后面的小三角

點擊標簽篩選>包含>輸入baidupider。既可以篩選出最終要看的網頁的spider爬行時間詳細數據,當然可以按照其他組合進行篩選各類數據,就不演示了。

Luigi's blog原創(chuàng),轉載請注明http://www.itemseo.com/432.html 謝謝