电商圈实战:IIS日志完整版案例分析

2011年05月12日    点击数: 12810    字体:           一键关注汇讯

  IIS日志分析作为网站运营人员必备技术能力,网站很多弊端不仅可以通过谷歌管理员工具发现,更多的错误还是从IIS日志中获取,由于实战型IIS日志分析网络并没形成一定的思路,鉴于今日电商圈 博客冲出沙盒为大家整理出一份有可鉴意义的日志分析报告!

  首先先给大家介绍当前流行的搜索引擎在日志中显示的代码:

  1,Sosospider+(+http://help.soso.com/webspider.htm)腾讯旗下搜索引擎,此蜘蛛乐此不彼相信很多观察日志的同学和站长都很喜欢它,但是不知道腾讯的运营方式问题还是那个地方的问题,搜搜始终不能提高国内市场占有率。

  2,Baiduspider+(+http://www.baidu.com/search/spider.htm ) 百度旗下搜索引擎,此蜘蛛可以说是很多站长的噩梦,由于百度在国内市场占据绝大部分份额,现在SEOER的倾向逐渐倾向于百度,所以大家在分析日志时候需要对Baiduspider反馈代码进行认真分析。

  3,Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 谷歌搜索引擎,此蜘蛛可以说在2005年-2010年在国内风靡一时,当时国内很多网络公司依靠谷歌优化为生,当时谷歌的退出中国市场对此有很大打击,但是此蜘蛛依然被列为被研究的首要对象。

  4,Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) 搜狗搜索引擎,此蜘蛛也是很勤奋,但是却没有一定的影响力,不过谷歌的PR有天离开站长的视线的时候,搜狗sr也可能作为网站参考价值之一。

  5,Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/; )网易旗下搜索引擎,和搜狗一样我们只作为参考价值。

  6,Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)雅虎搜索,这个如果做日本客户的朋友肯定是细心观察,在这里不多做讲解。

  如果需要更多的了解iis日志简单问题请查阅百度百科【iis日志】我们文章仅作为重点阐述。

  第二:我们需要了解搜索引擎蜘蛛在服务器中爬行后返回代码的意思

  1xx(临时响应)表示临时响应并需要请求者继续执行操作的状态代码。代码 说明 100 (继续) 请求者应当继续提出请求。

  2xx (成功)表示成功处理了请求的状态代码。代码 说明 200 (成功)服务器已成功处理了请求。 通常,这表示服务器提供了请求的网页。(200代码说明网站已经处于正常状态)

  3xx (重定向) 表示要完成请求,需要进一步操作。通常,这些状态代码用来重定向。代码 说明 300 (多种选择) 针对请求,服务器可执行多种操作。

  4xx(请求错误)这些状态代码表示请求可能出错,妨碍了服务器的处理。代码 说明 400 (错误请求) 服务器不理解请求的语法。(出现4xx错误代码需要认真对其代码进行分析然后结合网站技术对其网站进行改进)

  5xx(服务器错误)这些状态代码表示服务器在尝试处理请求时发生内部错误。这些错误可能是服务器本身的错误,而不是请求出错。代码 说明 500 (服务器内部错误) 服务器遇到错误,无法完成请求。

  如果需要更多的了解状态码问题请查阅附件【IIS日志返回服务器代码大全 】

  第三:电商圈博客沙盒4月3-4月10号日志分析(鉴于本篇文章篇幅较长只针对Baiduspider 重要代码进行分析)

  eg:220.181.108.121 - - [06/Apr/2011:21:38:11 +0800] "GET /tag/\xe7\xac\xac\xe4\xb8\x80\xe5\x95\x86\xe5\x8a\xa1\xe7\xbd\x91 HTTP/1.1" 200 18228 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)此段日志是4月6号创建,也是1-10号日志中都存在的,也就是说明百度蜘蛛抓取了tag,并且进行了数据库处理成功抓取。这个代码的重要性也提示了大家百度对于TAG的重要性,也就是现在很多大站仍旧处于对TAG部分的处理,现在很多BLOG对TAG都有所处理,其中wordpress最好,本程序emblog处理差强人意。

  eg:220.181.108.110 - - [06/Apr/2011:21:38:13 +0800] "GET /post/27 HTTP/1.1" 200 20156 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)此段日志说明百度蜘蛛4月6号成功抓取站内文章日志,并成功处理,所以新站处在沙盒时期,网站更新的过程请查阅IIS日志,可以确认百度蜘蛛的动向,采取手段及早冲出沙盒。

  eg:220.181.108.104 - - [08/Apr/2011:21:03:56 +0800] "GET /?post=27 HTTP/1.1" 200 20158 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)此段蜘蛛可以说是本网站最大弊端,从这个代码可以看出,百度蜘蛛对于静态页面和动态页面重复收录,所以在用emblog时候或是很多动态程序可以生成静态页面程序的时候屏蔽静态页面原始的动态页面,这样对蜘蛛是友好的。 

上一篇:利用Facebook营销5大误区:简单广播内容乏味

下一篇:网络营销渠道策略

Copyright © 2007-2021 汇讯Wiseuc. 粤ICP备10013541号    
展开