本源SEO:日志详解篇

本源SEO:网站日志深入篇

上次笔者在《本源SEO:日志篇》已经简单了介绍了网站SEO工作中对于网站日志的简单查看,已经日志的重要性。其实在笔者看来,网站日志所呈现的每一条记录与其说是痕迹,不如说是镜像来的贴切。上次笔者提到了,很重要的一点,也是很多人容易陷入的误区就是:百度蜘蛛是先进入你的网站,再去查看内容质量而不是先知道内容质量再决定用什么IP去查看。很多读者对此很不屑,今天笔者,就拿出证据给你们看。

 
 

请看以上红笔圈出的部分,同样页面一天内爬行了两次,两个IP分别是220.181.108.97和123.125.71.49可以很容易看出来这2个IP一个是提权的蜘蛛,一个是垃圾内容的蜘蛛。在同一天爬行了你的网站,对于网上那些说隔天收录的亲们,我会告诉你,我今天在百度输入

http://www.idilon.com/products_show.asp?id=348,至今这个页面还没被收录,请问说好的隔天收录呢?

 

同时笔者还发现一个很有趣的现象:百度蜘蛛对于每个页面的爬行一般都只有2次,而第一次永远都是提权蜘蛛

对于以上的现象的笔者解释是:百度最初爬行网站的内容的蜘蛛应该都是220.181.108.*,百度在爬行每一个新页面的时候都是用提权蜘蛛,然后通过提取到的内容,返回数据库进行对比,从而决定了第二次爬你网站蜘蛛的IP。也就是说,所谓的220.181.108.*爬过的网页隔天收录是针对第二次的IP而言。

很多时候我们可能把网站日志的作用忽略或者神话了,其实,在笔者看来,网站日志的主要作用在于指导作用。

第一内容上的指导。当我们网站的页面出现123.125.71.*的IP时我们应该引起警觉。对于这样的页面我们应该第一时间去查看下,这个页面的内容是否抄袭,或者内容是否属于垃圾内容。对于123.125.68以及220.181.51.*的IP我们应该把它理解为百度蜘蛛对你网站的警告。对于这些情况我们应第一时间对于想对应的页面进行整改。很多时候我们蜘蛛在访问网站的时候会返回301,304,403,404等代码,我们也要及时地应对。

第二外链上的指导。很多时候我们在发外链的时候可能不知道什么样的外链是有效的,什么是高质的,什么是垃圾的。这是一个很难以确定标准的东西。但是我们在网站日志里可以看到一些端倪。比如上次笔者在文章里提到,每次记录都是有一个来源的,通过入口的来源,我们可以发现,这条记录百度是通过哪里进入你的网站的。或者很多有心的人会发现,我们发外链的时候所给的链接是不一样的。如下图

 
 

这是笔者的一个试验站:浙江京红电器有限公司。笔者在九月十号的时候曾经在一个大型的平台发布了大量的产品和新闻页的外链,而第二天日志记录的情况显示这几个页面都被蜘蛛浏览过。而且那个平台是不能带www的,所以笔者发的链接都是jinh.cn/*/*,而笔者在返回值里可以看到很多蜘蛛爬行的都是jin.cn的页面,所以笔者就把这个平台理解为是一个高质或者高效的平台。

第三,综合的指导。经常性我们在日志里可以发现一些返回值不是200的条目,而通过日志的返回值我们就可以很容易地找到,这个页面,并且对于这个页面的错误或者不足进行修改。而通过对于网站每天日志的对比记录,我们可以发现,蜘蛛每天来网站的次数是增加了还是减少了。如果增加了,是一些友好的IP还是不好的IP,这些记录又是从哪个入口进入的。从而分析出我们在日常的网站SEO工作中,在哪些方面是做得比较好的,哪些方面是不足的。

当然日志的作用还有很多,我相信它给每个站长所带来的信息也不止于此,笔者也只是一个皮毛的研究者。笔者在这里给每一个站长一个建议:每天第一件事就是去查看你昨天的工作记录,然后与网站日志对比下,从而找出工作中好的与不好的地方。在笔者看来,保证网站关键字排在第一位并不是不可能,那只是官方的说法而已。只要你做好网站优化的每一项工作,第一只是早晚而已。至少每一个站长都要有一颗第一的心。本文由联科科技www.lianke.cn提供,转载请注明出处。