SEO-搜索引擎优化新发现-北京SEO

每天发现SEO优化最新变化,将搜索引擎优化学习资料奉献给大家。(中国最具开放精神的SEO博客)

« 与SEO有关的内容质量如果您的网站因付费链接问题被Google降级 »

Googlebot日趋智能还是疯狂?

Google在搜索结果页取消对补充结果/补充索引的标注,最主要的一个理由便是如今Google在收录、索引网页的速度与广度方面均有了革命性的突破,补充索引与主索引的区别日渐缩小。单纯从索引网页的角度来看,这点应该是事实,相信许多朋友都观察到类似的现象,比如说网站内的新增页面可以在极短的时间内显示在Google的搜索结果中,而许多之前因缺乏足够的链接导引而无法被Google正常收录的页面,如今在收录方面也不存在障碍。

这当然是件值得庆贺的好事,虽然对网站建设者而言,更多的网页被Google索引也必然相应地带来排名竞争者的增多,必然增加获得理想排名的难度。不过,一个有趣的问题还在于,Google索引网站页面的广度究竟提高到什么程度,以及Googlebot在网站内的爬行机制是否有重大的变化?

近日检查某个基于WordPress的博客网站日志时,偶然发现Googlebot访问诸如下列文件的记录:

/wp-content/cache/wp-cache-极长字符串.meta
/wp-content/cache/wp-cache-极长字符串.html

熟悉WordPress的朋友都清楚,上面的文件为启用Wp-Cache插件后生成的临时文件,其中的所谓“极长字符串”为32位由字母与数字构成的随机字符串,这点很让人奇怪,Googlebot为什么要尝试索引这些文件?当然,要避免这类情况发生,解决方法很简单,比如说在robots.txt将该目录屏蔽,不过,这不是重点,我好奇的是:

  • Googlebot是如何找到这些文件的?我检查了该网站的sitemap,以及其他可能“泄露”此类文件url的文件包括feed,均没有发现任何指向该文件的链接,那么,Googlebot是如何得知这类文件的名称及位置的?误打误撞的几率太小了,难道是通过遍历网站目录?这点有些恐怖。
  • Googlebot为什么尝试索引这类页面?相对而言,对WordPress这样一款相当流行的博客平台,对Wp-Cache这样一个得到广泛应用的插件,Google应该清楚这样的文件结构与命名方式,应该清楚这是标准的后台文件不应被索引,也应该清楚索引这类临时文件没有任何意义,除了让索引库更加臃肿之外!而且,这类临时文件的生存周期只有一个小时(网站设定),之后便只能返回404错误。难道今后对这类文件也需加上“unavailable_after”标签,明确告知Googlebot这些页面将在1小时后“自我毁灭”?这也未免太搞笑了吧?虽然可以让Google苦心孤诣推出的“unavailable_after” tag多少能够派上点用场。 :P
  • 这究竟仅仅是个案还是普遍行为?不知道同样使用WordPress + Wp-cache的朋友有无观察到类似的现象?

文章类型:转载 seo新发现 (www.seodig.com.cn)  网站建设 (www.haigui.net.cn)
原文地址:http://seo.highdiy.com/index.php/seo/googlebot-issue-on-wp-cache/

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

日历

最新评论及回复

最近发表

Powered By Z-Blog 1.8 Terminator(RC) Build 80102

Copyright SeoDig.Com.cn Your WebSite. Some Rights Reserved.
  • 网站地图
  • SEO网站导航