我们已经改进了站长中心的分析工具,使之能理解网站地图(sitemap)的声明和相关的URL。较早的版本并不认识网站地图,且仅仅理解绝对的URL;其他的任何东西都被报错成“不理解你的语法”。现在改进后的版本会告诉你网站地图的URL和范围是否正确。您还可以对相关的URL测试并少了许多输入工作。
现在生成的报告也好多了。你可以在一行中知道多个问题的答案(如果有的话)。不像早期版本,一行仅第一个遇到的问题给出答案。同时,我们也在其他用以分析和验证的功能上取得了改进。
假设你负责域名www.example.com,你希望搜索引擎索引你网站的除/images文件夹之外的一切内容。您还想确保你的网站地图被搜索引擎知道,那么你可以使用以下内容作为你的robots.txt文件:
disallow images
user-agent: *
Disallow:
sitemap: http://www.example.com/sitemap.xml
你可以访问站长中心,使用robots.txt分析工具对你的网站进行测试,用这两个URL作测试:
http://www.example.com
/archives
站长工具的较早版本将会报错:
改进版会告诉你关于robots.txt文件的更多信息:
你可以在http://www.google.com/webmasters/tools看到以上信息。
我们还希望确保你听说过新的unavailable_after元标签,该标签由Dan Crow数周前在Google官方博客中宣布。该标签可增加你的站点和谷歌的googlebot间的互动。试想,对www.example.com,有时你有一个临时性的新闻故事,限时公司促销,或一个宣传页,你可以对特定页面指定确切的日期和时间,来阻止被抓取和索引。
让我们假设你的一个促销活动有效期截至2007年年底。在www.example.com/2007promotion.html的源码开始,你可以使用以下行:
CONTENT="unavailable_after: 31-Dec-2007 23:59:59 EST">
另一个令人振奋的消息是新的X-Robots-Tag指令。它增加了机器人排除协议(REP) META标签,该标签为非HTML网页提供支持!你终于可以控制对你的录像,电子表格,及其他索引文件类型的索引,就像控制对HTML页面的索引一样。还是上面的例子,比方说你的宣传页面是PDF格式。在文件www.example.com/2007promotion.pdf 中,你可以增加以下行:
X-Robots-Tag: unavailable_after: 31 Dec
2007 23:59:59 EST
请记住,REP META标签可用于实现针对页面索引控制的noarchive,nosnippet,及现在的unavailable_after标签。这和robots.txt不同,robots.txt是对整个域名进行控制的。我们是应博客们和网站管理员的要求而增加这些特性的,请试用。如果你有其他的建议,也请随时提出。想问一些问题?请在我们的网络管理员帮助组里提问。
标签: Google Webmaster Tools, Google站长工具
固定链接 4个评论
关于通过买卖链接来传递PageRank的最新消息
2007年12月3日 上午 05:38:00
发表者:Matt Cutts,Maile Ohye
原文:Information about buying and selling links that pass PageRank
发表于:2007年12月1日下午12时02分,星期六
我们的目标是通过提供公平和准确的结果为用户提供最好的搜索体验。我们迫切希望与网站管理员一起来实现这一目标, 因为当你生成更好、更便于访问的内容时,对互联网,对我们的索引都有好处; 这反过来又使我们能够提供更多相关的搜索结果给用户。
但是如果一个网站管理员选择买卖链接以操纵搜索引擎排名,我们保留保护我们的索引质量的权利。通过买卖链接来传递PageRank违反了我们的站长指南。这种链接会损害我们搜索的相关性而造成:
- 失实:虚假的流行性以及不是基于实际价值、相关性、或权威性的链接
- 不平等:谷歌的有机搜索结果会变成让钱包最鼓的网站占有不公平的优势
为了遵循谷歌的质量准则,买卖链接应通过”rel=nofollow”或其他技术来屏蔽,例如,重定向到一个在robots.txt中被禁止索引的页面。下面是关于我们对买卖链接来传递PageRank的立场的更多解释:
2003年2月:谷歌官方的质量指南已经建议”不要参与旨在增加你的网站排名或PageRank的链接方案”达数年之久。
2005年9月:我在我的博客上发表了“文本链接和PageRank”一文。
2005年12月:我在我的博客上的另一篇文章讨论过这个问题,并表示:
很多致力于搜索引擎排名的人士认为买卖链接会降低互联网上链接的质量。如果你纯粹为了你的访问者或流量而不是为搜索引擎买卖链接,有一个简单的方法(nofollow属性)可以做到这一点。谷歌对买卖链接的立场是相当明确的。我们也在使用算法或手工相当准确地发现买卖的链接。出售链接的网站会失去搜索引擎的信任。
2006年9月:在一次John Battelle对我的采访中,我提到”谷歌一直认为通过销售链接而影响搜索引擎的行为违背了我们的质量准则” 。
2007年1月:我在我的博客中再次提醒人们: “付费博客文章中的链接应以不影响搜索引擎的方式出现” 。
2007年4月:我们提供了让人们向谷歌举报付费链接的机制。
2007年6月:在西雅图召开的搜索营销博览会(SMX)上,我在我的主题演讲中阐述了付费链接问题。这里是主题演讲讨论的录像节选。它的长度不到一分钟,但强调了谷歌将利用算法和人工方法来检测违反我们的质量准则的付费链接,并表达了将采取更强有力的行动来对付这种链接的决心。
2007年6月:一篇谷歌官方站长博客上的文章指出,”通过买卖链接来操纵结果并欺骗搜索引擎违背了我们的指南” 。该文还介绍了在谷歌网络管理员控制台中用户举报买卖链接的新表格。
2007年6月:谷歌在我们的官方站长文档中补充了关于如何举报买卖链接和什么样的链接计划违反了我们的质量准则的更具体的指导。
2007年8月:在圣何塞的搜索引擎战略(SES)会议上有一个专门关于付费链接的分会场,我描述了谷歌关于买卖链接的官方立场。
2007年9月:在我的博客的一篇文章中,我扼述了SES圣何塞会议,也把我在会上的演讲(powerpoint链接)提供给了广大用户。
2007年10月:谷歌为一篇题为”谷歌清洗了互联网贿赂”的福布斯文章提供评论。
2007年10月:谷歌正式向Search Engine Land证实,我们正在对买卖链接采取强有力的措施,包括降低通过销售链接来传递PageRank的网站的工具栏中的PageRank。
2007年10月:我发给搜索引擎杂志的一个电子邮件也明确表示谷歌正在对通过买卖链接来传递PageRank的行为采取更强有力的行动。
我们非常感谢用户对付费连接问题给我们的反馈。一些较普遍的问题是:
问:通过买卖链接传递PageRank的行为违反谷歌的指南吗?为什么?
答:是的,我们已在上面陈述了理由。最近我在我的个人博客中有一个贴子,该贴通过一个例子来说明为什么搜索引擎不希望存在这样的链接。我们标出了在一篇严肃的医学话题(脑肿瘤)文章中的一些链接。写文章的人收了一些钱,撰写了关于脑肿瘤治疗的文章,但他们根本不懂脑肿瘤的治疗。很多情况下,写付费文章的人不会做一点哪怕是最基本的研究(甚至是拼写检查!)。
问:这一问题是谷歌独有吗?
答:不是。所有主要的搜索引擎都反对买卖影响搜索引擎的链接。对于福布斯文章“谷歌清洗了互联网贿赂”,Andy Greenberg也询问了其他搜索引擎的政策,结果是一致的。看一看下面的故事:
搜索引擎讨厌这种付费链接的流行。谷歌的站长指南禁止购买只是为了提高搜索排名的链接。其它搜索引擎(包括Ask, MSN及雅虎),只要他们是模仿谷歌基于链接的搜索排名的搜索引擎,都劝阻买卖链接。
其他搜索引擎也有对买卖链接的特别评论,例如,微软搜索引擎代表在最近的一次采访中评论说:
实际情况是,大多数付费链接是 a.) 显然是不客观的;b.) 往往是无关紧要的。如果你问付费链接的影响,我的答案是,绝对有较大的风险。我们将不会容忍任何对用户体验没有增加多大价值并试图有效地欺骗我们的系统的假链接。
问:这就是为什么我们看到一些卖链接的网站在谷歌的工具栏上的PageRank较低的原因?
答:是的。如果一个站点在卖链接,它会影响我们对该网站的价值的判断,或直接导致我们对该站失去信任。
问:如果一个网站通过卖链接来传递PageRank,并且该网站自己的PageRank在谷歌工具栏被降低了,网站所有者可以做什么来补救?
答:网站所有者可以停止违背网络管理员指南的行为,并在谷歌的站长中心控制台提交复议请求。在提出复议请求之前,请确保所有售出的链接不再传递PageRank或者删除它们。
问:谷歌是不是在告诉网站管理员如何管理自己的网站?
答:不是。我们给每个想使他们的网站在谷歌上有良好表现的网站管理员提出参考。正如我在2007年6月的主题演讲视频中所说,网站管理员可以随心所欲地创建它们的网站,但是谷歌保留保障我们的索引质量和相关性的权利。据我们所知,所有主要的搜索引擎都采取了同样的立场。
问:谷歌是不是在试图打压其他用来增加网站流量的广告形式?
答: 没有,完全不是这回事。我们的站长指南明确指出,你可以使用链接的手段来获得有针对性的流量。事实上,我在2007年8月的演讲中,特意举了几个完全符合我们的指南的非谷歌广告的例子。我们只是希望付费链接能自己让搜索引擎知道它们是付费的,这样它们就不会影响搜索引擎的运作。
问:我知道有一个网站似乎是在买卖链接。我怎样才能把这一信息告诉谷歌?
答:请阅读我们在2007早期的一篇关于如何报告付费链接的贴子。我们已经在短短几个月内收到了数以千计的举报,但我们欢迎有更多的举报。我们非常感谢你们的反馈,因为它帮助我们采取直接行动,并改善现有的检测算法。我们也使用该数据来训练用以检测违反我们质量准则的付费链接的新算法。
问:我可以得到更多的信息吗?
答:当然可以。我今年早些时候写了关于付费链接问题的更多解答。如果你还有问题,你可以随时加入我们的站长帮助小组的讨论。
固定链接 2个评论
减少垃圾留言的小技巧
2007年11月21日 下午 01:16:00
发表者 马超,马婞
留言区是网站管理员与用户建立良好沟通和交流的途径。但是,正如很多人所看到的,留言区被很多作弊者(spammer) 利用,大量的粘帖他们自己网站的链接。还有一些人,利用脚本文件和程序自动生成大量毫无意义的垃圾评论。在Google, 我们正在努力抵消这种恶意行为对搜索结果带来的负面影响。以下的几点建议会帮助你更好地防范自己的网站或者博客上面出现垃圾评论:
只有在需要时才使用留言板功能
在开启留言板功能之前,先考虑网站是否真正需要这个功能。如果留言板功能不是必需的,或者是以后不能定期检查和管理留言板的状况,那么就应该不使用留言 板。如果你已经有了一个留言簿,检查一下它是不是真的对用户有帮助,用户有没有恰当地使用它。如果都没有的话,看看有没有什么方法可以改进留言簿/评论区的功能,或者干脆删除它。大量的垃圾留言会大大影响用户对你的网站的印象。大多数的博客软件都可以让你关闭其他人对你的博客日志的评论。
使用反垃圾留言工具
很多建站工具,特别是博客工具,都会有一个功能让用户输入验证码,来保证他们是真正的用户,而不是讨厌的制造垃圾的引擎。你一定见到过这样的工具:用户看到一个扭曲的图像或者验证码, 然后系统要求用户键入他们在图像中看到的字母或者数字。这是阻止垃圾留言的一个有效的手段。这个方法可能会减少用户随心所欲的留言,不过它确实能够提高留言质量。在 Wordpress 的官方网站上,有关于这类插件和反垃圾工具的很好的介绍。
对评论进行审核
对留言进行审核意 味着所有留言都必须经过人工审核和批准之后才可以出现在你的网站上。这也意味着,你必须要花更多的时间在监督和管理你的留言板,不过这样做会最终提高浏 览你的网站的用户体验。当你经常性地发表一些有争议的话题而使你的读者变得很激动时,评论审核对你的网站尤其有帮助。通常这是在你的博客 软件的设置里面,“评论” 的菜单下面。
使用 “nofollow” 标签
“nofollow” 标签是谷歌、雅虎和微软公司前几年一起提出的一个新标签,这一标签已被广泛接受。对于已经被标注 “nofollow” 标签的连接,搜索引擎不会对其计算PR值。例如:如果一个垃圾网站的站长在你的评论中加入了这样的连接 : 它会被转变成 This is a nice site!, 这样,在计算 PageRank 的时候就会被忽略了。
很多博客网站 (例如 blogger.com) 的缺省设置都是自动的将这个属性加给任何发布的评论上面。
如果需要更多的关于 “nofollow” 标签的信息, 请阅读如何阻止垃圾评论。
使用robot.txt或META标签阻止评论页面
使用robot.txt文件来屏蔽Google对相 关留言页面的访问,也是防范垃圾评论行为的有效方法之一。虽然这种方法不能阻止作弊者的恶意留言,但一旦对Google屏蔽这些恶意留言(特别是其中的恶意链 接)的访问,便可以消除其对网站的负面影响。举例而言,如果恶意留言出现在guestbook目录中,管理员可以在rotobs.txt中添加:
Disallow:/guestbook
这样Google就不会对guestbook及其下级目录中的内容进行索引。
类似的,管理员还可以利用META标签来屏蔽Google对指定页面的访问, 例如: http://www.example.com/article/comments 就可以这样做:
…
关于robots.txt的详细内容可以参阅我们的网站管理员支持中心 。
禁止超文本链接 (Hypertext)
如果你有进入服务器的权限, 你可以在上面改变相应的设置,过滤掉留言区里面的 HTML 标签。这样,作弊者虽然还是可以留言,不过他们就不能留下有效的超文本链接了。
如果你在为垃圾评论而苦恼,不妨试试上面提到的建议中的一两条,看看是不是真的有帮助。相关的任何评论或者建议,请发送到我们的谷歌网站管理员帮助中心 。
固定链接 3个评论
Tips for reducing comment spam
2007年11月21日 下午 12:46:00
posted by Chao Ma and Marina Ma
Comments are a great way for webmasters to build visitor communities. Unfortunately, as most people already know, comments are also commonly abused by spammers posting overwhelming numbers of links to their own websites. Some use scripts or other software to generate and post gibberish comments. At Google, we’ve been working hard to counter the negative effects of this spam on our search results. Here are some tips for preventing comment spam on your blog or website:
Use comments only when they’re necessary
Think twice before deciding to enable a guestbook or comments. If this feature is not really necessary or you will not be able to monitor the guestbook and comments regularly, consider disabling it. If you already have a guestbook, check to see if it’s useful to visitors, and if they’ve been visiting it. If not, consider ways to improve the comments/guestbook feature, or remove it. A lot of spam comments don’t create a good impression. Most blogging software will let you turn comments off for individual posts.
Use anti-comment spam tool
Most website development tools, especially blog tools, have functionality that requires users to pass a check to make sure they’re a real live human, not a nasty spamming engine. You’ll have seen these: generally the user is presented with a distorted image or captcha and asked to type the letters or numbers she sees in the image. This is a pretty effective way of preventing comment spam. The process may reduce the number of casual readers who leave comments on your pages, but it will definitely improve the quality of the comments. Wordpress has a good introduction to plugins and anti-spam tools.
Turn on comment moderation
Comment moderation means that no comments will appear on your site until you manually review and approve them. This means you’ll spend more time monitoring your comments, but it can really help to improve the user experience for your visitors. It’s particularly worthwhile if you regularly post about controversial subjects, where emotions can become heated. It’s generally available as a setting in your blogging software, under Comments.
Use “nofollow” Tags
Together with Yahoo! and MSN, Google introduced the “nofollow” attribute a few years ago, and the attribute has been widely accepted. Any link with the “nofollow” attribute will not be used to calculate PageRank. For example, if a spammer includes a link in your comments like this: , it will get converted to This is a nice site! and would not be taken into account when calculating PageRank.
By default, many blogging sites (such as Blogger) automatically add this attribute to any posted comments.
For more information about “nofollow” tags, check out “How to Stop Spam Comments”.
Block comment pages using robots.txt or META tags
You can use your robots.txt file to block Google’s access to certain pages. This won’t stop spammers from leaving comments, but it will mean that links in these comments won’t negatively impact your site. For example, if comments are stored in the subdirectory guestbook, you could add the following to your robots.txt:
Disallow:/guestbook
This will block Google from indexing the contents of guestbook and any subdirectories.
You can also use META tag to block access to a single selected page, for example http://www.example.com/article/comments. Like this:
…
For more information about robots.txt, check out our Help Center.
Disallow hyperlinks in comment
If you have access to the server, you may want to change its configuration to remove HTML tags inside your guestbook. Spammers will still be able to leave comments, but they won’t be able to publish active hyperlinks.
If comment spam is driving you crazy, try one or two of these methods and see how it works out. Got comments or suggestions? Leave them in our Google Webmaster Help discussion group.
固定链接 0个评论
SEO的建议:URL标准化
2007年11月9日 上午 03:18:00
译自: Matt Cutts博客
(译者按: Matt Cutts, 谷歌反网络作弊组的带头人, 于2006年1月4日在他的个人博客上发表了”SEO advice: url canonicalization”一文。尽管已快两年了,Google也为网站管理员提供了站长工具,我们发现对很多站长来说该文仍是一篇很好的SEO文章。)
在我开始收集关于Bigdaddy数据中心的反馈之前,我想简略地谈一谈有关标准化、“www相对于非www”、重新定向、重复URLs、302“劫持”等问题的看法,这样我们的讨论才有共同的基础。
问:什么是一个标准化URL?为什么要用这么一个奇怪的字眼?
答:很抱歉,这是一个奇怪的词汇;这是谷歌内部对它的称呼。标准化是一个在若干选项中选取最佳URL的过程,这里通常是指主页。例如,多数人会将下列URL看作相同性质的:
* www.example.com
* example.com/
* www.example.com/index.html
* example.com/home.asp
但是从技术角度看,这些URL都是互不相同的。对于上述URLs,Web服务器会返回完全不同的内容。当谷歌“标准化”特定的URL时,我们试图从一整套同类URL中选出看起来最具代表性的一个。
问:那么我如何能确保谷歌能挑选出我所想要的URL?
答:挑选出你想要的URL,并且在此后一直使用这个URL访问特定网站,这是很有帮助的。例如,不要让同一个输入的链接一半指向http://example.com/而另一半则指向http://www.example.com/ 。相反,挑选一个你喜欢的URL,并且在你的内部链接中总是使用这个格式。
(译者注:现在你可以使用站长工具来通过“控制台 > 工具 > 设置首选域名”)。
问:除此之外,我还能做什么?
答:比如,如果你希望你的默认URL为http://www.example.com/。那么,你可以设置你的web服务器,这样如果有人请求http://example.com/,它就会产生一个301的(永久性)重新定向,链接到http://www.example.com/。这样可以帮助谷歌了解到你希望将哪个URL作为自己的标准。如果您的网站常有变更(例如动态内容和博客等),那么加入一个301重新定向可能更便于搜索引擎的定位和捕获。
问:如果我希望去掉domain.com,但希望保留www.domain.com,我是否应该使用URL清除工具来删除这个域名?
答:不要,绝对不要这样做。对于任何一个www域名,或非www 域名,一旦删除其结果可能导致该域名在未来六个月内无法恢复。绝对不要这样做。如果你本想使用URL清除工具删除www域名或者非www域名,但实际上却删除了你所有的域名,请发送一个重新收录请求,并声明你用URL清除工具不小心删除了整个域名,现在要求重新收录。
问:我注意到,你自己并没有使用301重新定向将你的站点从非www版本转向www版本,为何没有这样做?
答:实际上我是故意这样做的。我几个月之前就注意到了这一点,但决定不自行调整,或者请求谷歌员工帮我搞定它。我或许最终会加入一个301,但至少到目前为止,它还是一个有帮助的实验案例。
问: 那么在讨论“www与非www”时,你也认为这是一种标准化的类型吗?还有没有别的方法能实现URL的标准化?
答:确实还有很多方法,但是多数人不会也无需注意到这些。搜索引擎能够自动完成诸如保留或者删除末尾的斜杠、将URL从大写格式转换为小写格式,或者将session ID从BBS或其他软件上删除等任务(即使你省略了session ID,许多BBS依然能够正常运行)。
问:让我们谈谈”inurl:”操作符。为何每个人都认为如果inurl:mydomain.com显示出某些并非来自mydomain.com的结果,那么他一定是被人劫持了?
答:早先,如果你看到someresult.com/search2.php?url=mydomain.com,有时候其中会包含来自mydomain的内容。如果someresult.com url是一个指向mydomain.com的302重新定向,而我们决定显示一个来自someresult.com的结果,就会产生这种情况。从那以后,我们已经改变了我们的启发方式,大大降低了302重新定向源URL的显示几率。我们逐渐采纳了一个用于处理重新定向的框架,它几乎总是显示目的地URL。雅虎通常采用显示目的地URL的方式来处理302重新定向,而我们正处于逐步过渡到一套类似启发方式的过程中。请注意,雅虎保留了在重新定向的过程中处理所出现的例外的权力,而谷歌也会这样做。根据我们的分析,我们将在302重新定向过程中显示URL源的总概率不到0.5%(基本上,当我们有足够的理由相信URL源正确无误时才会显示)。
问:那么,补充材料又如何呢?补充材料是否会招致谷歌的惩罚?
答:不会。
(译者注:补充材料已成为历史。请阅读补充材料转为主流一文)。
问:在补充性结果中有我的一些网页,但这些网页已经很老旧了。我该怎么办?
答:如果换了我,就不会在这方面花太多的精力。如果网页已经删除,我会确保有一个301重新定向,指向新网页的位置。如果的确彻底消失了,我会确保服务器返回一个关于这些网页的404错误信息。此后,我不会再花费任何精力。当谷歌最终重新抓取那些网页时,就会发现其中的变化。但是由于我们自己爬取补充性结果的时间间隔要长一些,所以你可能在一段时间内看不到更新。
目前我能想到的只有这些。很快,我会更详细地谈论一些关于302和inurl:的范例,帮助大家更具体地理解这个问题。