李洋 #Vis# Eng  

您专业的 SEO优化师网站开发师

关于robots.txt

robots.txt

这是什么?

Robots.txt位于您的网站根目录下,比如我网站的(yangli.com.au/robots.txt),这是一个用于控制搜索引擎抓取您页面的机器人的一个文件,它的作用是告诉这些机器人哪些页面应该前去抓取,哪些不应该抓取。所谓“抓取”,是搜索引擎用于了解您每个网页的内容及用于索引您这些网页的一个方式。

有什么用?

1. 你可以通过robots.txt这个文件来阻止搜索引擎机器人抓取您的一些页面,比如说您有个不想被别人看到的页面yangli.com.au/secret/,您就可以通过在此文件中写入一下代码来实现:

User-agent: *
Disallow: /secret/

这里面“User-agent”是用于说明此下面的抓取规则适用于哪些机器人,没有提及的机器人便不适用于次规则。“*”号代表所有机器人都适用于以下规则,或者您可填写指定的机器人比如googlebot、baiduspider等等。想知道一共有哪些机器人请点此浏览

2. 相反的,您也可以通过这个文件来告诉搜索引擎机器人哪些页面是开放的,欢迎来抓取。代码如下:

Allow: /not-a-secret/

3. 您还可以通过在此文件中写入以下代码来告诉谷歌您的XML sitemap的地址这是啥?):

Sitemap: http://yangli.com.au/sitemap_index.xml

请用您实际的XML sitemap地址来代替以上的我的网站的XML sitemap地址。然而,这个对于SEO作用并不大,因为您也可通过别的方式比如使用谷歌的Search Console (Webmaster Tools)来提交您的sitemap,让谷歌更好的了解及抓取您的网站。

我的贴士

1. 永远不要将如下代码写入您的robots.txt文件,除非您不想要谷歌抓取您的整个网站和把您的网站内容展示到搜索结果列表里:

User-agent: *
Disallow: /

2. 在robots.txt填写了您想阻止谷歌机器人来抓取的页面,并不代表它就不会索引您的这些页面了。即使您阻止了,谷歌还是会以某种方式来索引您的网站内容。您肯定见过下面图片中所展示的内容。我的另外一篇博客有说明如何有效且安全的从谷歌搜索结果中删除您的网站索引,若有兴趣请前往阅读。

被robots.txt禁止抓取的页面

3. 让谷歌抓取您的所有.css和.js文件。这是非常非常重要的,因为谷歌会用这些文件来了解您的网页到底长什么样子,尤其是如果您使用了robots.txt文件来阻止了很多插件文件夹或者主题文件夹。

Allow: /*.css*
Allow: /*.js*
Allow: /*.CSS*
Allow: /*.JS*

如果您对上述或者对如何使用robots.txt有什么疑问,欢迎咨询。