李洋 #Vis# Eng  

您專業的 SEO優化師網站開發師

關於robots.txt

robots.txt

這是什麽?

Robots.txt位於您的網站根目錄下,比如我網站的(yangli.com.au/robots.txt),這是壹個用於控制搜索引擎抓取您頁面的機器人的壹個文件,它的作用是告訴這些機器人哪些頁面應該前去抓取,哪些不應該抓取。所謂“抓取”,是搜索引擎用於了解您每個網頁的內容及用於索引您這些網頁的壹個方式。

有什麽用?

1. 妳可以通過robots.txt這個文件來阻止搜索引擎機器人抓取您的壹些頁面,比如說您有個不想被別人看到的頁面yangli.com.au/secret/,您就可以通過在此文件中寫入壹下代碼來實現:

User-agent: *
Disallow: /secret/

這裏面“User-agent”是用於說明此下面的抓取規則適用於哪些機器人,沒有提及的機器人便不適用於次規則。“*”號代表所有機器人都適用於以下規則,或者您可填寫指定的機器人比如googlebot、baiduspider等等。想知道壹共有哪些機器人請點此瀏覽

2. 相反的,您也可以通過這個文件來告訴搜索引擎機器人哪些頁面是開放的,歡迎來抓取。代碼如下:

Allow: /not-a-secret/

3. 您還可以通過在此文件中寫入以下代碼來告訴谷歌您的XML sitemap的地址這是啥?):

Sitemap: http://yangli.com.au/sitemap_index.xml

請用您實際的XML sitemap地址來代替以上的我的網站的XML sitemap地址。然而,這個對於SEO作用並不大,因為您也可通過別的方式比如使用谷歌的Search Console (Webmaster Tools)來提交您的sitemap,讓谷歌更好的了解及抓取您的網站。

我的貼士

1. 永遠不要將如下代碼寫入您的robots.txt文件,除非您不想要谷歌抓取您的整個網站和把您的網站內容展示到搜索結果列表裏:

User-agent: *
Disallow: /

2. 在robots.txt填寫了您想阻止谷歌機器人來抓取的頁面,並不代表它就不會索引您的這些頁面了。即使您阻止了,谷歌還是會以某種方式來索引您的網站內容。您肯定見過下面圖片中所展示的內容。我的另外壹篇博客有說明如何有效且安全的從谷歌搜索結果中刪除您的網站索引,若有興趣請前往閱讀。

被robots.txt禁止抓取的頁面

3. 讓谷歌抓取您的所有.css和.js文件。這是非常非常重要的,因為谷歌會用這些文件來了解您的網頁到底長什麽樣子,尤其是如果您使用了robots.txt文件來阻止了很多插件文件夾或者主題文件夾。

Allow: /*.css*
Allow: /*.js*
Allow: /*.CSS*
Allow: /*.JS*

如果您對上述或者對如何使用robots.txt有什麽疑問,歡迎咨詢。