robots.txt 檔中基本會用的幾個參數分別如下:
User-agent:定義下述規則對哪些搜尋引擎生效,即是對象。
Disallow: 指定哪些目錄或檔案類型不想被檢索,需指名路徑,否則將會被忽略。
Allow : 指定哪些目錄或檔案類型可能被檢索,需指名路徑,否則將會被忽略。
Sitemap: 指定網站內的sitemap檔案放置位置,需使用絕對路徑。
以下是幾種常見及可能使用到的方式:
一、基本應用
1.允許所有搜尋引擎檢索所有內容(通常建議使用)
User-agent: *
Disallow:
2.拒絕所有搜尋引擎檢索所有內容(正式環境請避免使用)
User-agent: *
Disallow: /
3.拒絕所有搜尋引擎檢索/members/底下所有內容。
User-agent: *
Disallow: /members/
4.拒絕Google搜圖的爬蟲檢索/images/底下所有內容。
User-agent: Googlebot-image
Disallow:/images/
二、進階應用
[萬用字元]拒絕所有搜尋引擎檢索網站內png為副檔名的圖檔。
User-agent: *
Disallow: *.png$
[萬用字元]拒絕Bing搜尋引擎檢索網站內/wp-admin目錄底下所有內容及網站內開頭為test的所有檔名。
User-agent: bingbot
Disallow: /wp-admin/
Disallow: ^test*
Robots.txt測試方式
如果要驗證自己的網站有無Robots.txt,最簡單的方式是直接在網站根目錄下輸入robotx.txt做測試,檢驗是否存在。
例:https://www.apple.com/robots.txt
而若不知道目前robots.txt語法是否正確,也可以借助Google Search Console工具來做測試。
-
沒有留言:
張貼留言