土芭樂數位學堂

BigData 大數據分析, 大數據平台建置及應用 (Hadoop/spark),虛擬核⼼技術,資訊技術的分享, TiddlyWiki教學, Google 服務應用教學, 3D列印創意思維

robots.txt 使用範例教學

robots.txt 檔中基本會用的幾個參數分別如下:

User-agent:定義下述規則對哪些搜尋引擎生效,即是對象。
Disallow: 指定哪些目錄或檔案類型不想被檢索,需指名路徑,否則將會被忽略。
Allow : 指定哪些目錄或檔案類型可能被檢索,需指名路徑,否則將會被忽略。
Sitemap: 指定網站內的sitemap檔案放置位置,需使用絕對路徑。


以下是幾種常見及可能使用到的方式:

一、基本應用
1.允許所有搜尋引擎檢索所有內容(通常建議使用)
User-agent: *
Disallow:

2.拒絕所有搜尋引擎檢索所有內容(正式環境請避免使用)
User-agent: *
Disallow: /

3.拒絕所有搜尋引擎檢索/members/底下所有內容。
User-agent: *
Disallow: /members/

4.拒絕Google搜圖的爬蟲檢索/images/底下所有內容。
User-agent: Googlebot-image
Disallow:/images/


二、進階應用
[萬用字元]拒絕所有搜尋引擎檢索網站內png為副檔名的圖檔。
User-agent: *
Disallow: *.png$

[萬用字元]拒絕Bing搜尋引擎檢索網站內/wp-admin目錄底下所有內容及網站內開頭為test的所有檔名。
User-agent: bingbot
Disallow: /wp-admin/
Disallow: ^test*

Robots.txt測試方式
如果要驗證自己的網站有無Robots.txt,最簡單的方式是直接在網站根目錄下輸入robotx.txt做測試,檢驗是否存在。
例:https://www.apple.com/robots.txt

而若不知道目前robots.txt語法是否正確,也可以借助Google Search Console工具來做測試。

沒有留言:

張貼留言