robots.txt 樣本:
User-agent: {Spider名}
Disallow: {File位置}
例:設定所有 robot 不能夠收集 /tmp/ 和 /download/ 目錄中的資料。
User-agent: *
Disallow: /tmp/
Disallow: /download/
例:設定所有 robot 不能夠收集 etc.htm 和 /index/work.html 中的資料。
User-agent: *
Disallow: /etc.htm
Disallow: /index/work.html
例:設定所有 robot 不能夠收集所有網頁資料。
User-agent: *
Disallow: /
例:設定 Google 不能夠收集 /tmp/ 目錄中的資料。
User-agent: Googlebot
Disallow: /tmp/
例:設定 Google 和 Excite 不能夠收集 /tmp/ 和 /index/work.html 目錄中的資料。
User-agent: Googlebot
User-agent: ArchitextSpider
Disallow: /tmp/
Disallow: /index/work.html
對應表:
| 搜尋引擎 | Robot 名稱 |
|
AltaVista
|
Scooter
|
| Infoseek | Infoseek |
| Hotbot | Slurp |
| AOL Search | Slurp |
| Excite | ArchitextSpider |
| Googlebot | |
| Goto | Slurp |
| Lycos | Lycos |
| MSN | Slurp |
| Netscape | Googlebot |
| NorthernLight | Gulliver |
| WebCrawler | ArchitextSpider |
| Iwon | Slurp |
| Fast | Fast |
| DirectHit | Grabber |
| Yahoo Web Pages | Googlebot |
| Looksmart Web Pages | Slurp |