robots.txt
一种用于控制搜索引擎或者其爬虫程序对页面访问控制的建议性规范标准文件 / 維基百科,自由的 encyclopedia
robots.txt(統一小寫)是一種存放於網站根目錄下的ASCII編碼的文本文件,它通常告訴網絡搜索引擎的漫遊器(又稱網絡蜘蛛),此網站中的哪些內容是不應被搜索引擎的漫遊器獲取的,哪些是可以被漫遊器獲取的。因為一些系統中的URL是大小寫敏感的,所以robots.txt的文件名應統一為小寫。robots.txt應放置於網站的根目錄下。如果想單獨定義搜索引擎的漫遊器訪問子目錄時的行為,那麼可以將自定的設置合併到根目錄下的robots.txt,或者使用robots元數據(Metadata)。
robots.txt協議並不是一個規範,而只是約定俗成的,所以並不能保證網站的隱私。注意robots.txt是用字符串比較來確定是否獲取URL,所以目錄末尾有與沒有斜槓「/」表示的是不同的URL。robots.txt允許使用類似「Disallow: *.gif」這樣的通配符[1][2]。
其他的影響搜索引擎的行為的方法包括使用robots元數據:
<meta name="robots" content="noindex,nofollow" />
這個協議也不是一個規範,而只是約定俗成的,有些搜索引擎會遵守這一規範,有些則不然。通常搜索引擎會識別這個元數據,不索引這個頁面,以及這個頁面的連出頁面。