網路爬蟲
維基百科,自由的 encyclopedia
網絡爬蟲(英語:web crawler),也叫網路蜘蛛(spider),是一種用來自動瀏覽萬維網的網絡機器人。其目的一般為編纂網絡索引。
網路搜索引擎等站點通過爬蟲軟體更新自身的網站內容(英語:Web content)或其對其他網站的索引。網路爬蟲可以將自己所訪問的頁面保存下來,以便搜索引擎事後生成索引(英語:Index (search engine))供用戶搜索。
爬蟲訪問網站的過程會消耗目標系統資源。不少網絡系統並不默許爬蟲工作。因此在訪問大量頁面時,爬蟲需要考慮到規劃、負載,還需要講「禮貌」。 不願意被爬蟲訪問、被爬蟲主人知曉的公開站點可以使用robots.txt文件之類的方法避免訪問。這個文件可以要求機器人(英語:Software agent)只對網站的一部分進行索引,或完全不作處理。
互聯網上的頁面極多,即使是最大的爬蟲系統也無法做出完整的索引。因此在公元2000年之前的萬維網出現初期,搜索引擎經常找不到多少相關結果。現在的搜索引擎在這方面已經進步很多,能夠即刻給出高素質結果。