網頁抓取
維基百科,自由的 encyclopedia
網頁抓取(英語:web scraping)是一種從網頁上獲取頁面內容的計算機軟件技術。通常透過軟件使用低級別的超文本傳輸協議模仿人類的正常訪問。
此條目沒有列出任何參考或來源。 (2016年3月15日) |
網頁抓取和網頁索引極其相似,其中網頁索引指的是大多數搜索引擎採用使用的機器人或網絡爬蟲等技術。與此相反,網頁抓取更側重於轉換網絡上非結構化數據(常見的是HTML格式)成為能在一個中央數據庫和電子表格中儲存和分析的結構化數據。網頁抓取也涉及到網絡自動化,它利用計算機軟件模擬了人的瀏覽。網頁抓取的用途包括在線的價格比較,聯繫人抓取,氣象數據監測,網頁變化檢測,科研,混搭和Web數據集成。