資訊檢索(英語:Information Retrieval)是從資訊資源集合獲得與資訊需求相關的資訊資源的活動。搜尋可以基於全文或其他基於內容的索引。
自動資訊檢索系統用於減少所謂的「資訊超載」。許多大學和公共圖書館使用IR系統提供圖書、期刊和其他檔案的訪問。Web搜尋引擎是最常見的IR應用程式。
概述
當用戶向系統輸入查詢時,資訊檢索過程開始。查詢是資訊需求的正式聲明,例如在Web搜尋引擎中的搜尋字串。在資訊檢索中,查詢不會唯一地標識集合中的單個對象。相反可以有不止一個對象匹配查詢,它們可能具有不同程度的相關性。
對象是由內容集合或資料庫中的資訊表示的實體。用戶查詢要與資料庫資訊進行匹配。然而,與資料庫的經典SQL查詢相反,在資訊檢索中,返回的結果可能匹配或不匹配查詢,因此結果通常被排名。這種結果排名是資訊檢索搜尋與資料庫搜尋相比的關鍵區別。[1]
根據應用,數據對象可以是文字文件、圖像[2]、音頻[3]、思維導圖[4]或影片等。通常文件本身不儲存或直接儲存在IR系統中,而是以文獻替代或元數據在系統中表示。
大多數IR系統對資料庫中的每個對象與查詢匹配的程度計算數值分數,並根據此值對對象進行排名。然後向用戶顯示排名靠前的對象。如果用戶希望細化查詢,則可以重複該過程。[5]
資訊檢索的類型
按照檢索手段,可分為:
- 傳統資訊檢索(手工檢索)和
- 現代資訊檢索(電腦檢索);
按照檢索內容,分為:
- 書目檢索、
- 數據檢索、
- 事實檢索、
- 全文檢索、
- 圖像檢索:例如:Google images
- 多媒體檢索:例如:SoundHound(聲頻檢索)。
資訊檢索的主要技術指標
傳統的指標:
- 齊全率
- 準確率
- 檢索速度
常用的指標代號:
檢索系統
運用一定的方法從某種資訊媒介上(包括書、硬碟、光碟等) 的資料中尋找所需要情報的系統。一般可區分為手工情報檢索系統(檢索卡)、機械情報檢索系統(微縮卷)和計算機情報檢索系統三大類。
ProQuest是目前最大及歷史最悠久的情報檢索服務供應商,從1938年起就開始為學校把期刊製成微縮膠卷來儲存 [6]。這些膠卷在數碼以後,繼續以光碟陣及網上服務的形式為學校提供過期期刊內容的存取服務[7]。
以下為市面上比較常見的情報系統:
參考文獻
參見
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.