元數據(Metadata,臺灣又常譯作詮釋資料、元數據、中介數據、中繼數據),是一群數據,其內容提供了有關於另一群數據的資訊[1]。英文前綴詞meta-的意思是之後,進而有超出界限(transcending)之意思,其語意來自形而上學的外語構詞meta-physics (希臘語:μετά-φυσικά) ,具有探求現象或對象背後之本質的意味。
「Metadata」的各地常用譯名 | |
---|---|
中國大陸 | 元數據 |
臺灣 | 詮釋資料、後設資料、中介資料、元資料 |
港澳 | 元數據 |
元數據也帶有相仿的意義,指的就是超出於「特定一群數據」所呈現的內容數據之外,其第二層次的數據。實質上,也就是用於描述這「特定一群數據」的數據,具體來說,如:
- 書籍的書名、作者、主題、目次、頁數、語言、出版時間、出版社等
- 新聞的報導日期、主副標題、關鍵字、記者、報刊名、版次/版名、語言等
- 相片的相機型號、拍攝時間、拍攝地點、相片尺寸、解像度、相片標題、標籤、攝影師等
由於元數據是在描述關於「特定一群數據」的資訊,但並非是這「特定一群數據」其自身的內容數據,所以命名為meta-data,即數據背後的數據。
根據美國國家資訊標準組織發佈的文件《Understanding Metadata: What is Metadata, and What is it For?》(2017年),元數據可區分出四種類型[2]:
對譯詞
中國大陸[4]與港澳[5][6]將metadata譯為元數據,臺灣[7][8][9]主要譯作後設資料或詮釋資料,其他的對譯詞還有元資料、中繼數據、中介數據、超數據等等。
詮釋資料是指這是具有描述、闡釋作品之屬性、特徵、內容作用的數據,如作者、創作年代、作品類型、關鍵字,而稱為詮釋資料。後設資料是以「後設」對譯meta-,後設的意思是於事件或事物表象的背後安置、建立,後設資料是在數據背後提供結構化資訊的數據。元數據、元資料是以「元」對譯meta-,取基本、根本之意,視為數據之根本,可將數據之特質予以標引出來[9][10]。
內容簡介
主要是描述數據屬性(property)的資訊,用來支援如指示儲存位置、歷史數據、資源尋找、檔案記錄等功能。元數據算是一種電子式目錄,為了達到編製目錄的目的,必須在描述並收藏數據的內容或特色,進而達成協助數據檢索的目的。
該名詞起源於1969年,由Jack E. Myers所提出的.metadata即關於數據的數據(data-about-data),可以說是一種標準,是為支援互通性的數據描述,所取得一致的準則。其基本定義出自OCLC與NCSA所主辦的「Metadata Workshop」研討會。它將metadata定義為「描述數據的數據」(data about data)。此後各種有關Metadata的定義紛紛的出現。現存很多metadata的定義,主要視特定社群或使用情境而不同。如有有關數據的數據(data about data),有關資訊物件之結構的資訊(structured information about an information object),描述資源屬性的數據(Data describes attributes of resources)等。
都柏林核心集(Dublin Core Metadata Initiative,DCMI)是元數據的一種應用,在1995年2月由國際圖書館電腦中心(OCLC)和美國國家超級計算應用中心(National Center for Supercomputing Applications,NCSA)聯合贊助的研討會上,52位來自圖書館學、電腦、網絡等方面專家共同制定。
歷史
元數據傳統上用於圖書館的卡片目錄,一直到1980年代。2000年代起,數碼化成為儲存數據的普遍方式。而圖書館也將其目錄數據轉換為數碼資料庫,數碼數據也有相關的元數據標準。
不同行業有不同的元數據標準(例如,博物館收藏、數碼音樂檔案、網站等)。描述數據或數據檔的背景和內容,增加了實用性。例如一個網頁的元數據包括了有關頁面主題、編寫手稿語言(例如 HTML)、產生頁面的工具,以及哪裏有關於主題的更多資訊。這個元數據可以自動提高閱讀者的體驗,讓用戶更容易在網絡上尋找網頁。音樂CD可提供此專輯的音樂家、歌手和歌曲作者資訊的元數據。
元數據的主要目的是幫助用戶尋找相關資訊並探索資源。元數據也有助於組織電子資源,提供數碼識別,並支援歸檔和儲存資源。「由相關標準尋找、辨識資源,將相似資源集中在一起,區分不同並提供位置資訊」,元數據可幫助用戶探索資源。各國政府廣泛收集包括互聯網在內的通訊活動元數據,用於流量分析,而且可用於大規模監控。
定義
元數據是指「描述數據的數據」。雖然說源自於希臘介詞和前綴 μετά- 的英文前綴「meta」代表「之後」或「之下」的意思,在此處實際上是使用知識論中「關於」的意思。元數據被定義為提供某些數據單方面或多方面資訊的數據;它被用來概述數據的基礎資訊,以簡化尋找過程與方便使用[11]。例如:
舉例,一個數碼圖像檔案可能會包括描述圖片大小、色彩深度、圖片解像度、圖片建立時間、快門速度等數據的元數據[12]。一份文件的元數據可能會包含文件長度、作者、建立時間、文件概述等資訊。網頁中的元數據也可以包含頁面內容的描述,以及有關於內容的關鍵字等等[13]。這些東西常被稱作「後設標籤」(metatags),其在1990年代後期以前被用來當作決定搜尋引擎結果順序的主要因素[13]。在1990年代後期,由於「關鍵字堆砌」的出現,對於後設標籤的倚賴程度逐漸降低[13]。後設標籤的濫用導致許多搜尋引擎會誤認某些結果的關聯性高於實際值[13]。
元數據可以在被稱作元數據註冊中心或元數據註冊處的資料庫中儲存和管理[14]。不過,如果沒有文字和參考點的話,單純看是很難辨認這些元數據的[15]。舉例來說:一個資料庫本身會包含一些數字,但是這些數字代表的涵義可能是某些計算後的結果,或者是書籍的ISBN碼──這就需要參考才能知道,而無法直接由數據容器內部得知。菲利普·巴格利在1968年在他的著作《Extension of Programming Language Concepts》中發明了「metadata」這個詞,當時的意思為「描述數據容器的數據」,也就是結構性元數據,而非描述性元數據或常用於圖書館目錄的元內容(metacontent)[16][17]。自那時起,資訊管理、資訊科學、資訊技術、圖書館學與地理資訊系統等領域廣泛接受了這個詞彙。在這些領域中,元數據的定義為「描述數據的數據」[18]。儘管這是最廣為接受的定義,許多學科也為了自用而採用了特殊的解釋或定義。
類型
雖然元數據的應用層面很廣,涵蓋各式各樣的領域,有專門和公認的方法來決定元數據的類型。弗朗西斯·布雷瑟頓和辛格利(1994)將元數據分成兩類:結構性/控制性元數據和指南性元數據[19]。「結構性元數據」描述了諸如表格、欄、金鑰和索引等資料庫物件的結構。「指南性元數據」幫助人們找到特定的物品,而且經常被壓縮為一系列自然語言中的關鍵字。
根據拉爾夫·金博爾,元數據可以分成兩個相似的類別:技術性元數據和商業性元數據。「技術性元數據」等同內部性元數據,而「商業性元數據」則為外部性元數據。金博爾加入了第三種類別,「過程性元數據」。
另一方面,美國國家資訊標準組織在2004年將元數據分成三種:描述性、結構性和管理性[18]。「描述性元數據」通常用於發現和識別,作為搜尋和定位物件的資訊,例如題名、作者、主題、關鍵字、出版商等等。「結構性元數據」描述物件的構成物是如何組織起來的,舉例來說,書頁是如何組成一本書中的章節的這種數據,就是結構性元數據。最後,「管理性元數據」給予有助於管理資源的資訊。管理性元數據參考技術資訊,包括檔案類型、檔案建立時間和檔案建立方式。管理性元數據之下還有兩個小分類,著作權性元數據和維護性元數據。「著作權性元數據」解釋了知識產權,而「儲存性元數據」則包含儲存和儲存資源的資訊[20]。
在2017年的新版文件,美國國家資訊標準組織增加了標示語言(markup language)為其中一類,又把管理性元數據及其兩個小分類的敘述,重新加以組織安排,改用三小類的方式來呈現,並舉出各個分類的數據項目和主要用途[2]。
統計數據的元數據,是用來描述收集、處理或產生統計數據的過程。[21]。SDMX將統計數據的元數據區分為[22][23]:
結構
元數據(元內容)或更正確地,用來組合元數據(元內容)陳述句的詞彙,通常依據明確定義元數據綱要的標準化概念而結構化,其中包含了:元數據的標準和模型。諸如控制詞彙表、分類學、索引典、數據字典和元數據註冊中心等工具,可針對元數據進一步標準化。結構元數據的共通性在數據模型開發和資料庫設計中也是至關重要的。
元內容(metacontent)語法是指產生元數據的欄位或元素的結構規則。單一個元數據綱要可以許多不同的標記或程式語言來表達,每種標記或程式語言需要不同語法。例如,都柏林核心集(Dublin Core)可用純文字、HTML、XML和RDF來表達。
(引導)元內容的常見例子是書目分類,主題,杜威十進位圖書分類號。在任何「分類」中總是有些關於物件的隱含陳述。將物件分類為例如杜威分類號514(拓撲)(即書背上有編號為514的書),隱含的陳述是:<book><subject heading><514>。這是一個主題-謂詞-物件的三元組,更重要的,它是一個類-屬性-值的三元組,前兩個元素(類、屬性)是已有定義語義的結構元數據片段。第三個元素是一個值,最好來自一些控制詞彙表,一些參考(主)數據。
元數據和主數據元素組合為一個陳述句,它是一個元內容陳述,即「元內容 = 元數據 + 主數據」。所有這些元素都可以當作「詞彙」。元數據和主數據都是詞彙,可以彙編成為元內容陳述。這些詞彙有很多來源,包括元數據和主數據:UML,EDIFACT,XSD,Dewey/UDC/LoC,SKOS,ISO-25964,Pantone,二名法等。使用控制詞彙表作為元內容陳述的組成部分,無論是索引或尋找,都被ISO 25964認可:「如果索引和搜尋兩者從相同概念都選擇了相同的術語,那麼檢索將得到相關檔案。」
這對互聯網的搜尋引擎(如Google)尤其重要,搜尋程式使用複雜的索引演算法使搜尋的文字與網頁相符合;其中並沒有智能或「推論」發生,只是令人感覺似乎如此。
元數據的模式在本質上是層級結構,即元數據元素和元素之間存在套疊的關係,因此元素之間有親子關係。層級模式的一個例子是IEEE LOM模式,其中某個元素可屬於父親的元數據元素。元數據模式也可以是一維或線性的,其中每個元素與其它元素完全不相關聯,而且只根據一維來分類。例如都柏林核心綱要就是一維的元數據模式。元數據模式通常是二維或平面的,其中每個元素與其它元素完全不相關聯,但根據兩個正交的維度來分類。
在元數據模式超出平面描述的所有情況下,需要某種類型的超對映(hypermapping)以選取觀點來顯示和檢視元數據,並提供特殊視圖。超對映通常應用於地理學的或地質資訊疊加的圖層。
將數據或元數據構造的程度稱為「細緻程度」(granularity),是指提供了多少數據的相關細節。具有高細緻度的元數據允許更深入、詳細和更結構化的資訊,並實現更高級別的技術操作。較低的細緻度意味着以低成本的考量來產生元數據,但沒有細節描述的資訊。細緻度的主要影響不僅在於元數據的產生和取得,而且在於其維護成本上。一旦元數據的結構變得過時,則對參考資料的存取也是如此。因此,細緻度必須考慮到產生以及維護元數據的投入。
標準
元數據有適用的國際標準。在國家和國際標準社群,特別是ANSI和ISO正完成許多工作,就元數據和登錄的標準化達成共識。元數據的核心登錄標準是ISO/IEC 11179 元數據登錄(MDR),在ISO/IEC 11179-1:2004中描述了該標準的框架。新版本的第一部份正處於2015年或2016年初發佈的最後階段,已經被修訂以符合目前版本的第三部份;而ISO/IEC 11179-3:2013,其中擴展了MDR以支援概念系統的登錄(見ISO/IEC 11179)。
此標準規範了記錄數據涵義和技術結構兩者,適合人類和計算機的無歧義用法。ISO/IEC 11179標準是指元數據為相關於數據的資訊物件,或是「有關數據的數據」。在ISO/IEC 11179第三部份中,一個數據項的資訊物件是指,描述關於其數據元素、值域和其它可重複使用語義,與用來描述意義和技術細節。此標準還規定了元數據登錄的詳細內容,以及在元數據登錄中為了登錄和管理的資訊物件。ISO/IEC 11179第三部份也預定了從其它數據元素衍生的複合結構描述,例如經過計算,一或多個數據元素的集合或其它形式的衍生數據。
此標準原先敘述本身為「數據元素」登錄,但其目的則獨立於任何特定應用程式之外,支援元數據內容的記敘和登錄,將記敘提供給人或計算機以開發新的應用程式,資料庫,或根據登錄的元數據內容來分析收集到的數據。重複利用、擴展與該標準的管理部份,此標準已成為其它類型的元數據登錄的一般基礎。
地理空間社群有專業化地理空間元數據標準的傳統,特別奠基於地圖、圖像庫和目錄之上。對於地理空間數據,正規的元數據是必要基本的,一般文字處理方法則無法適用。
都柏林核心元數據術語是一組詞彙,用於描述意圖探索的資源。最初的15個經典元數據術語被稱為都柏林核心元數據元素集,在以下標準檔案中均認可:
- IETF RFC 5013
- ISO標準 15836-2009
- NISO標準 Z39.85。
雖然微格式遵循XHTML和HTML的語義標記方法,但它本身不是一個標準,它嘗試重新利用現有的網頁標籤來傳送元數據。一位微格式的倡導者坦塔克·塞里克,說明了採行另案的問題癥結點:「我們希望你學習一種新語言,現在你需要在伺服主機上輸出這些額外的檔案。實在是麻煩。(微格式)能降低進入障礙。」
用途
含有擁有者,著作權和聯繫資訊的識別元數據可能被寫入數碼相片檔案,產生檔案的相機品牌或型號以及曝光資訊(快門速度,f-stop等)和記述資訊,例如關於相片的關鍵字,使檔案或圖像可在計算機和/或互聯網上搜尋。
一些元數據由相機產生,一些元數據由攝影師和/或軟件在下載到計算機之後輸入。大多數數碼相機都會寫入關於機型、快門速度等的元數據,有些則可以編輯它;在大多數Nikon、Canon,和Pentax DSLRs相機已經提供這樣的功能。在後期製作時,使用元數據關鍵字可更方便組織。過濾器可用於分析特定的一組相片,並根據評等或攝影時間等標準來選取。
攝影元數據標準由制定以下標準的組織管理。它們包括但不限於:
- IPTC Information Interchange Model IIM (International Press Telecommunications Council),
- IPTC Core Schema for XMP
- XMP – Extensible Metadata Platform (an ISO standard)
- Exif – Exchangeable image file format, Maintained by CIPA (Camera & Imaging Products Association) and published by JEITA (Japan Electronics and Information Technology Industries Association)
- Dublin Core (Dublin Core Metadata Initiative – DCMI)
- PLUS (Picture Licensing Universal System).
- VRA Core (Visual Resource Association)
關於電信通話,非通訊的內容如通話時間、起點和目地的資訊、電子訊息、即時訊息和其它電信模式,是另一種形式的元數據。在Edward Snowden公佈情報機構對通話細節記錄元數據的大量收集後,大眾對於此舉是有爭議的,例如NSA保留數百萬互聯網用戶的在線元數據長達一年,無論他們是否為該機構所關注的人物。
元數據在影片中特別有用,其中關於內容資訊(例如對白字幕和場景敘述)計算機並無法理解,而是用於有效地搜尋內容。影片元數據來源有兩個來源:
網頁通常包含後設標籤形式的元數據。後設標籤(<meta ……>
)中的敘述和關鍵字一般用於描述網頁的內容。標記元素也指示頁面描述、關鍵字、檔案作者以及最後修改的時間。網頁元數據可幫助搜尋引擎和用戶,尋找他們需求的網頁類型。
參考文獻
參見
外部連結
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.