Remove ads
描述資料用的資料 来自维基百科,自由的百科全书
後設資料(Metadata,臺灣又常譯作詮釋資料、後設資料、中介資料、中繼資料),是一群資料,其內容提供了有關於另一群資料的資訊[1]。英文前綴詞meta-的意思是之後,進而有超出界限(transcending)之意思,其語意來自形上學的外語構詞meta-physics (希臘語:μετά-φυσικά) ,具有探求現象或對象背後之本質的意味。
「Metadata」的各地常用譯名 | |
---|---|
中國大陸 | 元數據 |
臺灣 | 詮釋資料、後設資料、中介資料、元資料 |
港澳 | 元數據 |
後設資料也帶有相仿的意義,指的就是超出於「特定一群資料」所呈現的內容資料之外,其第二層次的資料。實質上,也就是用於描述這「特定一群資料」的資料,具體來說,如:
由於後設資料是在描述關於「特定一群資料」的資訊,但並非是這「特定一群資料」其自身的內容資料,所以命名為meta-data,即資料背後的資料。
根據美國國家資訊標準組織發布的文件《Understanding Metadata: What is Metadata, and What is it For?》(2017年),後設資料可區分出四種類型[2]:
中國大陸[4]與港澳[5][6]將metadata譯為元數據,臺灣[7][8][9]主要譯作後設資料或詮釋資料,其他的對譯詞還有元資料、中繼資料、中介資料、超資料等等。
詮釋資料是指這是具有描述、闡釋作品之屬性、特徵、內容作用的資料,如作者、創作年代、作品類型、關鍵字,而稱為詮釋資料。後設資料是以「後設」對譯meta-,後設的意思是於事件或事物表象的背後安置、建立,後設資料是在資料背後提供結構化資訊的資料。元數據、元資料是以「元」對譯meta-,取基本、根本之意,視為資料之根本,可將資料之特質予以標引出來[9][10]。
主要是描述資料屬性(property)的資訊,用來支援如指示儲存位置、歷史資料、資源尋找、檔案記錄等功能。後設資料算是一種電子式目錄,為了達到編製目錄的目的,必須在描述並收藏資料的內容或特色,進而達成協助資料檢索的目的。
該名詞起源於1969年,由Jack E. Myers所提出的.metadata即關於資料的資料(data-about-data),可以說是一種標準,是為支援互通性的資料描述,所取得一致的準則。其基本定義出自OCLC與NCSA所主辦的「Metadata Workshop」研討會。它將metadata定義為「描述資料的資料」(data about data)。此後各種有關Metadata的定義紛紛的出現。現存很多metadata的定義,主要視特定社群或使用情境而不同。如有有關資料的資料(data about data),有關資訊物件之結構的資訊(structured information about an information object),描述資源屬性的資料(Data describes attributes of resources)等。
都柏林核心集(Dublin Core Metadata Initiative,DCMI)是後設資料的一種應用,在1995年2月由國際圖書館電腦中心(OCLC)和美國國家超級計算應用中心(National Center for Supercomputing Applications,NCSA)聯合贊助的研討會上,52位來自圖書館學、電腦、網路等方面專家共同制定。
後設資料傳統上用於圖書館的卡片目錄,一直到1980年代。2000年代起,數位化成為儲存資料的普遍方式。而圖書館也將其目錄資料轉換為數位資料庫,數位資料也有相關的後設資料標準。
不同行業有不同的後設資料標準(例如,博物館收藏、數位音樂檔案、網站等)。描述資料或資料檔的背景和內容,增加了實用性。例如一個網頁的後設資料包括了有關頁面主題、編寫手稿語言(例如 HTML)、產生頁面的工具,以及哪裡有關於主題的更多資訊。這個後設資料可以自動提高閱讀者的體驗,讓使用者更容易在網路上尋找網頁。音樂CD可提供此專輯的音樂家、歌手和歌曲作者資訊的後設資料。
後設資料的主要目的是幫助使用者尋找相關資訊並探索資源。後設資料也有助於組織電子資源,提供數位識別,並支援歸檔和儲存資源。「由相關標準尋找、辨識資源,將相似資源集中在一起,區分不同並提供位置資訊」,後設資料可幫助使用者探索資源。各國政府廣泛收集包括網際網路在內的通訊活動後設資料,用於流量分析,而且可用於大規模監控。
後設資料是指「描述資料的資料」。雖然說源自於希臘介詞和前綴 μετά- 的英文前綴「meta」代表「之後」或「之下」的意思,在此處實際上是使用知識論中「關於」的意思。後設資料被定義為提供某些資料單方面或多方面資訊的資料;它被用來概述資料的基礎資訊,以簡化尋找過程與方便使用[11]。例如:
舉例,一個數位影像檔案可能會包括描述圖片大小、色彩深度、圖片解析度、圖片建立時間、快門速度等資料的後設資料[12]。一份文件的後設資料可能會包含文件長度、作者、建立時間、文件概述等資訊。網頁中的後設資料也可以包含頁面內容的描述,以及有關於內容的關鍵字等等[13]。這些東西常被稱作「後設標籤」(metatags),其在1990年代後期以前被用來當作決定搜尋引擎結果順序的主要因素[13]。在1990年代後期,由於「關鍵字堆砌」的出現,對於後設標籤的倚賴程度逐漸降低[13]。後設標籤的濫用導致許多搜尋引擎會誤認某些結果的關聯性高於實際值[13]。
後設資料可以在被稱作後設資料註冊中心或後設資料註冊處的資料庫中儲存和管理[14]。不過,如果沒有文字和參考點的話,單純看是很難辨認這些後設資料的[15]。舉例來說:一個資料庫本身會包含一些數字,但是這些數字代表的涵義可能是某些計算後的結果,或者是書籍的ISBN碼──這就需要參考才能知道,而無法直接由資料容器內部得知。菲利普·巴格利在1968年在他的著作《Extension of Programming Language Concepts》中發明了「metadata」這個詞,當時的意思為「描述資料容器的資料」,也就是結構性後設資料,而非描述性後設資料或常用於圖書館目錄的後設內容(metacontent)[16][17]。自那時起,資訊管理、資訊學、資訊技術、圖書館學與地理資訊系統等領域廣泛接受了這個詞彙。在這些領域中,後設資料的定義為「描述資料的資料」[18]。儘管這是最廣為接受的定義,許多學科也為了自用而採用了特殊的解釋或定義。
雖然後設資料的應用層面很廣,涵蓋各式各樣的領域,有專門和公認的方法來決定後設資料的類型。弗朗西斯·布雷瑟頓和辛格利(1994)將後設資料分成兩類:結構性/控制性後設資料和指南性後設資料[19]。「結構性後設資料」描述了諸如表格、欄、金鑰和索引等資料庫物件的結構。「指南性後設資料」幫助人們找到特定的物品,而且經常被壓縮為一系列自然語言中的關鍵字。
根據拉爾夫·金博爾,後設資料可以分成兩個相似的類別:技術性後設資料和商業性後設資料。「技術性後設資料」等同內部性後設資料,而「商業性後設資料」則為外部性後設資料。金博爾加入了第三種類別,「過程性後設資料」。
另一方面,美國國家資訊標準組織在2004年將後設資料分成三種:描述性、結構性和管理性[18]。「描述性後設資料」通常用於發現和識別,作為搜尋和定位物件的資訊,例如題名、作者、主題、關鍵字、出版商等等。「結構性後設資料」描述物件的構成物是如何組織起來的,舉例來說,書頁是如何組成一本書中的章節的這種資料,就是結構性後設資料。最後,「管理性後設資料」給予有助於管理資源的資訊。管理性後設資料參考技術資訊,包括檔案類型、檔案建立時間和檔案建立方式。管理性後設資料之下還有兩個小分類,著作權性後設資料和維護性後設資料。「著作權性後設資料」解釋了智慧財產權,而「儲存性後設資料」則包含儲存和儲存資源的資訊[20]。
在2017年的新版文件,美國國家資訊標準組織增加了標示語言(markup language)為其中一類,又把管理性後設資料及其兩個小分類的敘述,重新加以組織安排,改用三小類的方式來呈現,並舉出各個分類的資料項目和主要用途[2]。
統計數據的後設資料,是用來描述收集、處理或產生統計數據的過程。[21]。SDMX將統計數據的後設資料區分為[22][23]:
後設資料(後設內容)或更正確地,用來組合後設資料(後設內容)陳述句的詞彙,通常依據明確定義後設資料綱要的標準化概念而結構化,其中包含了:後設資料的標準和模型。諸如控制詞彙表、分類學、索引典、資料字典和後設資料註冊中心等工具,可針對後設資料進一步標準化。結構後設資料的共通性在資料模型開發和資料庫設計中也是至關重要的。
後設內容(metacontent)語法是指產生後設資料的欄位或元素的結構規則。單一個後設資料綱要可以許多不同的標記或程式語言來表達,每種標記或程式語言需要不同語法。例如,都柏林核心集(Dublin Core)可用純文字、HTML、XML和RDF來表達。
(引導)後設內容的常見例子是書目分類,主題,杜威十進位圖書分類號。在任何「分類」中總是有些關於物件的隱含陳述。將物件分類為例如杜威分類號514(拓撲)(即書背上有編號為514的書),隱含的陳述是:<book><subject heading><514>。這是一個主題-謂詞-物件的三元組,更重要的,它是一個類-屬性-值的三元組,前兩個元素(類、屬性)是已有定義語義的結構後設資料片段。第三個元素是一個值,最好來自一些控制詞彙表,一些參考(主)資料。
後設資料和主資料元素組合為一個陳述句,它是一個後設內容陳述,即「後設內容 = 後設資料 + 主資料」。所有這些元素都可以當作「詞彙」。後設資料和主資料都是詞彙,可以彙編成為後設內容陳述。這些詞彙有很多來源,包括後設資料和主資料:UML,EDIFACT,XSD,Dewey/UDC/LoC,SKOS,ISO-25964,Pantone,二名法等。使用控制詞彙表作為後設內容陳述的組成部分,無論是索引或尋找,都被ISO 25964認可:「如果索引和搜尋兩者從相同概念都選擇了相同的術語,那麼檢索將得到相關檔案。」
這對網際網路的搜尋引擎(如Google)尤其重要,搜尋程式使用複雜的索引演算法使搜尋的文字與網頁相符合;其中並沒有智慧型或「推論」發生,只是令人感覺似乎如此。
後設資料的模式在本質上是層級結構,即後設資料元素和元素之間存在套疊的關係,因此元素之間有親子關係。層級模式的一個例子是IEEE LOM模式,其中某個元素可屬於父親的後設資料元素。後設資料模式也可以是一維或線性的,其中每個元素與其它元素完全不相關聯,而且只根據一維來分類。例如都柏林核心綱要就是一維的後設資料模式。後設資料模式通常是二維或平面的,其中每個元素與其它元素完全不相關聯,但根據兩個正交的維度來分類。
在後設資料模式超出平面描述的所有情況下,需要某種類型的超對映(hypermapping)以選取觀點來顯示和檢視後設資料,並提供特殊視圖。超對映通常應用於地理學的或地質資訊疊加的圖層。
將資料或後設資料構造的程度稱為「細緻程度」(granularity),是指提供了多少資料的相關細節。具有高細緻度的後設資料允許更深入、詳細和更結構化的資訊,並實現更高級別的技術操作。較低的細緻度意味著以低成本的考量來產生後設資料,但沒有細節描述的資訊。細緻度的主要影響不僅在於後設資料的產生和取得,而且在於其維護成本上。一旦後設資料的結構變得過時,則對參考資料的存取也是如此。因此,細緻度必須考慮到產生以及維護後設資料的投入。
後設資料有適用的國際標準。在國家和國際標準社群,特別是ANSI和ISO正完成許多工作,就後設資料和登錄的標準化達成共識。後設資料的核心登錄標準是ISO/IEC 11179 後設資料登錄(MDR),在ISO/IEC 11179-1:2004中描述了該標準的框架。新版本的第一部份正處於2015年或2016年初發佈的最後階段,已經被修訂以符合目前版本的第三部份;而ISO/IEC 11179-3:2013,其中擴展了MDR以支援概念系統的登錄(見ISO/IEC 11179)。
此標準規範了記錄資料涵義和技術結構兩者,適合人類和計算機的無歧義用法。ISO/IEC 11179標準是指後設資料為相關於資料的資訊物件,或是「有關資料的資料」。在ISO/IEC 11179第三部份中,一個資料項的資訊物件是指,描述關於其資料元素、值域和其它可重複使用語義,與用來描述意義和技術細節。此標準還規定了後設資料登錄的詳細內容,以及在後設資料登錄中為了登錄和管理的資訊物件。ISO/IEC 11179第三部份也預定了從其它資料元素衍生的複合結構描述,例如經過計算,一或多個資料元素的集合或其它形式的衍生資料。
此標準原先敘述本身為「資料元素」登錄,但其目的則獨立於任何特定應用程式之外,支援後設資料內容的記敘和登錄,將記敘提供給人或計算機以開發新的應用程式,資料庫,或根據登錄的後設資料內容來分析收集到的資料。重複利用、擴展與該標準的管理部份,此標準已成為其它類型的後設資料登錄的一般基礎。
地理空間社群有專業化地理空間後設資料標準的傳統,特別奠基於地圖、圖像庫和目錄之上。對於地理空間資料,正規的後設資料是必要基本的,一般文字處理方法則無法適用。
都柏林核心後設資料術語是一組詞彙,用於描述意圖探索的資源。最初的15個經典後設資料術語被稱為都柏林核心後設資料元素集,在以下標準檔案中均認可:
雖然微格式遵循XHTML和HTML的語義標記方法,但它本身不是一個標準,它嘗試重新利用現有的網頁標籤來傳送後設資料。一位微格式的倡導者坦塔克·塞里克,說明了採行另案的問題癥結點:「我們希望你學習一種新語言,現在你需要在伺服主機上輸出這些額外的檔案。實在是麻煩。(微格式)能降低進入障礙。」
含有擁有者,著作權和聯繫資訊的識別後設資料可能被寫入數位相片檔案,產生檔案的相機品牌或型號以及曝光資訊(快門速度,f-stop等)和記述資訊,例如關於相片的關鍵字,使檔案或圖像可在計算機和/或網際網路上搜尋。
一些後設資料由相機產生,一些後設資料由攝影師和/或軟體在下載到計算機之後輸入。大多數數位相機都會寫入關於機型、快門速度等的後設資料,有些則可以編輯它;在大多數Nikon、Canon,和Pentax DSLRs相機已經提供這樣的功能。在後期製作時,使用後設資料關鍵字可更方便組織。過濾器可用於分析特定的一組相片,並根據評等或攝影時間等標準來選取。
攝影後設資料標準由制定以下標準的組織管理。它們包括但不限於:
關於電信通話,非通訊的內容如通話時間、起點和目地的資訊、電子訊息、即時訊息和其它電信模式,是另一種形式的後設資料。在Edward Snowden公佈情報機構對通話細節記錄後設資料的大量收集後,大眾對於此舉是有爭議的,例如NSA保留數百萬網際網路使用者的在線後設資料長達一年,無論他們是否為該機構所關注的人物。
後設資料在影片中特別有用,其中關於內容資訊(例如對白字幕和場景敘述)計算機並無法理解,而是用於有效地搜尋內容。影片後設資料來源有兩個來源:
網頁通常包含後設標籤形式的後設資料。後設標籤(<meta ……>
)中的敘述和關鍵字一般用於描述網頁的內容。標記元素也指示頁面描述、關鍵字、檔案作者以及最後修改的時間。網頁後設資料可幫助搜尋引擎和使用者,尋找他們需求的網頁類型。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.