元数据(Metadata,台湾又常译作诠释资料、元数据、中介数据、中继数据),是一群数据,其内容提供了有关于另一群数据的资讯[1]。英文前缀词meta-的意思是之后,进而有超出界限(transcending)之意思,其语义来自形而上学的外语构词meta-physics (希腊语:μετά-φυσικά) ,具有探求现象或对象背后之本质的意味。
“Metadata”的各地常用译名 | |
---|---|
中国大陆 | 元数据 |
台湾 | 诠释资料、后设资料、中介资料、元资料 |
港澳 | 元数据 |
元数据也带有相仿的意义,指的就是超出于“特定一群数据”所呈现的内容数据之外,其第二层次的数据。实质上,也就是用于描述这“特定一群数据”的数据,具体来说,如:
- 书籍的书名、作者、主题、目次、页数、语言、出版时间、出版社等
- 新闻的报导日期、主副标题、关键字、记者、报刊名、版次/版名、语言等
- 照片的相机型号、拍摄时间、拍摄地点、照片尺寸、分辨率、照片标题、标签、摄影师等
由于元数据是在描述关于“特定一群数据”的资讯,但并非是这“特定一群数据”其自身的内容数据,所以命名为meta-data,即数据背后的数据。
根据美国国家资讯标准组织发布的文件《Understanding Metadata: What is Metadata, and What is it For?》(2017年),元数据可区分出四种类型[2]:
对译词
中国大陆[4]与港澳[5][6]将metadata译为元数据,台湾[7][8][9]主要译作后设资料或诠释资料,其他的对译词还有元资料、中继数据、中介数据、超数据等等。
诠释资料是指这是具有描述、阐释作品之属性、特征、内容作用的数据,如作者、创作年代、作品类型、关键字,而称为诠释资料。后设资料是以“后设”对译meta-,后设的意思是于事件或事物表象的背后安置、建立,后设资料是在数据背后提供结构化资讯的数据。元数据、元资料是以“元”对译meta-,取基本、根本之意,视为数据之根本,可将数据之特质予以标引出来[9][10]。
内容简介
主要是描述数据属性(property)的资讯,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。
该名词起源于1969年,由Jack E. Myers所提出的.metadata即关于数据的数据(data-about-data),可以说是一种标准,是为支持互通性的数据描述,所获取一致的准则。其基本定义出自OCLC与NCSA所主办的“Metadata Workshop”研讨会。它将metadata定义为“描述数据的数据”(data about data)。此后各种有关Metadata的定义纷纷的出现。现存很多metadata的定义,主要视特定社群或使用情境而不同。如有有关数据的数据(data about data),有关资讯物件之结构的资讯(structured information about an information object),描述资源属性的数据(Data describes attributes of resources)等。
都柏林核心集(Dublin Core Metadata Initiative,DCMI)是元数据的一种应用,在1995年2月由国际图书馆电脑中心(OCLC)和美国国家超级计算应用中心(National Center for Supercomputing Applications,NCSA)联合赞助的研讨会上,52位来自图书馆学、电脑、网络等方面专家共同制定。
历史
元数据传统上用于图书馆的卡片目录,一直到1980年代。2000年代起,数码化成为存储数据的普遍方式。而图书馆也将其目录数据转换为数码数据库,数码数据也有相关的元数据标准。
不同行业有不同的元数据标准(例如,博物馆收藏、数码音乐文件、网站等)。描述数据或数据档的背景和内容,增加了实用性。例如一个网页的元数据包括了有关页面主题、编写脚本语言(例如 HTML)、产生页面的工具,以及哪里有关于主题的更多资讯。这个元数据可以自动提高阅读者的体验,让用户更容易在网络上查找网页。音乐CD可提供此专辑的音乐家、歌手和歌曲作者资讯的元数据。
元数据的主要目的是帮助用户查找相关资讯并探索资源。元数据也有助于组织电子资源,提供数码识别,并支持归档和保存资源。“由相关标准查找、识别资源,将相似资源集中在一起,区分不同并提供位置资讯”,元数据可帮助用户探索资源。各国政府广泛收集包括互联网在内的通讯活动元数据,用于流量分析,而且可用于大规模监控。
定义
元数据是指“描述数据的数据”。虽然说源自于希腊介词和前缀 μετά- 的英文前缀“meta”代表“之后”或“之下”的意思,在此处实际上是使用知识论中“关于”的意思。元数据被定义为提供某些数据单方面或多方面资讯的数据;它被用来概述数据的基础资讯,以简化查找过程与方便使用[11]。例如:
举例,一个数码图像文件可能会包括描述图片大小、色彩深度、图片分辨率、图片建立时间、快门速度等数据的元数据[12]。一份文档的元数据可能会包含文档长度、作者、建立时间、文档概述等资讯。网页中的元数据也可以包含页面内容的描述,以及有关于内容的关键字等等[13]。这些东西常被称作“元标签”(metatags),其在1990年代后期以前被用来当作决定搜索引擎结果顺序的主要因素[13]。在1990年代后期,由于“关键字堆砌”的出现,对于元标签的倚赖程度逐渐降低[13]。元标签的滥用导致许多搜索引擎会误认某些结果的关系性高于实际值[13]。
元数据可以在被称作元数据注册中心或元数据注册库的数据库中存储和管理[14]。不过,如果没有文字和参考点的话,单纯看是很难辨认这些元数据的[15]。举例来说:一个数据库本身会包含一些数字,但是这些数字代表的涵义可能是某些计算后的结果,或者是书籍的ISBN码──这就需要参考才能知道,而无法直接由数据容器内部得知。菲利普·巴格利在1968年在他的著作《Extension of Programming Language Concepts》中发明了“metadata”这个词,当时的意思为“描述数据容器的数据”,也就是结构性元数据,而非描述性元数据或常用于图书馆目录的元內容(metacontent)[16][17]。自那时起,资讯管理、资讯学、资讯技术、图书馆学与地理资讯系统等领域广泛接受了这个词汇。在这些领域中,元数据的定义为“描述数据的数据”[18]。尽管这是最广为接受的定义,许多学科也为了自用而采用了特殊的解释或定义。
类型
虽然元数据的应用层面很广,涵盖各式各样的领域,有专门和公认的方法来决定元数据的类型。弗朗西斯·布雷瑟顿和辛格利(1994)将元数据分成两类:结构性/控制性元数据和指南性元数据[19]。“结构性元数据”描述了诸如表格、栏、密钥和索引等数据库物件的结构。“指南性元数据”帮助人们找到特定的物品,而且经常被压缩为一系列自然语言中的关键字。
根据拉尔夫·金博尔,元数据可以分成两个相似的类别:技术性元数据和商业性元数据。“技术性元数据”等同内部性元数据,而“商业性元数据”则为外部性元数据。金博尔加入了第三种类别,“过程性元数据”。
另一方面,美国国家资讯标准组织在2004年将元数据分成三种:描述性、结构性和管理性[18]。“描述性元数据”通常用于发现和识别,作为搜索和定位物件的资讯,例如题名、作者、主题、关键字、出版商等等。“结构性元数据”描述物件的构成物是如何组织起来的,举例来说,书页是如何组成一本书中的章节的这种数据,就是结构性元数据。最后,“管理性元数据”给予有助于管理资源的资讯。管理性元数据参考技术资讯,包括文件类型、文件建立时间和文件建立方式。管理性元数据之下还有两个小分类,著作权性元数据和维护性元数据。“著作权性元数据”解释了知识产权,而“保存性元数据”则包含保存和存储资源的资讯[20]。
在2017年的新版文件,美国国家资讯标准组织增加了标记语言(markup language)为其中一类,又把管理性元数据及其两个小分类的叙述,重新加以组织安排,改用三小类的方式来呈现,并举出各个分类的数据项目和主要用途[2]。
统计数据的元数据,是用来描述收集、处理或产生统计数据的过程。[21]。SDMX将统计数据的元数据区分为[22][23]:
结构
元数据(元內容)或更正确地,用来组合元数据(元內容)陈述句的词汇,通常依据明确定义元数据纲要的标准化概念而结构化,其中包含了:元数据的标准和模型。诸如控制词汇表、分类学、索引典、数据字典和元数据注册中心等工具,可针对元数据进一步标准化。结构元数据的共通性在数据模型开发和数据库设计中也是至关重要的。
元內容(metacontent)语法是指产生元数据的字段或元素的结构规则。单一个元数据纲要可以许多不同的标记或编程语言来表达,每种标记或编程语言需要不同语法。例如,都柏林核心集(Dublin Core)可用纯文字、HTML、XML和RDF来表达。
(引导)元內容的常见例子是书目分类,主题,杜威十进制图书分类号。在任何“分类”中总是有些关于物件的隐含陈述。将物件分类为例如杜威分类号514(拓扑)(即书背上有编号为514的书),隐含的陈述是:<book><subject heading><514>。这是一个主题-谓词-物件的三元组,更重要的,它是一个类-属性-值的三元组,前两个元素(类、属性)是已有定义语义的结构元数据片段。第三个元素是一个值,最好来自一些控制词汇表,一些参考(主)数据。
元数据和主数据元素组合为一个陈述句,它是一个元內容陈述,即“元內容 = 元数据 + 主数据”。所有这些元素都可以当作“词汇”。元数据和主数据都是词汇,可以汇编成为元內容陈述。这些词汇有很多来源,包括元数据和主数据:UML,EDIFACT,XSD,Dewey/UDC/LoC,SKOS,ISO-25964,Pantone,二名法等。使用控制词汇表作为元內容陈述的组成部分,无论是索引或查找,都被ISO 25964认可:“如果索引和搜索两者从相同概念都选择了相同的术语,那么检索将得到相关文件。”
这对互联网的搜索引擎(如Google)尤其重要,搜索程序使用复杂的索引算法使搜索的文字与网页相符合;其中并没有智慧或“推论”发生,只是令人感觉似乎如此。
元数据的模式在本质上是层级结构,即元数据元素和元素之间存在套叠的关系,因此元素之间有亲子关系。层级模式的一个例子是IEEE LOM模式,其中某个元素可属于父亲的元数据元素。元数据模式也可以是一维或线性的,其中每个元素与其它元素完全不相关系,而且只根据一维来分类。例如都柏林核心纲要就是一维的元数据模式。元数据模式通常是二维或平面的,其中每个元素与其它元素完全不相关系,但根据两个正交的维度来分类。
在元数据模式超出平面描述的所有情况下,需要某种类型的超映射(hypermapping)以选取观点来显示和查看元数据,并提供特殊视图。超映射通常应用于地理学的或地质资讯叠加的图层。
将数据或元数据构造的程度称为“细致程度”(granularity),是指提供了多少数据的相关细节。具有高细致度的元数据允许更深入、详细和更结构化的资讯,并实现更高级别的技术操作。较低的细致度意味着以低成本的考量来产生元数据,但没有细节描述的资讯。细致度的主要影响不仅在于元数据的产生和获取,而且在于其维护成本上。一旦元数据的结构变得过时,则对参考资料的存取也是如此。因此,细致度必须考虑到产生以及维护元数据的投入。
标准
元数据有适用的国际标准。在国家和国际标准社群,特别是ANSI和ISO正完成许多工作,就元数据和登录的标准化达成共识。元数据的核心登录标准是ISO/IEC 11179 元数据登录(MDR),在ISO/IEC 11179-1:2004中描述了该标准的框架。新版本的第一部分正处于2015年或2016年初发布的最后阶段,已经被修订以符合当前版本的第三部分;而ISO/IEC 11179-3:2013,其中扩展了MDR以支持概念系统的登录(见ISO/IEC 11179)。
此标准规范了记录数据涵义和技术结构两者,适合人类和电脑的无歧义用法。ISO/IEC 11179标准是指元数据为相关于数据的资讯物件,或是“有关数据的数据”。在ISO/IEC 11179第三部分中,一个数据项的资讯物件是指,描述关于其数据元素、值域和其它可重复使用语义,与用来描述意义和技术细节。此标准还规定了元数据登录的详细内容,以及在元数据登录中为了登录和管理的资讯物件。ISO/IEC 11179第三部分也预定了从其它数据元素派生的复合结构描述,例如经过计算,一或多个数据元素的集合或其它形式的派生数据。
此标准原先叙述本身为“数据元素”登录,但其目的则独立于任何特定应用程式之外,支持元数据内容的记叙和登录,将记叙提供给人或电脑以开发新的应用程式,数据库,或根据登录的元数据内容来分析收集到的数据。重复利用、扩展与该标准的管理部分,此标准已成为其它类型的元数据登录的一般基础。
地理空间社群有专业化地理空间元数据标准的传统,特别奠基于地图、图像库和目录之上。对于地理空间数据,正规的元数据是必要基本的,一般文字处理方法则无法适用。
都柏林核心元数据术语是一组词汇,用于描述意图探索的资源。最初的15个经典元数据术语被称为都柏林核心元数据元素集,在以下标准文件中均认可:
- IETF RFC 5013
- ISO标准 15836-2009
- NISO标准 Z39.85。
虽然微格式遵循XHTML和HTML的语义标记方法,但它本身不是一个标准,它尝试重新利用现有的网页标签来发送元数据。一位微格式的倡导者坦塔克·塞里克,说明了采行另案的问题症结点:“我们希望你学习一种新语言,现在你需要在伺服主机上输出这些额外的文件。实在是麻烦。(微格式)能降低进入障碍。”
用途
含有拥有者,著作权和联系资讯的识别元数据可能被写入数码照片文件,产生文件的相机品牌或型号以及曝光资讯(快门速度,f-stop等)和记述资讯,例如关于照片的关键字,使文件或图像可在电脑和/或互联网上搜索。
一些元数据由相机产生,一些元数据由摄影师和/或软件在下载到电脑之后输入。大多数数码相机都会写入关于机型、快门速度等的元数据,有些则可以编辑它;在大多数Nikon、Canon,和Pentax DSLRs相机已经提供这样的功能。在后期制作时,使用元数据关键字可更方便组织。过滤器可用于分析特定的一组照片,并根据评等或摄影时间等标准来选取。
摄影元数据标准由制定以下标准的组织管理。它们包括但不限于:
- IPTC Information Interchange Model IIM (International Press Telecommunications Council),
- IPTC Core Schema for XMP
- XMP – Extensible Metadata Platform (an ISO standard)
- Exif – Exchangeable image file format, Maintained by CIPA (Camera & Imaging Products Association) and published by JEITA (Japan Electronics and Information Technology Industries Association)
- Dublin Core (Dublin Core Metadata Initiative – DCMI)
- PLUS (Picture Licensing Universal System).
- VRA Core (Visual Resource Association)
关于电信通话,非通讯的内容如通话时间、起点和目地的资讯、电子消息、即时消息和其它电信模式,是另一种形式的元数据。在Edward Snowden公布情报机构对通话细节记录元数据的大量收集后,大众对于此举是有争议的,例如NSA保留数百万互联网用户的在线元数据长达一年,无论他们是否为该机构所关注的人物。
元数据在影片中特别有用,其中关于内容资讯(例如对白字幕和场景叙述)电脑并无法理解,而是用于有效地搜索内容。影片元数据来源有两个来源:
网页通常包含元标签形式的元数据。元标签(<meta ……>
)中的叙述和关键字一般用于描述网页的内容。标记元素也指示页面描述、关键字、文件作者以及最后修改的时间。网页元数据可帮助搜索引擎和用户,查找他们需求的网页类型。
参考文献
参见
外部链接
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.