大数据[1](英语:big data[2][3][4];亦称作巨量資料),指的是传统数据处理应用软件不足以处理的大或复杂的数据集的形容术语[5][6]

大数据也可以定义为来自各种来源的大量非结构化或结构化数据。从学术角度而言,大数据的出现促成广泛主题的新颖研究。这也导致各种大数据统计方法的发展。大数据并没有统计学抽样方法;它只是观察和追踪发生的事情。因此,大数据通常包含的数据大小超出传统软件在可接受的时间内处理的能力。由于近期的技术进步,发布新数据的便捷性以及全球大多数政府对高透明度的要求,大数据分析在现代研究中越来越突出。[7] [3]

概述

截至2012年 (2012-Missing required parameter 1=month!),技术上可在合理时间内分析处理的数据集大小单位为艾字节EB[8]。在许多领域,由于数据集过度庞大,科学家经常在分析处理上遭遇限制和阻碍;这些领域包括气象学基因组学[9]神经网络体学、复杂的物理模拟[10],以及生物和环境研究[11]。这样的限制也对网络搜索金融经济信息学造成影响。数据集大小增长的部分原因来自于信息持续从各种来源被广泛收集,这些来源包括搭载感测设备的移动设备、高空感测科技(遥感)、软件记录、相机、麦克风、射频识别(RFID)和无线感测网络。自1980年代起,现代科技可存储数据的容量每40个月即增加一倍[12];截至2012年 (2012-Missing required parameter 1=month!),全世界每天产生2.5艾字节(2.5×1018字节)的数据[13]

大数据几乎无法使用大多数的数据库管理系统处理,而必须使用“在数十、数百甚至数千台服务器上同时平行运行的软件”(电脑集群是其中一种常用方式)[14]。大数据的定义取决于持有数据组的机构之能力,以及其平常用来处理分析数据的软件之能力。“对某些组织来说,第一次面对数百GB的数据集可能让他们需要重新思考数据管理的选项。对于其他组织来说,数据集可能需要达到数十或数百TB才会对他们造成困扰。”[15]

随着大数据被越来越多的提及,有些人惊呼大数据时代已经到来了,2012年《纽约时报》的一篇专栏中写到,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。但是并不是所有人都对大数据感兴趣,有些人甚至认为这是商学院或咨询公司用来哗众取宠的时髦术语(buzzword),看起来很新颖,但只是把传统重新包装,之前在学术研究或者政策决策中也有海量数据的支撑,大数据并不是一件新兴事物。

大数据时代的来临带来无数的机遇,但是与此同时个人或机构的隐私权也极有可能受到冲击,大数据包含各种个人信息数据,现有的隐私保护法律或政策无力解决这些新出现的问题。有人提出,大数据时代,个人是否拥有“被遗忘权”,被遗忘权即是否有权利要求数据商不保留自己的某些信息,大数据时代信息为某些互联网巨头所控制,但是数据商收集任何数据未必都获得用户的许可,其对数据的控制权不具有合法性。2014年5月13日欧盟法院就“被遗忘权”(Case of Right to be Forgotten)一案作出裁定,判决谷歌应根据用户请求删除不完整的、无关紧要的、不相关的数据以保证数据不出现在搜索结果中。这说明在大数据时代,加强对用户个人权利的尊重才是时势所趋的潮流。

Thumb
IBM对维基百科用户:Pearle的编辑纪录数据进行可视化的呈现。维基百科上总计数太字节的文字和图片正是大数据的例子之一
Thumb
全球信息存储容量成长图

定义

大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集英语data acquisition策展英语data curation、管理和处理能力[16]。大数据的大小经常改变,截至2012年 (2012-Missing required parameter 1=month!),单一数据集的大小从数太字节(TB)至数十兆亿字节(PB)不等。

在一份2001年的研究与相关的演讲中[17]麦塔集团(META Group,现为高德纳)分析员道格·莱尼(Doug Laney)指出数据长的挑战和机遇有三个方向:量(Volume,数据大小)、速(Velocity,数据输入输出的速度)与多变(Variety,多样性),合称“3V”或“3Vs”。高德纳与现在大部分大数据产业中的公司,都继续使用3V来描述大数据[18]。高德纳于2012年修改对大数据的定义:“大数据是大量、高速、及/或多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与优化处理[原文 1][19]。”另外,有机构在3V之外定义第4个V:真实性(Veracity)为第四特点,即数据的真实性存疑或不能全然确定。[20]

大数据必须借由计算机对数据进行统计、比对、解析方能得出客观结果。美国在2012年就开始着手大数据,奥巴马更在同年投入2亿美金在大数据的开发中,更强调大数据会是之后的未来石油。

数据挖掘(data mining)则是在探讨用以解析大数据的方法。

大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于特殊大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

数据来源类型

大数据获取之来源影响其应用之效益与质量,依照获取的直接程度一般可分为三种[21][22]

  • 第一方数据(First Party Data):为己方单位自己和消费者、用户、目标客群交互产生的数据,具有高质量、高价值的特性,但易局限于既有顾客数据,如企业收集的顾客交易数据、追踪用户在APP上的浏览行为等,拥有者可弹性地使用于分析研究、营销推广等[23]
  • 第二方数据(Second Party Data):取自第一方的数据,通常与第一方具有合作、联盟或契约关系,因此可共享或采购第一方数据。如:订房品牌与飞机品牌共享数据,当客人购买某一方的商品后,另一单位即可推荐他相关的旅游产品;或是已知某单位具有己方想要的数据,透过议定采购,直接从第一方获取数据[24]
  • 第三方数据(Third Party Data):提供数据的来源单位,并非产出该数据的原始者,该数据即为第三方数据。通常提供第三方数据的单位为数据供应商,其广泛收集各式数据,并贩售给数据需求者,其数据可来自第一方、第二方与其他第三方数据,如爬取网络公开数据、市调公司所发布的研究调查、经去识别化的交易信息等[25]

应用示例

大数据的应用示例包括大科学RFID、感测设备网络、天文学、大气学、交通运输、基因组学、生物学、大社会数据分析[26]、互联网文件处理、制作互联网搜索引擎索引、通信记录明细、军事侦查、金融大数据,医疗大数据,社交网络、通勤时间预测、医疗记录、照片图像和影像封存、大规模的电子商务[27]

Thumb
应用于运动界

巨大科学

大型强子对撞机中有1亿5000万个传感器,每秒发送4000万次的数据。实验中每秒产生将近6亿次的对撞,在过滤去除99.999%的撞击数据后,得到约100次的有用撞击数据[28][29][30]

将撞击结果数据过滤处理后仅记录0.001%的有用数据,全部四个对撞机的数据量复制前每年产生25拍字节(PB),复制后为200拍字节。

如果将所有实验中的数据在不过滤的情况下全部记录,数据量将会变得过度庞大且极难处理。每年数据量在复制前将会达到1.5亿拍字节,等于每天有近500艾字节(EB)的数据量。这个数字代表每天实验将产生相当于500(5×1020)字节的数据,是全世界所有数据来源总和的200倍。

科学研究

卫生学

国际卫生学教授汉斯·罗斯林使用“Trendalyzer”工具软件呈现两百多年以来全球人类的人口统计数据,跟其他数据交叉比对,例如收入、宗教、能源使用量等。

公共部门

目前,发达国家的政府部门开始推广大数据的应用。2012年奥巴马政府投资近两亿美元开始推行《大数据的研究与发展计划》,本计划涉及美国国防部美国卫生与公共服务部门等多个联邦部门和机构,意在通过提高从大型复杂的的数据中提取知识的能力,进而加快科学和工程的开发,保障国家安全。

信息审查

中华人民共和国政府计划建立全面的个人信用评分体系,其包含不少对个人行为的评定,有关指标会影响到个人贷款工作签证等生活活动。高科技公司在被政治介入为其目的服务,个人的大部分行为和社交关系受掌控,几乎无人可免于被纳入个人信用评价体系的监控[31]。除获取网络数据外,中华人民共和国政府还希望从科技公司获得分类和分析信息的云计算能力,透过城市监控摄像机智能手机、政府数据库等收集数据,以建造智慧城市和安全城市。人权观察驻香港研究员王松莲指出,整个安全城市构想无非是一个庞大的监视项目[32]

美国大规模监控最早则可追溯到1919年的黑箱计划,自2001年911恐怖袭击后监控被升级。2013年爱德华·斯诺登向《卫报》曝光了美国四项大规模监控计划之一的棱镜计划,“他们(国家安全局)能够利用监控系统让时间倒流、明察秋毫,他们可以查出每一个你曾做过的决定,每一个和你说过话的朋友,在此基础之上制造出对你的怀疑,从而攻击你,将你描绘成一个罪犯,无论你的人生多么清白。”[33]

民间部门

  • 亚马逊公司,在2005年的时点,这间公司是世界上最大的以LINUX为基础的三大数据库之一[34]
  • 沃尔玛可以在1小时内处理百万以上顾客的消费处理。相当于美国国会图书馆所藏的书籍之167倍的情报量[35]
  • Facebook,处理500亿枚的用户照片[36]
  • 全世界商业数据的数量,统计全部的企业全体、推计每1.2年会倍增[37]
  • 西雅图文德米尔不动产英语Windermere Real Estate分析约1亿匿名GPS信号,提供购入新房子的客户从该地点使用交通工具(汽车、脚踏车等)至公司等地的通勤时间估计值[38]
  • 软银,每个月约处理10亿件(2014年3月现在)的手机LOG情报,并用其改善手机信号的信号强度[39]
  • 大企业对大数据技能需求量大,吸引了许多大学诸如伯克利大学开专门提供受过大数据训练的毕业者的大学部门。硅谷纽约为主《The Data Incubator》公司,2012年成立,焦点是数据科学与大数据企业培训,提供国际大数据培训服务。

社会学

大数据产生的背景离不开Facebook等社交网络的兴起,人们每天通过这种公民媒体传播信息或者沟通交流,由此产生的信息被网络记录下来,社会学家可以在这些数据的基础上分析人类的行为模式、交往方式等。美国的涂尔干计划就是依据个人在社交网络上的数据分析其自杀倾向,该计划从美军退役士兵中拣选受试者,透过Facebook的行动app收集资料,并将用户的活动数据传送到一个医疗资料库。收集完成的数据会接受人工智能系统分析,接着利用预测程序来即时监视受测者是否出现一般认为具伤害性的行为。

商业

运用数据挖掘技术,分析网络声量,以了解客户行为、市场需求,做营销策略参考与商业决策支持,或是应用于品牌管理,经营网络口碑、掌握负面事件等。如电信运营商透过品牌的网络讨论数据,即时找出负面事件进行处理,减低负面讨论在网络扩散后所可能引发的形象危害。[40]

市场

大数据的出现提升了对信息管理专家的需求,Software AGOracleIBM微软SAP易安信惠普戴尔已在多间数据管理分析专门公司上花费超过150亿美元。在2010年,数据管理分析产业市值超过1,000亿美元,并以每年将近10%的速度成长,是整个软件产业成长速度的两倍[35],这个成长速度亦在膨涨中。

经济的开发成长促进了密集数据科技的使用,也促成发展了相对于信息经济数据经济。全世界共有约46亿的移动电话用户,并有10至20亿人链接互联网[35]。自1990年起至2005年间,全世界有超过10亿人进入中产阶级,收入的增加造成了识字率的提升,更进而带动信息量的成长。全世界透过电信网络交换信息的容量在1986年为281兆亿字节(PB),1993年为471兆亿字节,2000年时增长为2.2艾字节(EB),在2007年则为65艾字节[12]。根据预测,在2013年互联网每年的信息流量将会达到667艾字节[35]

相关条目

注释

参考文献

延伸阅读

外部链接

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.