大数据时代下数据质量的挑战

2013年9月

第33卷第5期(总121期)西安交通大学学报(社会科学版)

Journal of Xi'an Jiaotong University (Social Sciences )Sep.2013

Vol.33(Sum No.121)

大数据时代下数据质量的挑战

1,2威,吴

1,2

(1.西安交通大学管理学院,陕西西安710049;

2.西安交通大学教育部过程与控制重点实验室,陕西西安710049)

[摘

要]大数据是物联网数据感知、云计算数据计算、三网融合数据服务实现的核心基础。大数据时代的

到来对企业存储和管理数据、从数据中提取有价值的信息提出了挑战。数据质量是有效分析和利用大数据的前提,是大数据产生跨区域、跨行业、跨部门价值的保障。为此,梳理了大数据的基本特征,结合中国当下企业发展现状及大数据在国内的发展态势,从流程、技术和管理视角讨论了大数据时代下企业保证数据质量的挑战、重要性及应对措施。

[关键词]大数据; 数据质量; 数据生命周期; 数据分析技术; 数据管理[中图分类号]F272.7-39

[文献标识码]A

[245X (2013)05-0038-06文章编号]1008-

当今社会,数据量正在以爆炸方式迅猛增长,数据

表示形式千变万化,标志着我们已经进入了大数据时代。云计算、三网融合、物联网、移动互联网的出现,更加催生了大数据时代的产生。维基百科对大数据的定义是:数据增长如此之快,以至于难以使用现有的数据库管理工具进行快速的数据获取、存储、搜索、共享、分这些数据量是如此之大,已经不是析和可视化等操作,

以传统的GB 和TB 为单位来衡量,而是以PB (1PB =1024TB )、EB (1EB =1024PB ),甚至是以ZB (1ZB =1024EB )、YB (1YB =1024ZB )为计量单位,所以称之如今大规模的企业系统包括为大数据。有调查指出,

[1]

由上千台服务器所构成的完整数据中心。使用大数据日益成为企业超越竞争对手的有力武器。企业通过快速获取、分析由供应商和客户产生的大量有关产品和服务的数据,可以更有针对性地提升消费者所关心的产品质量和服务质量,制定出更加符合市场和客从而获取更多的市场份额,户需求的产品和服务策略,增强企业的竞争实力。然而,对于大数据时代下的企其所需存储、处理的数据量惊人,数据来源和业来说,

数据结构繁多复杂,为大数据的分析和应用带来很多挑战。企业要想充分发挥大数据所赋予的机遇和优

[收稿日期]2012-12-14

势,前提是必须拥有可靠、准确、及时的高质量的数据,

只有从高质量的大规模数据中提取隐含的、有用的信息,企业才能做出更加精准、更加符合市场和客户需求的决策,否则大数据的优势将化为泡影。为此,企业需要更加注重大数据时代下的数据质量及其重要性。

一、大数据时代产生的必然

大数据是云计算技术的延伸,更是社会进步和发

大数据时代的到来引领了未来IT 技术展的必然结果,

发展的战略走向。在信息和网络技术飞速发展的今

天,越来越多的企业业务及社会活动实现了数字化,特别是随着数据生成的自动化及数据生成速度的加快,

[2]

数据量也随之快速增长。同时,随着存储设备、内存、处理器等电脑元件成本的稳定下降,使得之前较昂

[3]

贵的大规模数据存储和处理变得十分经济,也使得大数据的存在成为可能。有调查显示,企业信息系统

供应商信息以及业务中拥有数万亿字节的客户信息、

运营信息,数据已经成为业务活动的副产品。全球最

每天通过分布在世界各地的大的零售商沃尔玛公司,

6000多家商店向全球客户销售超过2.67亿件的商

品,分析交易数据的数据仓库系统规模已经达到4PB ,

[基金项目]国家自然科学基金项目(71071126);教育部新世纪优秀人才支持计划(NCET -08-0449)[作者简介]宗

威(1986-

),女,辽宁北票人,西安交通大学管理学院博士研究生;吴

锋(1964-

),男,安徽望江人,

西安交通大学管理学院教授,博士生导师。

38

并且仍在不断扩大[4]

。传感器数据也是大数据的主要来源之一。在物联网时代,成万上亿计的网络传感

器嵌入在数量不断增长的智能电表、

移动电话、汽车等物理设备中,不断感知、生成并传输超大规模的有关地理位置、振动、温度、湿度等新型数据,其中2010年的移动电话使用量已经超过40亿,传感器的应用数量每

年正在以30%的速度增长[5]

。此外,全球数据存储量也呈现飞速增长趋势。2008年全球数据量仅为

0.49ZB ;在金融危机笼罩下的2009年,数据量也较

2008年增长了63%,达到0.8ZB ;2010年增至1.2ZB ;2011年高达1.82ZB ;2012年则达到2.7ZB ,相比于2011年的数据量增长了48%。若以如此快的速度增长,2015年的全球数据量将会升至8ZB ,到2020年则

高达35.2ZB ,是2015年数据量的44倍之多[6]

。此外,移动互联网、三网融合、Web 2.0技术和电子商务技术的飞速发展,也促进了大数据时代的产生和发展。人们可以通过智能机、便携机、个人电脑等终端设备,随时随地浏览网页,上传或下载、发布或共享图片、视频、音频文本等多种媒体格式的文件,其中每秒钟高清视频所含的数据容量是单页文本格式数据容量的2000倍,大量的多媒体内容在指数增长的数据量中发挥着重要的作用。在以Web 2.0为技术支撑的社交网站中,大量网络用户的点击量、浏览痕迹、日志、照片、视频、音频等多媒体信息都会被记录下来,随

着时间的推移,

如此庞大、复杂的数据为跟踪用户、分析用户喜好等提供了基础,

从而使社交网站可以有针对性地开发、投放满足用户需求的各种应用、广告及商品。同样,网上书店则通过存储顾客的搜索路径、浏览记录、购买记录等大量数据,分析顾客的购买倾向,设计算法来预测顾客感兴趣的书籍类型。

通过上述典型的大数据的例子可以发现,数字化已经成为社会发展的必然趋势。与生产过程必须依赖硬件设备和人力资本一样,企业的业务活动、创新、成

长也越来越离不开大量数据的支持。也就是说,企业的任何一项业务活动都与大量的数据紧密相联,而我

们每一个人都是数据的产生者,数据量与日俱增,数据结构繁杂多变,数据产生速度非常之快,我们已经进入了大数据的时代。

二、大数据的特点

数据无所不在,充斥于社会中的每一个部门、每一

个经济体、每一个组织、每一个IT 技术的使用者,数据的海量生产、共享和应用已经成为必然。之所以被称

威等:大数据时代下数据质量的挑战

为大数据,

是因为它具有传统数据所不具备的独特特点(见表1)。

表1

大数据时代与传统数据时代的对比对比内容传统数据时代

大数据时代

数据量数据量小,以MB 、GB 、数据量大,以PB 、

EB 、TB 为存储单位ZB 为存储单位数据库

结构化数据库存储结构化及非结构化数数据

据库存储数据

存储设备数据存储设备昂贵数据存储设备价格低廉来源

数据来源简单

数据来源繁多复杂产生速度数据产生、变化速度慢数据产生、变化速率快结构

数据结构简单

数据结构多样性

首先,数据量庞大。数据量大是大数据的首要特

点之一,大数据时代的数据量是以PB 、EB 、ZB 为存储单位的。据麦肯锡全球研究院(MGI )估计,

2010年,企业的磁盘中存储了超过7EB 字节的新数据;用户在个人PC 机和笔记本等设备上的新数据存储量也超过了6EB 字节。另有一份报告显示,沃尔玛公司每小时能够从顾客交易信息中收集超过2.5PB 字节的数据[3]

。截至2012年,社会上每天会产生2.5EB 量的数据,这个数据量是过去每40个月所产生数据量的两倍。社会与企业被如此庞大的数据量所包围,这也正是大数据时代下企业的重大变化之一,即用数据来表示企业的各种业务活动。

第二,数据增长、变化速度快。这既是大数据时代的特点,同时也是企业处理大数据所面临的难题与挑战。大数据环境下,数据产生、存储和变化的速率十分惊人。目前因特网上每秒钟产生的数据量比20年前整个因特网所存储的数据量还要巨大,可见大数据产生速度之快。然而,数据量飞速增长的同时,对数据处理速度也提出了更高的要求。在这个用数据说话、竞争异常激烈的时代,数据产生速率甚至比数据产生数量要重要得多,事先拥有了数据,就意味着事先拥有了市场话语权,能够让企业率先做出符合企业和消费者需求的战略决策,使得企业更加敏捷,从而先于竞争对手快速占领市场,增强企业的竞争实力。如果企业不能快速、

有效地处理如此庞大的数据量,就会被快速增长的数据量所淹没,丧失了大数据的价值。第三,数据的多样性。多样性也是大数据的重要特点之一。大数据以多种多样的形式涌现,如来自于传感器的各种类型数据、移动电话的GPS 定位数据、社交网络中的语音、图像、视频、日志文件等等,并且随

39

西安交通大学学报(社会科学版)http ://www.xbskb.cn ;http ://skxb.xjtu.edu.cn

企业可以从大量日益关心的问题。以制造企业为例,

的客户、产品和销售信息中获得更多有价值的信息,进而制定满足消费者需求的销售策略。然而这些信息的获取和提炼都必须以高质量的数据为前提,如果数据着大数据时代的发展,新的数据来源与数据形式也会

不断出现。在如此多样化的数据结构中,可获得的数因此,传统的结构化数据库已经据常常是非结构化的,

很难存储并处理多样性的大数据。但是在如此大量、繁杂的信息中却存在着值得人们去挖掘的潜在有用信息,这也正是大数据多样性价值的重要体现。

三、大数据环境下数据质量的重要性及挑战

大数据并不仅仅指其数据量之大,更代表着其潜在的数据价值之大。有研究证明,有效地管理、使用大数据能够给企业提供更多增强企业生产能力和竞争能

力的机会,能够给企业带来巨大的潜在商业价值[7]

。例如在制造领域,嵌入在产品中的传感器所传输的大数据为企业开发新型的售后服务项目、开发下一代新产品提供了坚实的数据基础。又如在医疗领域,通过分析患者的临床和行为数据,可以更深入地理解患者的病症,进一步为不同的患者人群提供最适合他们的

护理规划等等[8]

大数据是企业决策的基础,但是单纯的数据量的积累不会对企业产生任何益处,只有建立适当的分析模型,并运用相应的技术手段,对大量的数据进行有效地深加工,发现隐含在大量数据中的信息并加以利用,进而指导企业做出相关决策,才能将大数据的真正效用发挥到极致。如果说云计算为海量分布的数据提供了存储、

访问的平台,那么如何在这个平台上实时挖掘数据价值,

使其为个人、组织和国家服务,将是云计算必然的发展方向,更是大数据技术的关键核心议题。

然而要想充分发挥大数据给企业带来的优势,实现大数据的价值增值,挑战却是巨大的。高质量的数据是大数据发挥效能的前提和基础,强大、高端的数据分析技术是大数据发挥效能的重要手段。对大数据进行有效分析的前提是必须要保证数据的质量,专业的数据分析工具只有在高质量的大数据环境中才能提取出隐含的、准确的、有用的信息,企业基于这些高质量分析结果所做出的各项决策才不至于偏离正常轨道;否则,即使数据分析工具再先进,在充满“垃圾”的大数据环境中也只能提取出毫无意义的“垃圾”信息。因此数据质量在大数据环境下显得尤其重要。

然而,在大数据时代下,企业要想保证大数据的高质量却并非易事,很小的、容易被忽视的数据质量问题在大数据环境下会被不断放大,甚至引发不可恢复的数据质量灾难。因此,如何保证大数据的数据质量,以及如何有效地挖掘隐藏在大数据中的信息,成为企业40

质量低下,必然会影响提取出的信息的质量,甚至是错误的、无效的信息。因此在大数据环境下,对数据质量的要求更加苛刻。

总之,由于大数据具有复杂、多样、多变等特点,在大数据时代下,数据质量很难保证。下文重点从流程、技术和管理三方面来分析大数据环境下保证大数据质量的挑战及重要性。

(一) 流程视角从流程的角度,也即从数据生命周期角度来看,可以将数据生产过程分为数据收集、数据存储和数据使

用三个阶段[9]

,三个阶段对保证大数据质量分别提出了不同的挑战。

首先在数据收集方面,大数据的多样性决定了数据来源的复杂性。大数据的数据来源众多,数据结构随着数据来源的不同而各异,企业要想保证从多个数据源获取的结构复杂的大数据的质量并有效地对数据进行整合,是一项异常艰巨的任务。来自于大量不同数据源的数据之间存在着冲突、不一致或相互矛盾的现象,在数据量较小的情形下,通过编写简单的匹配程序,甚至是人工查找,即可实现多数据源中不一致数据

的检测和定位,

然而这种方法在大数据情形下却显得力不从心。在数据获取阶段保证数据定义的一致性、元数据定义的统一性及数据质量是大数据为中国甚至全

世界企业提出的挑战。另外,由于大数据的变化速度较快,有些数据的“有效期”非常之短,如果企业没有实时

地收集所需的数据,有可能收集到的就是“过期的”、无效的数据,在一定程度上会影响大数据的质量。数据收

集阶段是整个数据生命周期的开始,这个阶段的数据质量对后续阶段的数据质量起着直接的决定性的影响。因此,企业应该重视源头上的大数据质量问题,为大数据的分析和应用提供高质量的数据基础。

其次在数据存储阶段,由于大数据的多样性,单一的数据结构(如关系型数据库中的二维表结构)已经

远远不能满足大数据存储的需要,

企业应该使用专门的数据库技术和专用的数据存储设备进行大数据的存

储,保证数据存储的有效性。据调查,目前国内大部分企业的业务运营数据仍以结构化数据为主,相应地主要采用传统的数据存储架构,如采用关系型数据库进行数据的存储,对于非结构化数据,则是先将其转化为

结构化数据后再进行存储、处理及分析。这种数据存储处理方式不仅无法应对大数据数量庞大、数据结构复杂、

变化速度快等特点,而且一旦转化方式不当,将会直接影响到数据的完整性、有效性与准确性等。而北京市科学技术委员会委员陈力工曾指出这种结构化的数据只占到互联网整体流动数据的10%,剩余90%都为视频、图片、音频等非结构化的数据,这就对传统数据存储架构的可靠性及有效性构成了挑战。数据存储是实现高水平数据质量的基本保障,如果数据不能被一致、完整、有效的存储,数据质量将无从谈起。因此,企业要想充分挖掘大数据的核心价值,首先必须完成传统的结构化数据存储处理方式向同时兼具结构化与非结构化数据存储处理方式的转变,不断完善大数据环境下企业数据库的建设,为保证大数据质量提供基础保障。

同时,企业数据库管理员(Database Administrator ,DBA )应该根据大数据结构的要求和特点合理地设计数据存储和使用规则,以方便对数据的快速读取。如果数据存储不合理,不仅会浪费系统的存储空间,而且还会给后期的数据使用带来极大的不便,甚至会产生

错误、无效的数据,难以保证数据质量。此外,DBA 在设计相应规则时,还要考虑诸多罕见的情况,因为在传统数据量较少的情况下没有考虑到的情形在大数据情

况下却有可能会发生。如果没有考虑特殊或罕见情况,

或考虑得不够全面,将会给大数据的数据质量带来严重的影响,

甚至是危机。最后,在数据使用阶段,数据价值的发挥在于对数

据的有效分析和应用,大数据涉及的使用人员众多,很多时候是同步地、不断地对数据进行提取、分析、更新和使用,任何一个环节出现问题,都将严重影响企业系统中的大数据质量,影响最终决策的准确性。举例来说,由于大数据规模庞大、变化速度快,对数据的处理速度要求较高,如果数据处理不及时,有些变化速度快

的数据就失去了其最有价值的阶段,

有些“过期”的数据甚至与实际数据不符,企业根据这些“过期”的无效

数据所做出的决策必然也是无效的,甚至是错误的。从这个角度来讲,数据及时性也是大数据质量的一个

重要方面,

如果企业不能快速地进行数据分析,不能从数据中及时地提取出有用的信息,就将会丧失预先占

领市场的先机。

(二) 技术视角

本文的技术视角主要是指从数据库技术、数据质量检测识别技术、数据分析技术的角度来研究保证大

威等:大数据时代下数据质量的挑战

数据质量的挑战及其重要性。大数据及其相关分析技

术的应用能够为企业提供更加准确的预测信息、更好的决策基础以及更精准的干预政策,然而如果大数据的数据质量不高,所有这些优势都将化为泡影。在数据规模较小的情况下,关系型数据库就能满足企业数据存储的需要,一般企业信息系统数据库中的记录通常会达到几千条或上万条,规模稍大的企业,其数据记录能达到几十万条,在这种情况下,检测数据库中错误、缺失、无效、延迟的数据非常容易,几分钟甚至几秒钟就能完成对所有记录的扫描和检测。然而在大数据时代,企业的数据量不仅巨大,而且数据结构种类繁多,不仅仅有简单的、结构化的数据,更多的则是复杂的、非结构化的数据,而且数据之间的关系较为复杂,若要识别、检测大数据中错误、缺失、无效、延迟的数据,往往需要遍历数百万甚至数亿条记录或语句,传统的技术和方法常常需要几小时甚至几天的时间才能完成对所有数据的扫描与检测,因此,从这个角度来讲,大数据环境为数据质量的监测和管理带来了巨大的挑战。这种情况下,传统的数据库技术、数据挖掘工具和数据清洗技术在处理速度和分析能力上已经无法应对大数据时代所带来的挑战,处理小规模数据质量问题的检测工具已经不能胜任大数据环境下数据质量问题的检测和识别任务,这就要求企业应根据实际业务的需要,在配备高端的数据存储设备的同时,开发、设计或引进先进的、智能化的、专业的大数据分析技术和方法,

以实现大数据中数据质量问题的检测与识别,以及对大数据的整合、分析、可视化等操作,充分地提取、挖掘大数据潜在的应用价值。

大数据是IT 领域又一次新的技术变革,国际数据公司(International Data Corporation ,IDC )指出,在大数据潮流中,新的数据类型与新的数据分析技术的缺失将是阻碍企业成为其行业领导者的重要方面。然而,由于大数据热潮在国内刚刚掀起,诸多企业仍然采用的是传统的关系型数据库数据处理方式及适用于小规模数据的数据分析和数据挖掘技术,对先进的大数据存储处理技术和分析工具仍处于学习和了解阶段。另外,国内对于大数据相关技术的开发多关注于数据分布

式存储及并行计算方面,

能够满足大数据特点及要求的数据质量检测和清洗的智能化工具十分稀缺。

这些都为保障大数据质量、充分发挥数据质量在推动大数据应用有效性方面的重要作用提出了挑战。

(三) 管理视角

管理视角主要探讨企业高层管理者、专业管理和

41

西安交通大学学报(社会科学版)http ://www.xbskb.cn ;http ://skxb.xjtu.edu.cn

没有得到企业的充分高度重视,也同样没有把建立位,

CDO 提升到企业战略的高度,没有意识到大数据环境很多时候只是在企业内部下CDO 对企业的重要作用,

CIO )一设立了首席信息官(Chief Information Officer ,职来肩负最基本的数据管理职责。但是由于CIO 是

技术行家,缺乏全面、专业地对企业业务数据进行分析、整理和挖掘的能力,最终将会导致企业渐渐失去大

CDO 的门槛很高,数据所赋予的竞争优势。另外,既技术分析人员对保证大数据质量的重要性。

首先,大数据的管理需要企业高层管理者的重视一和支持。只有得到了企业高层管理者的高度重视,系列跟大数据有关的应用及发展规划才能有望得到推动,保证大数据质量的各项规章制度才能得到顺利的贯彻和落实。如果企业高层管理者缺乏大数据意识以及对大数据价值的正确理解,通常会给大数据管理带来阻碍。缺少高层管理者的支持,企业对大数据管理、分析和应用的重视程度就会有所降低,大数据的质量就无法得到全面、有效的保证,从而将会大大弱化大数据价值的发挥,不利于企业竞争能力的提升。因此,企业应该在高层管理的领导和带领下,加强大数据质量意识,建立完善的数据质量保证制度。然而,大数据在中国仍然处于“初级发展阶段”,远未达到系统化使用大数据技术对数据进行深度分析和挖掘的程度,还没有充分体会到大数据分析及应用给企业带来的巨大商业价值,因此企业高管对大数据的认识还没有真正提升到企业发展的战略高度,大数据的质量也因此并没有得到充分地重视,这在很大程度上阻碍了大数据在国内企业的发展。

其次,专业数据管理人员的配备是保证大数据质量不可或缺的部分。由于大数据本身的复杂性增加了大数据管理的难度,既懂得数据分析技术,同时又谙熟企业各项业务的新型复合型管理人员是当下企业应用

大数据方案最急需的人才,

而首席数据官(Chief Data Officer ,

CDO )就是这类人才的典型代表。CDO 是有效管理企业大数据、保证大数据质量的中坚力量。企业要想充分运用大数据方案,任命CDO 来专门负责大数据所有权管理、定义元数据标准、制定并实施大数据管理决策等一系列活动是十分必要的。一份针对全球500家企业的调查结果显示,指定高层管理人员专门负责数据管理的50家企业的绩效要远远高于其他企

业的绩效[10]

。因此,大数据环境下,需要CDO 这样的新型管理人才,根据企业的业务需求选择合适的数据库以及数据抽取、转换和分析等工具,进行相关的数据挖掘、数据处理和分析,并根据分析结果对企业未来的业务规划和发展战略提供相应的建议和意见。然而,对于国内传统的中小型企业来说,其拥有的数据规模较小,数据复杂程度较低,利用数据挖掘技术探究潜在市场机遇的情况并不多,因此它们对大数据的认识明显不足,不会意识到建立CDO 职位的必要性和重要性。即使是在拥有大数据规模的大中型企业,它们的数据管理和分析部门通常处于分散、被动、辅助的地42

要对企业各项业务的运作流程十分熟悉,又要懂得

IT 、数据分析、数据挖掘等技术的应用,同时还要具备极强的数据分析能力,集这些技能于一身的人才在国内非常稀少,这种大数据应用需求高涨与CDO 人才缺失之间的矛盾将成为国内大数据应用面临的最大挑战之一。

CDO 的缺失是国内数据管理方式落后的直接体现,而落后的数据管理方式是影响大数据应用、阻碍大数据质量提升的重要因素之一。传统的数据管理方式已经远远不能满足大数据环境下数据质量的要求。以往大部分企业在运营过程中均由业务部门负责掌管数

据,IT 部门负责信息技术的应用,这种分离式的运营管理方式容易造成业务人员不了解分析不同数据所需的不同IT 工具,而IT 人员在运用IT 技术分析数据时不了解数据本身的内涵,甚至会做出错误的数据解释,影响了企业决策的准确性和有效性。为此,企业应该对组织架构体系及其资源配置进行重组,

让数据管理与分析部门处于企业的上游位置,

而设立CDO 便是企业重组的成功标志之一。大数据环境下,同时还应配

备专业、高端的数据库设计和开发人员、程序员、数学和统计学家,在全面保证大数据质量的同时,充分挖掘大数据潜在的商业价值。

此外,在大数据生产过程的任何一个环节,企业都应该配备相应的专业数据管理人员,通过熟悉掌握数据的产生流程进行数据质量的监测和控制,例如在数

据获取阶段,

应指定专门人员负责记录定义并记录元数据,以便于数据的解释,保证企业全体人员对数据的

一致、正确理解,保证大数据源头的质量。

四、结语

像互联网、云计算以及物联网等技术一样,大数据

时代的到来势必会再次让信息技术领域焕然一新。大数据时代下,每个个体都是数据的产生者,企业的任何一项业务活动都可以用数据来表示,如何保证大数据的质量,如何建模、提取并利用隐藏在大数据中的信息

以提升企业信息系统绩效、提升企业决策能力,成为摆在业界和学术界面前的重大难题。

管理大数据如同管理企业员工一样,员工人数越多,管理起来越复杂,大数据管理也是如此。在数据量小、数据结构简单、数据来源少的情形下,数据管理相对简单,数据质量也相对容易保证;但是在数据量大、变化速度快、结构复杂、来源众多的大数据情形下,保证数据质量并非易事。再加上国内大部分企业的大数据及数据质量重要性意识还较淡薄,大数据方案的建设及应用在我国尚不成熟,企业的数据存储分析技术、数据管理方案等各项配套设施和制度还不完善,可见保证大数据的质量任重而道远。因此,从数据收集、数据存储到数据使用,企业必须制定详细、缜密的数据质量管理制度,在数据库设计时要考虑大数据在各个方面可能发生的种种意外情形,利用专门的数据提取和分析工具,任命专业的数据管理人才加强对大数据的管理,提高员工的数据质量意识,以保证大数据的数据质量,从而挖掘出更多准确、有效、有价值的信息。

[参

献]

威等:大数据时代下数据质量的挑战

MapReduce的竞争与共生[J ].软件学报,2012,23(1):32-45.

[3]MCAFEE A ,BRYNJOLFSSONE.Big data :the management

J ].Harvard Business Review,2012,90(10):60revolution [-68.

[4]BRYANTRE.Data -intensive supercomputing :the case for

DISC [R].Technical Report,CMU -CS -07-128,Carne-gie Mellon University ,2007.

[5]LOHRS.The age of big data [N ].The New York Times ,

2012-02-11.

[6]GANTZ J ,REINSELD.Extracting Value from Chaos [R].

Framingham :International Data Corporation ,2011.

[7]MANYIKA J ,CHUI M ,BROWNB ,et al.Big data :the next

competition ,and productivity [R].frontier for innovation ,McKinsey Global Institute ,2011.

[8]CHEN H ,CHIANG RH L ,STOREYV C.Business intelli-gence and analytics :from big data to big impact [J ].MIS Quarterly ,2012,36(4):1165-1188.

[9]MADNICK S E ,WANG RY ,LEE Y W ,et al.Overview and

framework for data and information quality research [J ].ACM journal of Data and Information Quality ,2009,1(1):1-22.

[10]LEE Y ,CHUNG W Y ,MADNICK S ,et al.On the rise of

the chief data officers in a world of big data [C ].The Pre -ICIS

2012

SIM

Academic

Workshop ,Orlando ,(责任编辑:张

丛)

Florida ,2012.

[1]RABLT ,SADOGHI M ,JACOBSEN H A.Solving big data

challenges for enterprise application performance manage-ment [J ].Proceedings of the VLDB Endowment ,2012,5(12):1724-1735.

[2]覃雄派,——RDBMS与王会举,杜小勇,等.大数据分析—

The Challenge of Data Quality in the Big Data Age

22

ZONG Wei 1,,WU Feng 1,

(1.School of Management ,Xi'an Jiaotong University ,Xi'an 710049,China ;2.The Key Lab of the Ministry of Education for Process Control &Efficiency Engineering ,Xi'an Jiaotong University ,Xi'an 710049,China )Abstract

Big data is the core foundation for realizing the data -aware in IOT ,data computing in cloud computing and

data service in tri -networks convergence.The arrival of the big data age introduces challenges for enterprises to store and manage data ,extract valuable information from big data.Data quality is the premise for analyzing and utilizing big data and also the guarantee for big data to produce cross -region ,cross -industry and cross -department value.There-fore ,based on the features of big data ,especially combining the development situation of both Chinese enterprises and big data in China ,the challenges and importance of assuring quality of big data and the according measures are dis-cussed in the aspects of process ,technology and management.Key words

big data ;data quality ;data lifecycle ;data analysis technology ;data management

43

2013年9月

第33卷第5期(总121期)西安交通大学学报(社会科学版)

Journal of Xi'an Jiaotong University (Social Sciences )Sep.2013

Vol.33(Sum No.121)

大数据时代下数据质量的挑战

1,2威,吴

1,2

(1.西安交通大学管理学院,陕西西安710049;

2.西安交通大学教育部过程与控制重点实验室,陕西西安710049)

[摘

要]大数据是物联网数据感知、云计算数据计算、三网融合数据服务实现的核心基础。大数据时代的

到来对企业存储和管理数据、从数据中提取有价值的信息提出了挑战。数据质量是有效分析和利用大数据的前提,是大数据产生跨区域、跨行业、跨部门价值的保障。为此,梳理了大数据的基本特征,结合中国当下企业发展现状及大数据在国内的发展态势,从流程、技术和管理视角讨论了大数据时代下企业保证数据质量的挑战、重要性及应对措施。

[关键词]大数据; 数据质量; 数据生命周期; 数据分析技术; 数据管理[中图分类号]F272.7-39

[文献标识码]A

[245X (2013)05-0038-06文章编号]1008-

当今社会,数据量正在以爆炸方式迅猛增长,数据

表示形式千变万化,标志着我们已经进入了大数据时代。云计算、三网融合、物联网、移动互联网的出现,更加催生了大数据时代的产生。维基百科对大数据的定义是:数据增长如此之快,以至于难以使用现有的数据库管理工具进行快速的数据获取、存储、搜索、共享、分这些数据量是如此之大,已经不是析和可视化等操作,

以传统的GB 和TB 为单位来衡量,而是以PB (1PB =1024TB )、EB (1EB =1024PB ),甚至是以ZB (1ZB =1024EB )、YB (1YB =1024ZB )为计量单位,所以称之如今大规模的企业系统包括为大数据。有调查指出,

[1]

由上千台服务器所构成的完整数据中心。使用大数据日益成为企业超越竞争对手的有力武器。企业通过快速获取、分析由供应商和客户产生的大量有关产品和服务的数据,可以更有针对性地提升消费者所关心的产品质量和服务质量,制定出更加符合市场和客从而获取更多的市场份额,户需求的产品和服务策略,增强企业的竞争实力。然而,对于大数据时代下的企其所需存储、处理的数据量惊人,数据来源和业来说,

数据结构繁多复杂,为大数据的分析和应用带来很多挑战。企业要想充分发挥大数据所赋予的机遇和优

[收稿日期]2012-12-14

势,前提是必须拥有可靠、准确、及时的高质量的数据,

只有从高质量的大规模数据中提取隐含的、有用的信息,企业才能做出更加精准、更加符合市场和客户需求的决策,否则大数据的优势将化为泡影。为此,企业需要更加注重大数据时代下的数据质量及其重要性。

一、大数据时代产生的必然

大数据是云计算技术的延伸,更是社会进步和发

大数据时代的到来引领了未来IT 技术展的必然结果,

发展的战略走向。在信息和网络技术飞速发展的今

天,越来越多的企业业务及社会活动实现了数字化,特别是随着数据生成的自动化及数据生成速度的加快,

[2]

数据量也随之快速增长。同时,随着存储设备、内存、处理器等电脑元件成本的稳定下降,使得之前较昂

[3]

贵的大规模数据存储和处理变得十分经济,也使得大数据的存在成为可能。有调查显示,企业信息系统

供应商信息以及业务中拥有数万亿字节的客户信息、

运营信息,数据已经成为业务活动的副产品。全球最

每天通过分布在世界各地的大的零售商沃尔玛公司,

6000多家商店向全球客户销售超过2.67亿件的商

品,分析交易数据的数据仓库系统规模已经达到4PB ,

[基金项目]国家自然科学基金项目(71071126);教育部新世纪优秀人才支持计划(NCET -08-0449)[作者简介]宗

威(1986-

),女,辽宁北票人,西安交通大学管理学院博士研究生;吴

锋(1964-

),男,安徽望江人,

西安交通大学管理学院教授,博士生导师。

38

并且仍在不断扩大[4]

。传感器数据也是大数据的主要来源之一。在物联网时代,成万上亿计的网络传感

器嵌入在数量不断增长的智能电表、

移动电话、汽车等物理设备中,不断感知、生成并传输超大规模的有关地理位置、振动、温度、湿度等新型数据,其中2010年的移动电话使用量已经超过40亿,传感器的应用数量每

年正在以30%的速度增长[5]

。此外,全球数据存储量也呈现飞速增长趋势。2008年全球数据量仅为

0.49ZB ;在金融危机笼罩下的2009年,数据量也较

2008年增长了63%,达到0.8ZB ;2010年增至1.2ZB ;2011年高达1.82ZB ;2012年则达到2.7ZB ,相比于2011年的数据量增长了48%。若以如此快的速度增长,2015年的全球数据量将会升至8ZB ,到2020年则

高达35.2ZB ,是2015年数据量的44倍之多[6]

。此外,移动互联网、三网融合、Web 2.0技术和电子商务技术的飞速发展,也促进了大数据时代的产生和发展。人们可以通过智能机、便携机、个人电脑等终端设备,随时随地浏览网页,上传或下载、发布或共享图片、视频、音频文本等多种媒体格式的文件,其中每秒钟高清视频所含的数据容量是单页文本格式数据容量的2000倍,大量的多媒体内容在指数增长的数据量中发挥着重要的作用。在以Web 2.0为技术支撑的社交网站中,大量网络用户的点击量、浏览痕迹、日志、照片、视频、音频等多媒体信息都会被记录下来,随

着时间的推移,

如此庞大、复杂的数据为跟踪用户、分析用户喜好等提供了基础,

从而使社交网站可以有针对性地开发、投放满足用户需求的各种应用、广告及商品。同样,网上书店则通过存储顾客的搜索路径、浏览记录、购买记录等大量数据,分析顾客的购买倾向,设计算法来预测顾客感兴趣的书籍类型。

通过上述典型的大数据的例子可以发现,数字化已经成为社会发展的必然趋势。与生产过程必须依赖硬件设备和人力资本一样,企业的业务活动、创新、成

长也越来越离不开大量数据的支持。也就是说,企业的任何一项业务活动都与大量的数据紧密相联,而我

们每一个人都是数据的产生者,数据量与日俱增,数据结构繁杂多变,数据产生速度非常之快,我们已经进入了大数据的时代。

二、大数据的特点

数据无所不在,充斥于社会中的每一个部门、每一

个经济体、每一个组织、每一个IT 技术的使用者,数据的海量生产、共享和应用已经成为必然。之所以被称

威等:大数据时代下数据质量的挑战

为大数据,

是因为它具有传统数据所不具备的独特特点(见表1)。

表1

大数据时代与传统数据时代的对比对比内容传统数据时代

大数据时代

数据量数据量小,以MB 、GB 、数据量大,以PB 、

EB 、TB 为存储单位ZB 为存储单位数据库

结构化数据库存储结构化及非结构化数数据

据库存储数据

存储设备数据存储设备昂贵数据存储设备价格低廉来源

数据来源简单

数据来源繁多复杂产生速度数据产生、变化速度慢数据产生、变化速率快结构

数据结构简单

数据结构多样性

首先,数据量庞大。数据量大是大数据的首要特

点之一,大数据时代的数据量是以PB 、EB 、ZB 为存储单位的。据麦肯锡全球研究院(MGI )估计,

2010年,企业的磁盘中存储了超过7EB 字节的新数据;用户在个人PC 机和笔记本等设备上的新数据存储量也超过了6EB 字节。另有一份报告显示,沃尔玛公司每小时能够从顾客交易信息中收集超过2.5PB 字节的数据[3]

。截至2012年,社会上每天会产生2.5EB 量的数据,这个数据量是过去每40个月所产生数据量的两倍。社会与企业被如此庞大的数据量所包围,这也正是大数据时代下企业的重大变化之一,即用数据来表示企业的各种业务活动。

第二,数据增长、变化速度快。这既是大数据时代的特点,同时也是企业处理大数据所面临的难题与挑战。大数据环境下,数据产生、存储和变化的速率十分惊人。目前因特网上每秒钟产生的数据量比20年前整个因特网所存储的数据量还要巨大,可见大数据产生速度之快。然而,数据量飞速增长的同时,对数据处理速度也提出了更高的要求。在这个用数据说话、竞争异常激烈的时代,数据产生速率甚至比数据产生数量要重要得多,事先拥有了数据,就意味着事先拥有了市场话语权,能够让企业率先做出符合企业和消费者需求的战略决策,使得企业更加敏捷,从而先于竞争对手快速占领市场,增强企业的竞争实力。如果企业不能快速、

有效地处理如此庞大的数据量,就会被快速增长的数据量所淹没,丧失了大数据的价值。第三,数据的多样性。多样性也是大数据的重要特点之一。大数据以多种多样的形式涌现,如来自于传感器的各种类型数据、移动电话的GPS 定位数据、社交网络中的语音、图像、视频、日志文件等等,并且随

39

西安交通大学学报(社会科学版)http ://www.xbskb.cn ;http ://skxb.xjtu.edu.cn

企业可以从大量日益关心的问题。以制造企业为例,

的客户、产品和销售信息中获得更多有价值的信息,进而制定满足消费者需求的销售策略。然而这些信息的获取和提炼都必须以高质量的数据为前提,如果数据着大数据时代的发展,新的数据来源与数据形式也会

不断出现。在如此多样化的数据结构中,可获得的数因此,传统的结构化数据库已经据常常是非结构化的,

很难存储并处理多样性的大数据。但是在如此大量、繁杂的信息中却存在着值得人们去挖掘的潜在有用信息,这也正是大数据多样性价值的重要体现。

三、大数据环境下数据质量的重要性及挑战

大数据并不仅仅指其数据量之大,更代表着其潜在的数据价值之大。有研究证明,有效地管理、使用大数据能够给企业提供更多增强企业生产能力和竞争能

力的机会,能够给企业带来巨大的潜在商业价值[7]

。例如在制造领域,嵌入在产品中的传感器所传输的大数据为企业开发新型的售后服务项目、开发下一代新产品提供了坚实的数据基础。又如在医疗领域,通过分析患者的临床和行为数据,可以更深入地理解患者的病症,进一步为不同的患者人群提供最适合他们的

护理规划等等[8]

大数据是企业决策的基础,但是单纯的数据量的积累不会对企业产生任何益处,只有建立适当的分析模型,并运用相应的技术手段,对大量的数据进行有效地深加工,发现隐含在大量数据中的信息并加以利用,进而指导企业做出相关决策,才能将大数据的真正效用发挥到极致。如果说云计算为海量分布的数据提供了存储、

访问的平台,那么如何在这个平台上实时挖掘数据价值,

使其为个人、组织和国家服务,将是云计算必然的发展方向,更是大数据技术的关键核心议题。

然而要想充分发挥大数据给企业带来的优势,实现大数据的价值增值,挑战却是巨大的。高质量的数据是大数据发挥效能的前提和基础,强大、高端的数据分析技术是大数据发挥效能的重要手段。对大数据进行有效分析的前提是必须要保证数据的质量,专业的数据分析工具只有在高质量的大数据环境中才能提取出隐含的、准确的、有用的信息,企业基于这些高质量分析结果所做出的各项决策才不至于偏离正常轨道;否则,即使数据分析工具再先进,在充满“垃圾”的大数据环境中也只能提取出毫无意义的“垃圾”信息。因此数据质量在大数据环境下显得尤其重要。

然而,在大数据时代下,企业要想保证大数据的高质量却并非易事,很小的、容易被忽视的数据质量问题在大数据环境下会被不断放大,甚至引发不可恢复的数据质量灾难。因此,如何保证大数据的数据质量,以及如何有效地挖掘隐藏在大数据中的信息,成为企业40

质量低下,必然会影响提取出的信息的质量,甚至是错误的、无效的信息。因此在大数据环境下,对数据质量的要求更加苛刻。

总之,由于大数据具有复杂、多样、多变等特点,在大数据时代下,数据质量很难保证。下文重点从流程、技术和管理三方面来分析大数据环境下保证大数据质量的挑战及重要性。

(一) 流程视角从流程的角度,也即从数据生命周期角度来看,可以将数据生产过程分为数据收集、数据存储和数据使

用三个阶段[9]

,三个阶段对保证大数据质量分别提出了不同的挑战。

首先在数据收集方面,大数据的多样性决定了数据来源的复杂性。大数据的数据来源众多,数据结构随着数据来源的不同而各异,企业要想保证从多个数据源获取的结构复杂的大数据的质量并有效地对数据进行整合,是一项异常艰巨的任务。来自于大量不同数据源的数据之间存在着冲突、不一致或相互矛盾的现象,在数据量较小的情形下,通过编写简单的匹配程序,甚至是人工查找,即可实现多数据源中不一致数据

的检测和定位,

然而这种方法在大数据情形下却显得力不从心。在数据获取阶段保证数据定义的一致性、元数据定义的统一性及数据质量是大数据为中国甚至全

世界企业提出的挑战。另外,由于大数据的变化速度较快,有些数据的“有效期”非常之短,如果企业没有实时

地收集所需的数据,有可能收集到的就是“过期的”、无效的数据,在一定程度上会影响大数据的质量。数据收

集阶段是整个数据生命周期的开始,这个阶段的数据质量对后续阶段的数据质量起着直接的决定性的影响。因此,企业应该重视源头上的大数据质量问题,为大数据的分析和应用提供高质量的数据基础。

其次在数据存储阶段,由于大数据的多样性,单一的数据结构(如关系型数据库中的二维表结构)已经

远远不能满足大数据存储的需要,

企业应该使用专门的数据库技术和专用的数据存储设备进行大数据的存

储,保证数据存储的有效性。据调查,目前国内大部分企业的业务运营数据仍以结构化数据为主,相应地主要采用传统的数据存储架构,如采用关系型数据库进行数据的存储,对于非结构化数据,则是先将其转化为

结构化数据后再进行存储、处理及分析。这种数据存储处理方式不仅无法应对大数据数量庞大、数据结构复杂、

变化速度快等特点,而且一旦转化方式不当,将会直接影响到数据的完整性、有效性与准确性等。而北京市科学技术委员会委员陈力工曾指出这种结构化的数据只占到互联网整体流动数据的10%,剩余90%都为视频、图片、音频等非结构化的数据,这就对传统数据存储架构的可靠性及有效性构成了挑战。数据存储是实现高水平数据质量的基本保障,如果数据不能被一致、完整、有效的存储,数据质量将无从谈起。因此,企业要想充分挖掘大数据的核心价值,首先必须完成传统的结构化数据存储处理方式向同时兼具结构化与非结构化数据存储处理方式的转变,不断完善大数据环境下企业数据库的建设,为保证大数据质量提供基础保障。

同时,企业数据库管理员(Database Administrator ,DBA )应该根据大数据结构的要求和特点合理地设计数据存储和使用规则,以方便对数据的快速读取。如果数据存储不合理,不仅会浪费系统的存储空间,而且还会给后期的数据使用带来极大的不便,甚至会产生

错误、无效的数据,难以保证数据质量。此外,DBA 在设计相应规则时,还要考虑诸多罕见的情况,因为在传统数据量较少的情况下没有考虑到的情形在大数据情

况下却有可能会发生。如果没有考虑特殊或罕见情况,

或考虑得不够全面,将会给大数据的数据质量带来严重的影响,

甚至是危机。最后,在数据使用阶段,数据价值的发挥在于对数

据的有效分析和应用,大数据涉及的使用人员众多,很多时候是同步地、不断地对数据进行提取、分析、更新和使用,任何一个环节出现问题,都将严重影响企业系统中的大数据质量,影响最终决策的准确性。举例来说,由于大数据规模庞大、变化速度快,对数据的处理速度要求较高,如果数据处理不及时,有些变化速度快

的数据就失去了其最有价值的阶段,

有些“过期”的数据甚至与实际数据不符,企业根据这些“过期”的无效

数据所做出的决策必然也是无效的,甚至是错误的。从这个角度来讲,数据及时性也是大数据质量的一个

重要方面,

如果企业不能快速地进行数据分析,不能从数据中及时地提取出有用的信息,就将会丧失预先占

领市场的先机。

(二) 技术视角

本文的技术视角主要是指从数据库技术、数据质量检测识别技术、数据分析技术的角度来研究保证大

威等:大数据时代下数据质量的挑战

数据质量的挑战及其重要性。大数据及其相关分析技

术的应用能够为企业提供更加准确的预测信息、更好的决策基础以及更精准的干预政策,然而如果大数据的数据质量不高,所有这些优势都将化为泡影。在数据规模较小的情况下,关系型数据库就能满足企业数据存储的需要,一般企业信息系统数据库中的记录通常会达到几千条或上万条,规模稍大的企业,其数据记录能达到几十万条,在这种情况下,检测数据库中错误、缺失、无效、延迟的数据非常容易,几分钟甚至几秒钟就能完成对所有记录的扫描和检测。然而在大数据时代,企业的数据量不仅巨大,而且数据结构种类繁多,不仅仅有简单的、结构化的数据,更多的则是复杂的、非结构化的数据,而且数据之间的关系较为复杂,若要识别、检测大数据中错误、缺失、无效、延迟的数据,往往需要遍历数百万甚至数亿条记录或语句,传统的技术和方法常常需要几小时甚至几天的时间才能完成对所有数据的扫描与检测,因此,从这个角度来讲,大数据环境为数据质量的监测和管理带来了巨大的挑战。这种情况下,传统的数据库技术、数据挖掘工具和数据清洗技术在处理速度和分析能力上已经无法应对大数据时代所带来的挑战,处理小规模数据质量问题的检测工具已经不能胜任大数据环境下数据质量问题的检测和识别任务,这就要求企业应根据实际业务的需要,在配备高端的数据存储设备的同时,开发、设计或引进先进的、智能化的、专业的大数据分析技术和方法,

以实现大数据中数据质量问题的检测与识别,以及对大数据的整合、分析、可视化等操作,充分地提取、挖掘大数据潜在的应用价值。

大数据是IT 领域又一次新的技术变革,国际数据公司(International Data Corporation ,IDC )指出,在大数据潮流中,新的数据类型与新的数据分析技术的缺失将是阻碍企业成为其行业领导者的重要方面。然而,由于大数据热潮在国内刚刚掀起,诸多企业仍然采用的是传统的关系型数据库数据处理方式及适用于小规模数据的数据分析和数据挖掘技术,对先进的大数据存储处理技术和分析工具仍处于学习和了解阶段。另外,国内对于大数据相关技术的开发多关注于数据分布

式存储及并行计算方面,

能够满足大数据特点及要求的数据质量检测和清洗的智能化工具十分稀缺。

这些都为保障大数据质量、充分发挥数据质量在推动大数据应用有效性方面的重要作用提出了挑战。

(三) 管理视角

管理视角主要探讨企业高层管理者、专业管理和

41

西安交通大学学报(社会科学版)http ://www.xbskb.cn ;http ://skxb.xjtu.edu.cn

没有得到企业的充分高度重视,也同样没有把建立位,

CDO 提升到企业战略的高度,没有意识到大数据环境很多时候只是在企业内部下CDO 对企业的重要作用,

CIO )一设立了首席信息官(Chief Information Officer ,职来肩负最基本的数据管理职责。但是由于CIO 是

技术行家,缺乏全面、专业地对企业业务数据进行分析、整理和挖掘的能力,最终将会导致企业渐渐失去大

CDO 的门槛很高,数据所赋予的竞争优势。另外,既技术分析人员对保证大数据质量的重要性。

首先,大数据的管理需要企业高层管理者的重视一和支持。只有得到了企业高层管理者的高度重视,系列跟大数据有关的应用及发展规划才能有望得到推动,保证大数据质量的各项规章制度才能得到顺利的贯彻和落实。如果企业高层管理者缺乏大数据意识以及对大数据价值的正确理解,通常会给大数据管理带来阻碍。缺少高层管理者的支持,企业对大数据管理、分析和应用的重视程度就会有所降低,大数据的质量就无法得到全面、有效的保证,从而将会大大弱化大数据价值的发挥,不利于企业竞争能力的提升。因此,企业应该在高层管理的领导和带领下,加强大数据质量意识,建立完善的数据质量保证制度。然而,大数据在中国仍然处于“初级发展阶段”,远未达到系统化使用大数据技术对数据进行深度分析和挖掘的程度,还没有充分体会到大数据分析及应用给企业带来的巨大商业价值,因此企业高管对大数据的认识还没有真正提升到企业发展的战略高度,大数据的质量也因此并没有得到充分地重视,这在很大程度上阻碍了大数据在国内企业的发展。

其次,专业数据管理人员的配备是保证大数据质量不可或缺的部分。由于大数据本身的复杂性增加了大数据管理的难度,既懂得数据分析技术,同时又谙熟企业各项业务的新型复合型管理人员是当下企业应用

大数据方案最急需的人才,

而首席数据官(Chief Data Officer ,

CDO )就是这类人才的典型代表。CDO 是有效管理企业大数据、保证大数据质量的中坚力量。企业要想充分运用大数据方案,任命CDO 来专门负责大数据所有权管理、定义元数据标准、制定并实施大数据管理决策等一系列活动是十分必要的。一份针对全球500家企业的调查结果显示,指定高层管理人员专门负责数据管理的50家企业的绩效要远远高于其他企

业的绩效[10]

。因此,大数据环境下,需要CDO 这样的新型管理人才,根据企业的业务需求选择合适的数据库以及数据抽取、转换和分析等工具,进行相关的数据挖掘、数据处理和分析,并根据分析结果对企业未来的业务规划和发展战略提供相应的建议和意见。然而,对于国内传统的中小型企业来说,其拥有的数据规模较小,数据复杂程度较低,利用数据挖掘技术探究潜在市场机遇的情况并不多,因此它们对大数据的认识明显不足,不会意识到建立CDO 职位的必要性和重要性。即使是在拥有大数据规模的大中型企业,它们的数据管理和分析部门通常处于分散、被动、辅助的地42

要对企业各项业务的运作流程十分熟悉,又要懂得

IT 、数据分析、数据挖掘等技术的应用,同时还要具备极强的数据分析能力,集这些技能于一身的人才在国内非常稀少,这种大数据应用需求高涨与CDO 人才缺失之间的矛盾将成为国内大数据应用面临的最大挑战之一。

CDO 的缺失是国内数据管理方式落后的直接体现,而落后的数据管理方式是影响大数据应用、阻碍大数据质量提升的重要因素之一。传统的数据管理方式已经远远不能满足大数据环境下数据质量的要求。以往大部分企业在运营过程中均由业务部门负责掌管数

据,IT 部门负责信息技术的应用,这种分离式的运营管理方式容易造成业务人员不了解分析不同数据所需的不同IT 工具,而IT 人员在运用IT 技术分析数据时不了解数据本身的内涵,甚至会做出错误的数据解释,影响了企业决策的准确性和有效性。为此,企业应该对组织架构体系及其资源配置进行重组,

让数据管理与分析部门处于企业的上游位置,

而设立CDO 便是企业重组的成功标志之一。大数据环境下,同时还应配

备专业、高端的数据库设计和开发人员、程序员、数学和统计学家,在全面保证大数据质量的同时,充分挖掘大数据潜在的商业价值。

此外,在大数据生产过程的任何一个环节,企业都应该配备相应的专业数据管理人员,通过熟悉掌握数据的产生流程进行数据质量的监测和控制,例如在数

据获取阶段,

应指定专门人员负责记录定义并记录元数据,以便于数据的解释,保证企业全体人员对数据的

一致、正确理解,保证大数据源头的质量。

四、结语

像互联网、云计算以及物联网等技术一样,大数据

时代的到来势必会再次让信息技术领域焕然一新。大数据时代下,每个个体都是数据的产生者,企业的任何一项业务活动都可以用数据来表示,如何保证大数据的质量,如何建模、提取并利用隐藏在大数据中的信息

以提升企业信息系统绩效、提升企业决策能力,成为摆在业界和学术界面前的重大难题。

管理大数据如同管理企业员工一样,员工人数越多,管理起来越复杂,大数据管理也是如此。在数据量小、数据结构简单、数据来源少的情形下,数据管理相对简单,数据质量也相对容易保证;但是在数据量大、变化速度快、结构复杂、来源众多的大数据情形下,保证数据质量并非易事。再加上国内大部分企业的大数据及数据质量重要性意识还较淡薄,大数据方案的建设及应用在我国尚不成熟,企业的数据存储分析技术、数据管理方案等各项配套设施和制度还不完善,可见保证大数据的质量任重而道远。因此,从数据收集、数据存储到数据使用,企业必须制定详细、缜密的数据质量管理制度,在数据库设计时要考虑大数据在各个方面可能发生的种种意外情形,利用专门的数据提取和分析工具,任命专业的数据管理人才加强对大数据的管理,提高员工的数据质量意识,以保证大数据的数据质量,从而挖掘出更多准确、有效、有价值的信息。

[参

献]

威等:大数据时代下数据质量的挑战

MapReduce的竞争与共生[J ].软件学报,2012,23(1):32-45.

[3]MCAFEE A ,BRYNJOLFSSONE.Big data :the management

J ].Harvard Business Review,2012,90(10):60revolution [-68.

[4]BRYANTRE.Data -intensive supercomputing :the case for

DISC [R].Technical Report,CMU -CS -07-128,Carne-gie Mellon University ,2007.

[5]LOHRS.The age of big data [N ].The New York Times ,

2012-02-11.

[6]GANTZ J ,REINSELD.Extracting Value from Chaos [R].

Framingham :International Data Corporation ,2011.

[7]MANYIKA J ,CHUI M ,BROWNB ,et al.Big data :the next

competition ,and productivity [R].frontier for innovation ,McKinsey Global Institute ,2011.

[8]CHEN H ,CHIANG RH L ,STOREYV C.Business intelli-gence and analytics :from big data to big impact [J ].MIS Quarterly ,2012,36(4):1165-1188.

[9]MADNICK S E ,WANG RY ,LEE Y W ,et al.Overview and

framework for data and information quality research [J ].ACM journal of Data and Information Quality ,2009,1(1):1-22.

[10]LEE Y ,CHUNG W Y ,MADNICK S ,et al.On the rise of

the chief data officers in a world of big data [C ].The Pre -ICIS

2012

SIM

Academic

Workshop ,Orlando ,(责任编辑:张

丛)

Florida ,2012.

[1]RABLT ,SADOGHI M ,JACOBSEN H A.Solving big data

challenges for enterprise application performance manage-ment [J ].Proceedings of the VLDB Endowment ,2012,5(12):1724-1735.

[2]覃雄派,——RDBMS与王会举,杜小勇,等.大数据分析—

The Challenge of Data Quality in the Big Data Age

22

ZONG Wei 1,,WU Feng 1,

(1.School of Management ,Xi'an Jiaotong University ,Xi'an 710049,China ;2.The Key Lab of the Ministry of Education for Process Control &Efficiency Engineering ,Xi'an Jiaotong University ,Xi'an 710049,China )Abstract

Big data is the core foundation for realizing the data -aware in IOT ,data computing in cloud computing and

data service in tri -networks convergence.The arrival of the big data age introduces challenges for enterprises to store and manage data ,extract valuable information from big data.Data quality is the premise for analyzing and utilizing big data and also the guarantee for big data to produce cross -region ,cross -industry and cross -department value.There-fore ,based on the features of big data ,especially combining the development situation of both Chinese enterprises and big data in China ,the challenges and importance of assuring quality of big data and the according measures are dis-cussed in the aspects of process ,technology and management.Key words

big data ;data quality ;data lifecycle ;data analysis technology ;data management

43


相关内容

  • 大数据对企业管理决策影响分析_何军
  • 大数据对企业管理决策影响分析 何 军 ()安徽合肥2安徽大学商学院,30601 无论是学术界.企业界还是政府都受到其影摘 要:大数据是物联网.云计算之后又一项重大技术变革,响.大数据下的决策环境发生了巨大改变,基于数据驱动的决策方式,大数据影响了企业的数据管理和知识管理.同时大数据下丰富的数据和知识 ...

  • 大数据分析研究现状_问题与对策_官思发
  • 第34卷第5期2015年5月 情报杂志 JOURNALOF INTELLIGENCE Vol.34No.5May 2015 大数据分析研究现状.问题与对策 官思发 1 * 孟玺 2 李宗洁 3 刘扬 4 (1.中国人民大学信息资源管理学院 3.对外经济贸易大学国际商学院 摘 要 北京100872:2 ...

  • 谈电子商务O2O模式面临的机遇与挑战
  • 以实时.快捷地查询到需要的服务信息,并直接在线上下单. 谈电子商务O2O模式 面临的机遇与挑战 ■池 莲 博士(苏州工业职业技术学院 江苏苏州 215000)SoLoMo是由Social.Local.Mobile合成的词语,即"社交"加"本地"加"移 ...

  • 经济时代发展的开题报告例文
  • 知识经济时代的到来,对很多学科产生了深刻的影响,审计也不例外.知识经济对审计 的挑战主要表现为网络审计面临的挑战.那么何谓网络审计?网络审计就是基于互连网,借助现代信息技术,运用专门的方法,通过人机结合,对被审计单位进行远程审计.网络审计是对以往电算化审计的时空观的又一次突破,是现代审计在电子商务时 ...

  • 大数据时代下企业的发展与创新研究
  • 大数据时代下企业的发展与创新研究 [摘 要]企业管理需要与时俱进,与社会的发展相匹配,才能促进企业的发展和增长.随着大数据时代的到来,我国许多企业的经营模式受到了严重影响.大数据给企业管理工作带来了挑战和机遇.企业要实现自身的稳定与发展,也需要对自身的管理模式进行更新,改变决策主体的决策,对内部数据 ...

  • "互联网+"对大学教育教学的影响
  • 摘要:"互联网+"概念的提出给各行各业带来了冲击和影响,高等教育行业同样如此.新一代信息技术的进步,给高校的各个方面带来了一场革命,高等教育面临空前的机遇和挑战.文章分别从教师.学生.教学方式三个方面阐述了"互联网+"时代带来的影响和转变. 关键词:" ...

  • 大数据时代的机遇与变革(光明日报)
  • 今天,大数据(big data)一词正越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据.随着经济社会的发展,大数据可能带来的深刻影响和巨大价值日益被认识,它通过技术的创新与发展,以及数据的全面感知.收集.分析.共享,为我们提供了一种全新的看待世界的方法,其带来的信息风暴正全方位地改变 ...

  • 大数据在医疗卫生中的应用前景_王潇
  • ·1 13· ·全科医生知识窗· 大数据在医疗卫生中的应用前景 王潇,张爱迪,严谨 [摘要]大数据是近年来的一个技术热点,随着卫生信息化建设进程的不断加快,医疗卫生领域也进入了"大 .本文对最近几年国内外大数据相关的研究成果进行回顾和总结,概述了大数据的定义.研究意义,并介绍数据时代&qu ...

  • 社会计算:大数据时代的机遇与挑战
  • 社会计算:大数据时代的机遇与挑战* 孟小峰1 李 勇1† 祝建华2 12 (中国人民大学信息学院 北京 100872) (香港城市大学媒体和传播系 香港 999077) Social Computing in the Era of Big Data:Opportunities and Challen ...