大数据分析研究现状_问题与对策_官思发

第34卷第5期2015年5月

情报杂志

JOURNALOF INTELLIGENCE

Vol.34No.5May 2015

大数据分析研究现状、问题与对策

官思发

1

*

孟玺

2

李宗洁

3

刘扬

4

(1.中国人民大学信息资源管理学院

3.对外经济贸易大学国际商学院

北京100872;2.中国人民公安大学反恐学院北京100029;4.中国人民大学图书馆

北京100086;

北京100872)

大数据的快速发展引起了国内外的广泛关注和重视,对大数据进行科学有效地分析处理是大数据领域最

核心的问题,通过文献综述从分析即服务、大数据分析方法和大数据驱动科学萌芽三方面对国内外大数据分析研究现状进行总结,提出了大数据分析领域数据存储、弱可用性、数据建模、资源调度和专业分析工具匮乏等五大重要问题,并有针对性地提出部署云存储技术、提升数据可用性、优化数据分析模型、弹性调度资源和研发大数据分析平台五个对策建议。关键词

大数据分析

G353.1

分析即服务

大数据驱动文献标识码

A 云计算

文章编号1002-1965(2015)05-0098-07

中图分类号

DOI 10.3969/j.issn.1002-1965.2015.05.018

Big Data Study on the Current Situation ,Problems and Countermeasures

Guan Sifa 1

Meng Xi 2

Li Zongjie 3

Liu Yang 4

100872;100086;

(1.School of Information ResourceManagement ,RenminUniversity of China ,Beijing 3.Business School ,University of International Business and Economics ,Beijing

4.Library ,RenminUniversity of China ,Beijing

Abstract

2.Department of Counter Terrorism of People's Public Security University of China ,Beijing

100872)

100029;

with the big data of development ,it has generated enormous publicity at home and abroad.It is the core problem for big data

analysis ,which must adopt effective and efficient processing and analyzing This paper adopts literature review method to study big data ,which focus on contents such as analysis as a service ,big data analysis methods and big data driven science after literature review and sum-marizing the practical development of big data analysis in China and other countries ,then it comes up with five key challenges in big data analysis ,such as data storage ,weak data usability ,data modeling ,resource distribution ,shortage of professional big data analytics tools and provides five countermeasures correspondingly ,they are deploying cloud -based storage ,promoting data usability ,optimizing data analysis model ,dispatching analytics resources ,developing big data analysis platform.Key words

big data analysis

analysis as a service

big -data drive

cloud computing

随着IT 技术的快速发展,各行各业面临着海量数据处理的压力,仅凭人的智能已经不能满足海量信息计算分析的需求。2012年,美国奥巴马政府在白宫网《大数据研究和发展倡议》,站上发布了旨在提升利用大量复杂数据集合获取知识和洞见的能力,六大联邦政府机构达成一致,宣布将为此投入2亿美元以上经

费,支持大力发展对数字化数据的接入、组织和挖掘的工具和技术

[1]

,并进一步扩展,形成了包括联邦政府

12个部门和机构的多项研究计划[2]。这一倡议掀起了全球范围内政府推动大数据分析和研究的热潮。具体而言,在大数据的背景下,如何实现对大数据的采集、存储和分析是摆在人们面前亟待解决的问题。

收稿日期:2015-01-22修回日期:2015-03-01

“云计算环境下的信息资源集成与服务研究”(编号:12&ZD220);中国人民大学科研基金项目“信息分基金项目:国家社会科学基金重大项目

“服务于公安决策的犯罪时空关联分析技术研究”(编(编号:10XNJ035);中国人民公安大学教师科研与创新团队建设项目析技术创新研究”

号:2014JKF01061);中国人民大学2014年度拔尖创新人才培育资助计划的成果之一。作者简介:官思发(1987-),男,博士研究生,研究方向:大数据知识服务和情报分析;孟信息可视化;李宗洁(1987-),男,博士研究生,研究方向:创新管理;刘

玺(1983-),女,博士,讲师,研究方向:信息分析和

扬(1976-),女,馆员,研究方向:知识组织。

1大数据分析的内涵与外延

大数据具有数据量大、数据结构复杂、数据产生速

[9]

。云计算技术对传统的数据分析技术进行了彻底

的变革,运用MapReduce编程模型对计算分析任务进行分割,对计算资源、服务资源和信息资源进行最优化的配置利用。在大数据分析过程中,大数据系统是大数据技术的载体,对大数据分析全过程进行技术支持,王秀磊和刘鹏认为大数据系统的解决方案必将落地于现有的云计算平台,云计算平台的分布式文件系统、分布式运算模式和分布式数据库管理技术都为解决大数据问题提供了思路和现成的平台

[10]

度快、数据价值密度低等特点,这些特点增加了对大数据进行有效分析的难度,大数据分析成为当前探索大数据发展的核心内容,因此,必须对大数据分析的内涵和外延进行深入剖析。1.1

大数据分析的内涵

大数据分析是在数据密

集型环境下,对数据科学的重新思考和进行新的模式探索的产物。严格来说,大数据更像是一种策略而非技术,其核心理念就是以一种比以往有效得多的方式来管理海量数据并从中提取价值

[3]

2大数据分析的研究现状

为了从数据中发现知识并加以利用,指导人们的

。大数据分析(Big

Data Analytics ,BDA )是大数据理念与方法的核心,是指对海量类型多样、增长快速、内容真实的数据(即大数据)进行分析,从中找出可以帮助决策的隐藏模式、未知的相关关系以及其他有用信息的过程文本的分析学,另一个就是机器学习

[5]

[4]

决策,必须对数据进行深入的分析,而不是仅仅生成简单的报表。这些复杂的分析必须依赖于复杂的分析模型,很难用SQL 来进行表达,统称为深度分析

[11]

。大

。顾君忠数据以其复杂性、海量化、低密度和快速生成四个显著特点,使得必须对大数据进行深度分析才能获得有用的信息或情报。2.1

分析即服务的出现

大数据分析是大数据时

代的关键任务,在巨大的数据量驱动下,社会面临着对大数据分析的强大的潜在需求,而大数据分析也细分成为一种专业分工类型,甚至在实践中孕育出了首席数据官

[12]

认为在这一过程中,有两大技术问题非常关键:一个是

。因此,本文认

为大数据分析是根据数据生成机制,对数据进行广泛的采集与存储,并对数据进行格式化清洗,以大数据分析模型为依据,在集成化大数据分析平台的支撑下,运用云计算技术调度计算分析资源,最终挖掘出大数据背后的模式或规律的数据分析过程。1.2

大数据分析的外延

大数据分析是伴随着数

据科学的快速发展和数据密集型范式的出现而产生的一种全新的分析思维和技术,大数据分析与情报分析、云计算技术等内容存在密切的关联关系。

1.2.1

大数据分析与情报分析

情报分析亦称

信息分析或情报研究,是根据社会用户的特定需求,以现代信息技术和软科学研究方法为主要手段,以社会信息的采集选择评价分析和综合等系列化加工为基本过程,形成新的增值的情报产品,为不同层次科学决策服务的社会化智能活动

[6]

(Chief Data Officer ,CDO )这一管理职务。

Dursun Delen 和Haluk Demirkan 认为,分析即服务是商业领域近来兴起的概念,模型管理的复杂性、开发基于服务的分析模型和模型之间的交互接口使得分析即服务成为信息技术努力解决的一大挑战

[13]

。大数据

信息分析正在形成为一种新的服务内容和服务方式,美国著名知识管理学者达文波特在2013年12月《哈

[14]

佛商业评论》上发表Analytics 3.0一文提出将分析

嵌入产品生产与服务的过程中便是对这一趋势的权威预测。2.2

大数据分析方法研究

大数据分析方法是大

数据分析中最重要的研究内容之一,分析方法的优劣将决定分析结果的有效与否,将最终影响大数据分析成果的应用。不同类型的大数据需要不同的分析处理方法。复杂数据上的实体识别与传统文本和关系数据上的实体识别不同,给数据分析带来了新的技术挑战,王宏志和樊文飞在介绍复杂数据上实体识别的概念和应用基础上,分别讨论了XML 数据、图数据和复杂网络上实体识别技术的原理,最后展望了未来的研究方向

[15]

,关注大数据分析是大数据

时代情报分析的发展趋势,李广健和杨林将大数据环境下的情报分析发展趋势概括为单一领域情报研究转向全领域情报研究、综合利用多种数据源、注重新型信息资源的分析、强调情报研究的严谨性和情报研究的智能化五个方面

[7]

。企业竞争情报是情报分析的重要

内容,大数据同样有利于企业竞争情报分析能力的提升,黄晓斌和钟辉新提出大数据时代企业竞争情报应重视数据和信息的集成、注意对数据的清洗与过滤、关注新的数据类型的挖掘分析方法、促进数据分析的可视化、探索大数据新的分析技术和工具的应用等

1.2.2

大数据分析与云计算

[8]

。社会媒体大数据是当前大数据的一大热

。William Ribarsky、Derek Xiaoyu Wang 和点领域,其中,Wenwen Dou 认为可视化分析是大数据分析的主要内容,他们将交互可视化、自动化的分析方法和应用进行集成,研究了在社会媒体分析中挖掘竞争优势的方

云计算技术是一

种利用互联网实现随时随地、按需、便捷地访问共享资源池(如计算设施、存储设备、应用程序等)的计算模

[16]

RaymondY.K.法。在设计科学方法论的指导下,

Lau 、Chunping Li 和Stephen S.Y.Liao 等人设计了一

数据分析过程的梳理,总结出大数据分析中面临着五个方面的重要问题,分别是数据存储、数据可用性、数据建模、资源调度和专业分析工具匮乏。3.1

大数据存储问题

大数据的分析过程中首先

要解决的问题就是数据的储存问题。从数据量级来EB 级,看,大数据时代数据量从TB 级上升到PB 、给数据存储和分析带来了全新的改变。数据存储不是简单的存储,存储只是数据生命周期中一个小的环节,在数据分析的过程中,会对数据进行多次的存取和调度,数据的存储就不再是静态的存储,会随着数据生命周期的变动和实际应用的需要,对数据进行动态地增、减、删和改等操作。

从数据存储结构来看,大量的数据不能简单地用传统的结构化数据库进行存储,探索适合大数据特点的数据存储方式是摆在人们面前的重要问题。另外,大数据的动态性,使得数据分析过程中,如何保障数据存储和交互过程的一致性也很重要,王珊等人提出对大数据进行分析时,数据仓库需要具备高度可扩展性、高性能、高度容错性、支持异构环境、较低的分析延迟、易用且开放接口、较低成本和向下兼容性

[28]

个新的社会媒体分析方法,能够对社会媒体网站累积

[17]

的消费者评论数据进行细粒度的市场情报抽取。Belaud Jean -Pierre 、Negny Stephane 和Dupros Fabrice 3D 可视化和大等人提出了集成科学仿真、工程协同、

[18]

Lizhe 数据管理的轻量级计算平台。Jiaqi Zhao 、Wang 和Jie Tao 等人在允许多集群系统运行扩展Ha-doop 任务的G -Hadoop 上,提出了针对扩展后的G -Hadoop 的安全模型,该模型在公钥加密和SSL 安全协议等安全解决方案基础上,专门针对分布式环境提

[19]

对大数据分析的安全提供了技术保障。出,

从大数据分析的系统架构层面看,李晨晖、崔建明和陈超泉提出大数据分析的九层架构,认为复杂结构处理技术、大数据智能识别与传感技术、大数据平台标准规范、虚拟化接入技术、知识服务交易模型、知识服务全生命周期管理技术、大数据知识服务质量评价体系、支持可视化大数据服务终端交互技术等共同构成

[20]

但具体的大了大数据分析和服务的关键技术体系,

数据分析和服务方法还需要进行更多地研究和探索。2.3

大数据分析驱动科学萌芽

大数据驱动成为

大数据时代社会发展的重要模式,值得引起大数据研究领域的关注。刘瑜、康朝贵和王法辉总结了基于大数据的人类移动模式研究流程,归纳了人类移动模式的基本度量方法,探讨了解释所观测移动模式的模型构建方法,指出了地理环境对于移动模型建立的影

[21]

响。大数据驱动成为用户研究和信息传播的重要支持手段,如新媒体环境下大数据驱动的受众分析与

[22]

大数据驱动下基于客户生命周期理传播策略研究,论的行业分析

[23]

,而这些

要求也正是大数据分析中数据仓库领域亟待解决的几大问题。综合来看,数据存储是大数据分析的关键问题之一。3.2

大数据中数据弱可用性问题

现实中,数据经

常以杂乱无序的方式呈现,给大数据分析带来了极大的挑战,数据质量成为大数据分析过程中需要考虑的重要因素。数据质量是一个相对宽泛的概念,本文所指的数据质量主要探讨数据的可用性问题。数据的可用性由数据一致性、精确性、完整性、时效性和实体同一性五大方面构成,五个方面的内容共同构成数据可用性程度的评价标准

[29]

。在大数据驱动平台和工具方面,朱

[24]

维乔提出了大数据驱动的特殊资源服务平台架构,Douglas Craig C.提出能修正模型和计算规模扩展的

实现数据同化动态大数据驱动的应用开发工具,其应

[25]

用能根据计算结果控制数据的采集过程。大数据驱动在生物和医药健康领域的发展更是取得了丰硕成Chawla Nitesh V.和Davis Darcy A.研究了个体健果,

康领域的大数据,提出了大数据驱动的患者导向的研[26]

McGuire Ross和Van Schaik 究框架;Lusher Scott J 、

ReneC.等人认为大数据正在改变科学研究方式。在药物化学领域,大数据驱动将提高药物开发项目的决策制定水平,让所有研究人员充当数据科学家的角色并揭示可用数据之间的有益关系及模式应用的发展。

[27]

国内外学术界和企业界对大数据的研究主要集中于大数据存储、建模、挖掘与服务等方面。但对大数据进行上述处理之前,度量数据的可用性是对大数据进行存储和分析的重要前提条件之一。在满足数据精确性方面,在数据的采集与获取阶段,需要研究高效的数据过滤处理方法,将多源数据进行融合计算,进行初始数据处理,从而得到高质量的大数据源。在大数据完整性方面,需要提供尽可能完善的数据描述框架,以此对数据源进行描述和评价,这既是数据采集过程中数据描述的指南,也是数据完整性评价的标准。在数据的一致性和时效性方面,强调一些客观事实的数据及其时间价值,在采集的大数据中不能存在与客观事实EB 或更大量级的数据不符的数据描述,尤其是在PB 、环境下,对数据源进行自动检测与修复则是必要的环节。上述几个问题是大数据可用性分析的重点和难

。大数据

正以其巨大的科学性与合理性驱动着科学研究和实践

3大数据分析面临的问题

大数据的快速发展,也伴随着巨大的挑战,通过对

点,尤其在非结构化数据的分析中,由于数据的结构及表达的语义复杂性,难以把握,用现有的理论和技术不能指导或分析这些数据。因此,必须加强数据可用性理论与方法的研究和应用,增强数据的可用性,提高数据源的质量,为数据分析提供保障。3.3

大数据建模问题

数据分析的核心内容之一

是数据建模,通过分析现有数据的统计和语义特征,找出其中的规律,再将其概括为抽象的数据分析模型,进而为数据分析提供依据。大数据分析处理的是海量数据,由于海量数据的存在,过去的单个或少数几个模型组合已经不能适应大数据分析的需要,通过构建由众多模型构成的模型库是解决海量数据分析的有效办法。

此外,模型构建与数据分析相互影响,相互促进。一方面,数据仅是对行为习惯的描述和表达,通过数据分析,能发现人们行为习惯的转变,可以通过对过去已经采集和存储的数据进行深入分析,挖掘出数据背后的规律特征,用模型对其进行高度概括和抽象,形成包含众多模型的模型库。另一方面,大数据时代,数据总是在不知不觉地产生,并且由于数据的涌现性,现有的模型不能适应大数据分析的需要,因此,可以结合数据的动态变化对已有模型进行局部调整或修正,形成新的数据分析模型,或者直接提出适应大数据分析的新模型。当然,这一过程中,还包括随着其他社会因素的变化及其综合影响,大数据环境下人们行为习惯会发生彻底的改变或者涌现出一些全新的行为特征,因此需要对这些数据进行有效地监测和分析,找出新的共性特征和个性化的差异,构建与这些新的数据分析任务相适应的分析模型。3.4

大数据分析资源调度问题

大数据时代何时

会产生数据,产生多少数据,这些都是难以确定的问题。数据产生方式的动态性和涌现性是其重要特点,这也带来了数据分析的不确定性,因此,数据分析前和分析过程中需要很好地应对数据的不确定性问题。在大数据分析中,必须对其存储资源、计算资源进行有效配置并弹性地调度,以建立不确定环境下数据分析任务需求的动态响应机制。另外,考虑存储资源和计算分析的成本问题,总是希望以最小的成本获得最理想的分析结果,不浪费任何资源且实现最佳分析效果是大数据分析中资源调度的最理想状态。事实上,必须探索适应动态需求涌现应对机制的资源调度策略与算法,并不断地组合实施和优化,才能实现用户按需所取的资源调度与资源服务的目标,因此,满足服务质量的同时,兼顾服务成本,将是大数据分析资源分配与调度优化的重要标准和原则。3.5

专业大数据分析工具缺乏

随着计算机通信

技术和网络技术的迅猛发展,互联网、移动互联网、物联网等先进技术的广泛部署,信息技术手段记录下了人类活动轨迹的海量数据资源,它们是人类社会的宝贵财富,但由于数据分析技术的限制,对其进行充分地挖掘利用还只是人类的理想,是摆在人们面前亟待解决的重要问题。

。当今社会,古人云“工欲善其事,必先利其器”软件化工具是信息化时代人类处理各种事务的主要工具形式,通过将人类处理事务的全过程进行设计优化,并利用计算机编程实现,从而极大地降低了成本并提高了软件化工具的管理和传播利用效率。在计算机辅助信息分析的背景下,我们所熟知的软件工具有SPSS 、SAS 和R等,但在信息分析日益专业化和复杂化的今天,这些工具已经不能直接处理人类活动所产生的海量非结构化数据,而随着金融交易大数据、电子商务评论数据、电信服务大数据、医疗健康大数据和科学研究大数据等的长期积累和快速增长,使得目前还没有成熟的数据分析工具能够很好地应对当前人类对大数据分析的需要。

4大数据分析面临问题的对策

针对大数据分析过程中存在五个方面的问题,本

文提出了五种对策建议。4.1

部署云存储技术

大数据正以惊人的速度增

长,大数据的存储方式不仅影响数据分析处理的效率,也影响数据存储的成本。因此,需要研究高效率、低成本的数据存储方式

[30]

,云存储技术就满足了这一目

标,云存储专注于向用户提供以互联网为基础的在线存储服务,用户无需考虑存储容量、存储设备类型、数据存储位置以及数据的可用性、可靠性和安全性等繁琐的底层技术细节,根据需要付费就可以从云存储服务提供商那里获得近乎无限大的存储空间和企业级的服务质量

[31]

本文所说的云存储指的是云计算环境下分布式的存储架构体系。数据中心是云计算环境下分布式存储的基础,云计算环境下的分布式存储研究数据在数据中心上的组织和管理。从不同角度可以对数据存储中心进行不同的划分。依据数据中心中担任数据包的路由转发功能的节点类型看,可以把数据中心网络分为三种:以交换机为中心的结构、以服务器为中心的结构以及混合结构

[32]

。从系统建设角度看,由于历史遗留

存储信息系统的缘故,云存储的数据中心架构主要由传统的数据中心的优化、基于云计算的数据中心或两者并存三种形态出现。

在存储服务的提供过程中,按用户服务内容的不同,可以将云存储用户划分为存储用户和云计算用户

两类,存储用户只需要云服务提供商提供简单快捷的数据存储服务,而云计算用户则先在云端进行数据存储,为计算服务做准备。基于云计算理念构建的数据中心将是云存储服务的核心,如图1所示,在并行编程模型的调度分割下,用并行数据库和分布式文件系统实现对结构化数据和非结构化数据的存储,进而以云服务等级协议为基础,通过云服务接口向云用户提供计算资源服务

探索。另外,宗威和吴锋认为大数据分析的前提必须要保障数据的质量,从流程、技术和管理视角讨论了大数据时代如何确保数据质量问题4.3

优化数据分析模型

[34]

在数据分析系统领域,数

据库、模型库和知识库是三大相互联系而又区别的概念。在数据分析系统已有知识库和模型库基础上,对数据库里存储的数据进行分析,得到数据分析结果,一方面将结果导入知识库作为知识储备,另一方面通过数据分析结果对模型库进行修正和丰富,三者之间形成动态的循环关系如图2所示

图2模型库与数据库、知识库的简化关系

模型库子系统包括模型库和模型库管理系统。顾名思义,模型库里包含众多的可用的模型,可以将其分

图1

大数据云存储模型

为简单模型与复杂模型、单一模型与组合模型。模型可以是基于传统的数理统计的数学模型,也可以是基于人工神经网络、遗传进化计算和模糊系统的计算智能模型。系统决策过程可根据实际决策问题的复杂性选择单个模型或多个广义模型进行组合决策

[35]

4.2提升数据可用性海量复杂数据是大数据分

析的对象,由于其产生方式的多样性,其中涉及不同信息系统、不同应用软件和传感网络等多源数据的高效采集与无缝整合。在每一个大数据分析项目中,都需要搜集数据以供分析,分析本身这一步是简单的,但数据的预分析则是难以把握的环节

[33]

。从

大数据分析的实际应用来看,数据量大且复杂,应用复杂的、组合的模型也不一定能在较短时间内满足数据分析的要求。因此,在大数据分析任务过程中,模型库的优化可以从两个方面进行理解:一是对现有模型的参数进行修正,让模型更好地满足数据分析的要求;二是不断增加模型的数量,通过模型之间的组合应用实现数据分析的目标。

随着数据类型的不断丰富,基于预测的分析已经IBM 基于大数据分不能完全满足大数据分析的需要,

析的加速器组件封装成软件包,并整合进IBM InfoS-phere BigInsights TM 和IBM InfoSphere Streams 两个大IBM 数据挖数据分析平台。尤其在数据挖掘过程中,

掘加速器提供了一系列流式处理语言运算符对实时数据进行排序记录,并且这些运算符将预测模型标记语言(predictive model markup language )文件描述的预测模型作为输入流,进而快速动态地对模型更新,为了实现无缝整合,加速器直接嵌入了IBM Infosphere 数据仓库

[36]

。本文所探讨的

数据可用性就是数据预分析要解决的问题,即解决数据一致性、精确性、完整性、时效性和实体同一性等问题。利用数据可用性这五个方面的内容,可以很好地对数据质量进行衡量。

从当前主要的大数据来源看,包括Web 数据、业务系统数据、传感网数据和科学实验数据四大类。其中,每一类数据源又会根据具体的工作或研究等的需要,将不同类型的数据或者相同类型数据中涉及不同信息系统或不同信息结构的数据进行有效地预处理,且随着数据的动态变化,对其相应地进行增减处理,满足上述数据一致性、精确性、完整性、时效性和实体同一性等数据质量指标的要求。提升数据可用性需要加强数据可用性的理论和技术两方面的研究,当前,有关大数据可用性的研究还比较少。李建中等提出了大数据可用性的五个挑战性研究问题,包括高质量大数据获取与整合的理论和技术、完整的大数据可用性理论体系、数据错误自动检测与修复的理论和技术、弱可用数据上近似计算的理论与技术和弱可用数据上的知识发掘与演化的机理

[29]

不断地优化数据分析的模型,通过模型库和模型库管理系统的配合使用,能够扩展数据分析模型对不断涌现出的大数据的分析处理能力。4.4

资源的弹性调度

从大数据的产生特点来看,

可以将大数据分析方面的需求划分为周期性需求和非周期性需求两类。周期性需求会定期出现,因此,可以

,从基础理论、算法和工程技术

各层面提出了大数据可用性领域严峻的挑战性研究问题,对大数据可用性的理论与技术研究进行了重要的

提早分配数据处理资源,满足数据分析需要。非周期性需求则具有突发性和偶然性,需要弹性地分配计算资源完成数据分析处理,因此,云计算资源管理成为应对大数据分析的核心问题。云计算是一种能够向各种互联网应用提供硬件服务、基础架构服务、平台服务、软件服务、存储服务的系统

[37]

数据用并行数据库和分布式文件系统分别进行存储;然后用数据可用性五个方面的标准去衡量搜集的原始数据的数据质量,将基于弱可用的数据分析方法整合进数据分析工具的功能之中,实现对弱可用数据的清洗和预处理;进而调用大数据分析工具的分析模型对新产生的数据进行分析处理,找出数据中暗藏的情报信号或已有重大问题的相关影响因素等,满足人们及时处理大数据的目标。

此外,由于大数据分析任务和分析过程的复杂性,在研发大数据分析工具过程中,必须从大数据本身的特点考虑大数据分析工具的开发和平台建设等相关问题。由于大数据类型和产生方式的差异,需要对大数据分析工具针对具体分析对象进行相应的设计和优化,保证分析工具对大数据分析任务的完全匹配和支持。

。在云计算服务领域,

计算资源作为服务资源进行提供,服务质量和服务成本是人们关注的两个主要问题。通过架构云计算的服务体系,以应对大数据时代周期性和非周期性数据分析的需求,按需对计算资源和信息资源进行弹性调度和分配,用最低的成本保障服务的实现。祝家钰等根据云计算的弹性化和虚拟化等新特性,综合考虑任务的性能QoS 和信任QoS ,提出一种在云计算环境下的任务调度机制,采用虚拟机迁移技术实现动态负载均衡

[38]

Google 公司2004年提出的MapReduce编程模型是最具代表性的批量计算模型。批量计算首先进行数据的存储,然后再对存储的静态数据进行集中计算。Hadoop 是典型的大数据批量计算架构,由HDFS 分布式文件系统负责静态数据的存储,并通过MapReduce将计算逻辑分配到各数据节点进行数据计算和价值发现

[39]

5结束语

大数据时代已经来临,社会各行各业都面临着前

所未有的数据量和数据分析需求。伴随着云计算领域倡导的软件即服务(Software as a service )、平台即服务(Platform as a service )、基础设施即服务(Infrastruc-ture as a service )以及一切即服务(X as a service )的快速发展,大数据分析受到社会越来越多的关注,分析即服务(Analytics as a service )逐渐发展并形成。在大数据分析与大数据应用的大背景下,美国著名知识管理学者达文波特在《哈佛商业评论》上发表文章对数据An-分析进行了深入地剖析,甚至提出了Analytics1.0、alytics2.0和Analytics3.0等概念,向人们展望了在云计算和大数据时代,数据分析将完全融入到企业产品的开发和服务的过程中,数据分析的价值需要得到更深层次的挖掘,并真正将数据分析的结果辅助于管理决策。本文只是对大数据分析领域已经存在的主要问题进行了梳理,由于数据产生方式的多样性和数据的动态演变,大数据分析的方法和技术也会随之变化,只有紧跟大数据发展的理论前沿和实践需要,运用大数据思维才能科学地把握大数据发展的走势,去有效地架构和驾驭大数据分析。

。MapReduce架构的程序能够在大量的普通配

置的计算机上实现并行化处理。这个系统在运行时只关心如何分割输入数据,在大量计算机组成的集群上的调度,集群中计算机的错误处理,管理集群中的计算机之间必要的通信

[10]

。在具体使用方面,用户不必关

注MapReduce如何进行数据分割、负载均衡、容错处理等细节,只需要将实际应用问题分解成若干可并行操作的子问题,设计相应的Map 和Reduce两个函数,就能将自己的应用程序运行在分布式系统上

[40]

大数据仍在不断的增长,尤其是以社交网络和移动平台应用为主,产生了海量的网络数据,网络大数据的产生与演变具有不确定性和涌现性,通过云计算技术能够有效地架构大数据,并以MapReduce编程模型对批量数据进行分割处理,以云计算服务质量等级协议为基础,弹性地调度计算资源以匹配数据分析需求,保障高质量服务的提供。4.5

研发大数据分析工具

数据分析的任务包括

描述性分析、预测性分析和规定性分析三种类型。大数据分析包含这三种类型的分析任务,但侧重对第三种规定性分析任务数据的分析。大数据集成分析平台是大数据分析的关键工具,它将处理这三种类型分析任务的能力集成到统一的分析平台,数据库厂商Tera-data 较早地开展了大数据集成分析平台方面的研究。

具体来看,专业化的大数据分析工具,应该具有强大的数据仓库支持,把海量的结构化数据和非结构化

参考文献

[1]Tom K.Big Data Is a Big Deal [EB /OL].[2014-03-21].

http ://www.whitehouse.gov /blog/2012/03/29/big-data -big -deal.

[2]Executive O O T P.Big Data Across the Federal Government

[EB /OL].[2014-03-21].http ://www.whitehouse.gov /sites /default/files/microsites/ostp/big_data_fact_sheet_final_1.pdf.

[3]张春磊,杨小牛.大数据分析(BDA )及其在情报领域的应用

·104·

[J ].中国电子科学研究院学报,2013,8(1):18-22.

情报杂志

2014(2):129-132.[J ].新闻大学,

第34卷

.中国[4]李广健,化柏林.大数据分析与情报分析关系辨析[J ]

2014,40(5):14-22.图书馆学报,

[5]顾君忠.大数据与大数据分析[J ].软件产业与工程,2013

(4):17-22.

[6]包昌火.情报研究方法论[M ].北京:科学技术文献出版社,

1990:5.[7]李广健,杨

林.大数据视角下的情报研究与情报研究技术

[J ].图书与情报,2012(6):1-8.

[8]黄晓斌,钟辉新.大数据时代企业竞争情报研究的创新与发

2012(6):9-14.展[J ].图书与情报,

[9]罗军舟,宋爱波,等.云计算:体系架构与关键技术金嘉晖,

[J ].通信学报,2011,32(7):3-21.[10]王秀磊,刘

.中兴通讯技术,2013鹏.大数据关键技术[J ]

(4):17-21.

[11]覃雄派,——RDBMS与Ma-杜小勇,等.大数据分析—王会举,

pReduce的竞争与共生[J ].软件学报,2012,23(1):32-45.[12]Lee Y ,Madnick S ,Wang RE.A Cubic Framework for the Chief

Data Officer :Succeeding in a World of Big Data [J ].MIS Quarterly Executive ,2014,13(1):1-13.

[13]Dursun D ,Haluk D.Data ,Information and Analytics as Services

[J ].Decision Support Systems ,2013,55(1):359-363.[14]Thomsa H D.Analytics 3.0[J ].Harvard Business Review,

2013(12):65-72.

.计算[15]王宏志,樊文飞.复杂数据上的实体识别技术研究[J ]

2011,34(10):1143-1152.机学报,

[16]William R,Derek X W ,Dou W.Social Media Analytics for

Competitive Advantage [J ].Computer and Graphics ,2014,38:328-331.

[17]RaymondY K L ,Chunping L ,Stephen S Y L.Social Analytics :

Learning Fuzzy Product Ontologies for Aspect -oriented Senti-ment Analysis [J ].Decision Support Systems ,2014,65:80-94.

[18]Belaud J ,Negny S ,Dupros F.Collaborative Simulation and Sci-entific Big Data Analysis :Illustration for Sustainability in Natural Hazards Management and Chemical Process Engineering [J ].Computers in Industry ,2014,65(3):521-535.

[19]Zhao Jiaqi ,Wang Lizhe ,Tao Jie.A Security Framework in G -

hadoop for Big Data Computing [J ].Journal of Computer and System Sciences ,2014,80(5):994-1007.

[20]李晨晖,陈超泉.大数据知识服务平台构建关键技术崔建明,

J ].情报资料工作,2013(2):29-34.研究[[21]刘[22]聂

瑜,康朝贵,王法辉.大数据驱动的人类移动模式和模型磊.新媒体环境下大数据驱动的受众分析与传播策略J ].武汉大学学报:信息科学版,2014(6):660-666.研究[

[23]辛宇,郑——基于汽车行鑫.大数据驱动与客户生命周期—

J ].河南社会科学,2014(3):71-77.业的分析[

J ].图书[24]朱维乔.大数据驱动的特色资源服务平台架构研究[

2014,44(4):77-81.馆研究,

[25]Douglas C C.An Open Framework for Dynamic Big -data -driv-en Application Systems (dbddas )Development [C ]//14thAnnu-al International Conference on Computational Science [A ].AM-STERDAM:ELSEVIERSCIENCE BV ,2014:1246-1255.[26]Chawla N V ,Davis D A.Bringing Big Data to Personalized

Healthcare :a Patient -centered Framework [J ].Journal of Gen-eral Internal Medicine ,2013(28):660-665.

[27]Lusher S J ,Mcguire R,Van schaik RC,et al.Data -driven Me-dicinal Chemistry in the Era of Big Data [J ].Drug Discovery Today ,2014,19(7):859-868.[28]王

珊,王会举,等.架构大数据:挑战、现状与展望覃雄派,[J ].计算机学报,2011,34(10):1741-1752.

[29]李建中,刘显敏.大数据的一个重要方面[J ].计算机研究与

2013,50(6):1147-1162.发展,

[30]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重

2012,27(6):647-657.大战略领域[J ].中国科学院院刊,

J ].计算[31]王德政,周宁宁.云计算环境下的数据存储[申山宏,

2011,21(4):81-84.机技术与发展,[32]王意洁,周孙伟东,

松,等.云计算环境下的分布存储关键技

J ].软件学报,2012,23(4):962-986.术[

[33]Jules J B.Principles of Big Data :Preanalyzing ,Sharing ,and An-alyzing Complex Information [M ].Waltham :Morgan Kauf-mann ,2013:129.[34]宗

威,吴

峰.大数据时代下数据质量的挑战[J ].西安交群,黄

铮.基于SDSS 的高速公路养护管理系

2013,33(5):38-43.通大学学报:社会科学版,[35]邹国平,邹

J ].交通运输工程学报,2006,6(3):47-50.统结构[

[36]IBM Accelerators for Big Data [EB /OL].[2014-06-13].ht-tp ://public.[37]梁

dhe.

ibm.

com /common/ssi/ecm/en/

imd14414usen /IMD14414USEN.PDF.

.计爽.基于SOA 的云计算框架模型的研究与实现[J ]

丹,王

飞.云计算下负载均衡的多维QoS 约束

2011,47(35):92-94.算机工程与应用,[38]祝家钰,肖

89.

[39]孙大为,郑纬民.大数据流式计算:关键技术及系统张广艳,

J ].软件学报,2014,25(4):839-862.实例[[40]钱

.计进,苗夺谦,张泽华.云计算环境下知识约简算法[J ]

(责编:刘影梅

2011,34(12):2332-2343.算机学报,

J ].计算机工程与应用,2013,49(9):85-任务调度机制[

第34卷第5期2015年5月

情报杂志

JOURNALOF INTELLIGENCE

Vol.34No.5May 2015

大数据分析研究现状、问题与对策

官思发

1

*

孟玺

2

李宗洁

3

刘扬

4

(1.中国人民大学信息资源管理学院

3.对外经济贸易大学国际商学院

北京100872;2.中国人民公安大学反恐学院北京100029;4.中国人民大学图书馆

北京100086;

北京100872)

大数据的快速发展引起了国内外的广泛关注和重视,对大数据进行科学有效地分析处理是大数据领域最

核心的问题,通过文献综述从分析即服务、大数据分析方法和大数据驱动科学萌芽三方面对国内外大数据分析研究现状进行总结,提出了大数据分析领域数据存储、弱可用性、数据建模、资源调度和专业分析工具匮乏等五大重要问题,并有针对性地提出部署云存储技术、提升数据可用性、优化数据分析模型、弹性调度资源和研发大数据分析平台五个对策建议。关键词

大数据分析

G353.1

分析即服务

大数据驱动文献标识码

A 云计算

文章编号1002-1965(2015)05-0098-07

中图分类号

DOI 10.3969/j.issn.1002-1965.2015.05.018

Big Data Study on the Current Situation ,Problems and Countermeasures

Guan Sifa 1

Meng Xi 2

Li Zongjie 3

Liu Yang 4

100872;100086;

(1.School of Information ResourceManagement ,RenminUniversity of China ,Beijing 3.Business School ,University of International Business and Economics ,Beijing

4.Library ,RenminUniversity of China ,Beijing

Abstract

2.Department of Counter Terrorism of People's Public Security University of China ,Beijing

100872)

100029;

with the big data of development ,it has generated enormous publicity at home and abroad.It is the core problem for big data

analysis ,which must adopt effective and efficient processing and analyzing This paper adopts literature review method to study big data ,which focus on contents such as analysis as a service ,big data analysis methods and big data driven science after literature review and sum-marizing the practical development of big data analysis in China and other countries ,then it comes up with five key challenges in big data analysis ,such as data storage ,weak data usability ,data modeling ,resource distribution ,shortage of professional big data analytics tools and provides five countermeasures correspondingly ,they are deploying cloud -based storage ,promoting data usability ,optimizing data analysis model ,dispatching analytics resources ,developing big data analysis platform.Key words

big data analysis

analysis as a service

big -data drive

cloud computing

随着IT 技术的快速发展,各行各业面临着海量数据处理的压力,仅凭人的智能已经不能满足海量信息计算分析的需求。2012年,美国奥巴马政府在白宫网《大数据研究和发展倡议》,站上发布了旨在提升利用大量复杂数据集合获取知识和洞见的能力,六大联邦政府机构达成一致,宣布将为此投入2亿美元以上经

费,支持大力发展对数字化数据的接入、组织和挖掘的工具和技术

[1]

,并进一步扩展,形成了包括联邦政府

12个部门和机构的多项研究计划[2]。这一倡议掀起了全球范围内政府推动大数据分析和研究的热潮。具体而言,在大数据的背景下,如何实现对大数据的采集、存储和分析是摆在人们面前亟待解决的问题。

收稿日期:2015-01-22修回日期:2015-03-01

“云计算环境下的信息资源集成与服务研究”(编号:12&ZD220);中国人民大学科研基金项目“信息分基金项目:国家社会科学基金重大项目

“服务于公安决策的犯罪时空关联分析技术研究”(编(编号:10XNJ035);中国人民公安大学教师科研与创新团队建设项目析技术创新研究”

号:2014JKF01061);中国人民大学2014年度拔尖创新人才培育资助计划的成果之一。作者简介:官思发(1987-),男,博士研究生,研究方向:大数据知识服务和情报分析;孟信息可视化;李宗洁(1987-),男,博士研究生,研究方向:创新管理;刘

玺(1983-),女,博士,讲师,研究方向:信息分析和

扬(1976-),女,馆员,研究方向:知识组织。

1大数据分析的内涵与外延

大数据具有数据量大、数据结构复杂、数据产生速

[9]

。云计算技术对传统的数据分析技术进行了彻底

的变革,运用MapReduce编程模型对计算分析任务进行分割,对计算资源、服务资源和信息资源进行最优化的配置利用。在大数据分析过程中,大数据系统是大数据技术的载体,对大数据分析全过程进行技术支持,王秀磊和刘鹏认为大数据系统的解决方案必将落地于现有的云计算平台,云计算平台的分布式文件系统、分布式运算模式和分布式数据库管理技术都为解决大数据问题提供了思路和现成的平台

[10]

度快、数据价值密度低等特点,这些特点增加了对大数据进行有效分析的难度,大数据分析成为当前探索大数据发展的核心内容,因此,必须对大数据分析的内涵和外延进行深入剖析。1.1

大数据分析的内涵

大数据分析是在数据密

集型环境下,对数据科学的重新思考和进行新的模式探索的产物。严格来说,大数据更像是一种策略而非技术,其核心理念就是以一种比以往有效得多的方式来管理海量数据并从中提取价值

[3]

2大数据分析的研究现状

为了从数据中发现知识并加以利用,指导人们的

。大数据分析(Big

Data Analytics ,BDA )是大数据理念与方法的核心,是指对海量类型多样、增长快速、内容真实的数据(即大数据)进行分析,从中找出可以帮助决策的隐藏模式、未知的相关关系以及其他有用信息的过程文本的分析学,另一个就是机器学习

[5]

[4]

决策,必须对数据进行深入的分析,而不是仅仅生成简单的报表。这些复杂的分析必须依赖于复杂的分析模型,很难用SQL 来进行表达,统称为深度分析

[11]

。大

。顾君忠数据以其复杂性、海量化、低密度和快速生成四个显著特点,使得必须对大数据进行深度分析才能获得有用的信息或情报。2.1

分析即服务的出现

大数据分析是大数据时

代的关键任务,在巨大的数据量驱动下,社会面临着对大数据分析的强大的潜在需求,而大数据分析也细分成为一种专业分工类型,甚至在实践中孕育出了首席数据官

[12]

认为在这一过程中,有两大技术问题非常关键:一个是

。因此,本文认

为大数据分析是根据数据生成机制,对数据进行广泛的采集与存储,并对数据进行格式化清洗,以大数据分析模型为依据,在集成化大数据分析平台的支撑下,运用云计算技术调度计算分析资源,最终挖掘出大数据背后的模式或规律的数据分析过程。1.2

大数据分析的外延

大数据分析是伴随着数

据科学的快速发展和数据密集型范式的出现而产生的一种全新的分析思维和技术,大数据分析与情报分析、云计算技术等内容存在密切的关联关系。

1.2.1

大数据分析与情报分析

情报分析亦称

信息分析或情报研究,是根据社会用户的特定需求,以现代信息技术和软科学研究方法为主要手段,以社会信息的采集选择评价分析和综合等系列化加工为基本过程,形成新的增值的情报产品,为不同层次科学决策服务的社会化智能活动

[6]

(Chief Data Officer ,CDO )这一管理职务。

Dursun Delen 和Haluk Demirkan 认为,分析即服务是商业领域近来兴起的概念,模型管理的复杂性、开发基于服务的分析模型和模型之间的交互接口使得分析即服务成为信息技术努力解决的一大挑战

[13]

。大数据

信息分析正在形成为一种新的服务内容和服务方式,美国著名知识管理学者达文波特在2013年12月《哈

[14]

佛商业评论》上发表Analytics 3.0一文提出将分析

嵌入产品生产与服务的过程中便是对这一趋势的权威预测。2.2

大数据分析方法研究

大数据分析方法是大

数据分析中最重要的研究内容之一,分析方法的优劣将决定分析结果的有效与否,将最终影响大数据分析成果的应用。不同类型的大数据需要不同的分析处理方法。复杂数据上的实体识别与传统文本和关系数据上的实体识别不同,给数据分析带来了新的技术挑战,王宏志和樊文飞在介绍复杂数据上实体识别的概念和应用基础上,分别讨论了XML 数据、图数据和复杂网络上实体识别技术的原理,最后展望了未来的研究方向

[15]

,关注大数据分析是大数据

时代情报分析的发展趋势,李广健和杨林将大数据环境下的情报分析发展趋势概括为单一领域情报研究转向全领域情报研究、综合利用多种数据源、注重新型信息资源的分析、强调情报研究的严谨性和情报研究的智能化五个方面

[7]

。企业竞争情报是情报分析的重要

内容,大数据同样有利于企业竞争情报分析能力的提升,黄晓斌和钟辉新提出大数据时代企业竞争情报应重视数据和信息的集成、注意对数据的清洗与过滤、关注新的数据类型的挖掘分析方法、促进数据分析的可视化、探索大数据新的分析技术和工具的应用等

1.2.2

大数据分析与云计算

[8]

。社会媒体大数据是当前大数据的一大热

。William Ribarsky、Derek Xiaoyu Wang 和点领域,其中,Wenwen Dou 认为可视化分析是大数据分析的主要内容,他们将交互可视化、自动化的分析方法和应用进行集成,研究了在社会媒体分析中挖掘竞争优势的方

云计算技术是一

种利用互联网实现随时随地、按需、便捷地访问共享资源池(如计算设施、存储设备、应用程序等)的计算模

[16]

RaymondY.K.法。在设计科学方法论的指导下,

Lau 、Chunping Li 和Stephen S.Y.Liao 等人设计了一

数据分析过程的梳理,总结出大数据分析中面临着五个方面的重要问题,分别是数据存储、数据可用性、数据建模、资源调度和专业分析工具匮乏。3.1

大数据存储问题

大数据的分析过程中首先

要解决的问题就是数据的储存问题。从数据量级来EB 级,看,大数据时代数据量从TB 级上升到PB 、给数据存储和分析带来了全新的改变。数据存储不是简单的存储,存储只是数据生命周期中一个小的环节,在数据分析的过程中,会对数据进行多次的存取和调度,数据的存储就不再是静态的存储,会随着数据生命周期的变动和实际应用的需要,对数据进行动态地增、减、删和改等操作。

从数据存储结构来看,大量的数据不能简单地用传统的结构化数据库进行存储,探索适合大数据特点的数据存储方式是摆在人们面前的重要问题。另外,大数据的动态性,使得数据分析过程中,如何保障数据存储和交互过程的一致性也很重要,王珊等人提出对大数据进行分析时,数据仓库需要具备高度可扩展性、高性能、高度容错性、支持异构环境、较低的分析延迟、易用且开放接口、较低成本和向下兼容性

[28]

个新的社会媒体分析方法,能够对社会媒体网站累积

[17]

的消费者评论数据进行细粒度的市场情报抽取。Belaud Jean -Pierre 、Negny Stephane 和Dupros Fabrice 3D 可视化和大等人提出了集成科学仿真、工程协同、

[18]

Lizhe 数据管理的轻量级计算平台。Jiaqi Zhao 、Wang 和Jie Tao 等人在允许多集群系统运行扩展Ha-doop 任务的G -Hadoop 上,提出了针对扩展后的G -Hadoop 的安全模型,该模型在公钥加密和SSL 安全协议等安全解决方案基础上,专门针对分布式环境提

[19]

对大数据分析的安全提供了技术保障。出,

从大数据分析的系统架构层面看,李晨晖、崔建明和陈超泉提出大数据分析的九层架构,认为复杂结构处理技术、大数据智能识别与传感技术、大数据平台标准规范、虚拟化接入技术、知识服务交易模型、知识服务全生命周期管理技术、大数据知识服务质量评价体系、支持可视化大数据服务终端交互技术等共同构成

[20]

但具体的大了大数据分析和服务的关键技术体系,

数据分析和服务方法还需要进行更多地研究和探索。2.3

大数据分析驱动科学萌芽

大数据驱动成为

大数据时代社会发展的重要模式,值得引起大数据研究领域的关注。刘瑜、康朝贵和王法辉总结了基于大数据的人类移动模式研究流程,归纳了人类移动模式的基本度量方法,探讨了解释所观测移动模式的模型构建方法,指出了地理环境对于移动模型建立的影

[21]

响。大数据驱动成为用户研究和信息传播的重要支持手段,如新媒体环境下大数据驱动的受众分析与

[22]

大数据驱动下基于客户生命周期理传播策略研究,论的行业分析

[23]

,而这些

要求也正是大数据分析中数据仓库领域亟待解决的几大问题。综合来看,数据存储是大数据分析的关键问题之一。3.2

大数据中数据弱可用性问题

现实中,数据经

常以杂乱无序的方式呈现,给大数据分析带来了极大的挑战,数据质量成为大数据分析过程中需要考虑的重要因素。数据质量是一个相对宽泛的概念,本文所指的数据质量主要探讨数据的可用性问题。数据的可用性由数据一致性、精确性、完整性、时效性和实体同一性五大方面构成,五个方面的内容共同构成数据可用性程度的评价标准

[29]

。在大数据驱动平台和工具方面,朱

[24]

维乔提出了大数据驱动的特殊资源服务平台架构,Douglas Craig C.提出能修正模型和计算规模扩展的

实现数据同化动态大数据驱动的应用开发工具,其应

[25]

用能根据计算结果控制数据的采集过程。大数据驱动在生物和医药健康领域的发展更是取得了丰硕成Chawla Nitesh V.和Davis Darcy A.研究了个体健果,

康领域的大数据,提出了大数据驱动的患者导向的研[26]

McGuire Ross和Van Schaik 究框架;Lusher Scott J 、

ReneC.等人认为大数据正在改变科学研究方式。在药物化学领域,大数据驱动将提高药物开发项目的决策制定水平,让所有研究人员充当数据科学家的角色并揭示可用数据之间的有益关系及模式应用的发展。

[27]

国内外学术界和企业界对大数据的研究主要集中于大数据存储、建模、挖掘与服务等方面。但对大数据进行上述处理之前,度量数据的可用性是对大数据进行存储和分析的重要前提条件之一。在满足数据精确性方面,在数据的采集与获取阶段,需要研究高效的数据过滤处理方法,将多源数据进行融合计算,进行初始数据处理,从而得到高质量的大数据源。在大数据完整性方面,需要提供尽可能完善的数据描述框架,以此对数据源进行描述和评价,这既是数据采集过程中数据描述的指南,也是数据完整性评价的标准。在数据的一致性和时效性方面,强调一些客观事实的数据及其时间价值,在采集的大数据中不能存在与客观事实EB 或更大量级的数据不符的数据描述,尤其是在PB 、环境下,对数据源进行自动检测与修复则是必要的环节。上述几个问题是大数据可用性分析的重点和难

。大数据

正以其巨大的科学性与合理性驱动着科学研究和实践

3大数据分析面临的问题

大数据的快速发展,也伴随着巨大的挑战,通过对

点,尤其在非结构化数据的分析中,由于数据的结构及表达的语义复杂性,难以把握,用现有的理论和技术不能指导或分析这些数据。因此,必须加强数据可用性理论与方法的研究和应用,增强数据的可用性,提高数据源的质量,为数据分析提供保障。3.3

大数据建模问题

数据分析的核心内容之一

是数据建模,通过分析现有数据的统计和语义特征,找出其中的规律,再将其概括为抽象的数据分析模型,进而为数据分析提供依据。大数据分析处理的是海量数据,由于海量数据的存在,过去的单个或少数几个模型组合已经不能适应大数据分析的需要,通过构建由众多模型构成的模型库是解决海量数据分析的有效办法。

此外,模型构建与数据分析相互影响,相互促进。一方面,数据仅是对行为习惯的描述和表达,通过数据分析,能发现人们行为习惯的转变,可以通过对过去已经采集和存储的数据进行深入分析,挖掘出数据背后的规律特征,用模型对其进行高度概括和抽象,形成包含众多模型的模型库。另一方面,大数据时代,数据总是在不知不觉地产生,并且由于数据的涌现性,现有的模型不能适应大数据分析的需要,因此,可以结合数据的动态变化对已有模型进行局部调整或修正,形成新的数据分析模型,或者直接提出适应大数据分析的新模型。当然,这一过程中,还包括随着其他社会因素的变化及其综合影响,大数据环境下人们行为习惯会发生彻底的改变或者涌现出一些全新的行为特征,因此需要对这些数据进行有效地监测和分析,找出新的共性特征和个性化的差异,构建与这些新的数据分析任务相适应的分析模型。3.4

大数据分析资源调度问题

大数据时代何时

会产生数据,产生多少数据,这些都是难以确定的问题。数据产生方式的动态性和涌现性是其重要特点,这也带来了数据分析的不确定性,因此,数据分析前和分析过程中需要很好地应对数据的不确定性问题。在大数据分析中,必须对其存储资源、计算资源进行有效配置并弹性地调度,以建立不确定环境下数据分析任务需求的动态响应机制。另外,考虑存储资源和计算分析的成本问题,总是希望以最小的成本获得最理想的分析结果,不浪费任何资源且实现最佳分析效果是大数据分析中资源调度的最理想状态。事实上,必须探索适应动态需求涌现应对机制的资源调度策略与算法,并不断地组合实施和优化,才能实现用户按需所取的资源调度与资源服务的目标,因此,满足服务质量的同时,兼顾服务成本,将是大数据分析资源分配与调度优化的重要标准和原则。3.5

专业大数据分析工具缺乏

随着计算机通信

技术和网络技术的迅猛发展,互联网、移动互联网、物联网等先进技术的广泛部署,信息技术手段记录下了人类活动轨迹的海量数据资源,它们是人类社会的宝贵财富,但由于数据分析技术的限制,对其进行充分地挖掘利用还只是人类的理想,是摆在人们面前亟待解决的重要问题。

。当今社会,古人云“工欲善其事,必先利其器”软件化工具是信息化时代人类处理各种事务的主要工具形式,通过将人类处理事务的全过程进行设计优化,并利用计算机编程实现,从而极大地降低了成本并提高了软件化工具的管理和传播利用效率。在计算机辅助信息分析的背景下,我们所熟知的软件工具有SPSS 、SAS 和R等,但在信息分析日益专业化和复杂化的今天,这些工具已经不能直接处理人类活动所产生的海量非结构化数据,而随着金融交易大数据、电子商务评论数据、电信服务大数据、医疗健康大数据和科学研究大数据等的长期积累和快速增长,使得目前还没有成熟的数据分析工具能够很好地应对当前人类对大数据分析的需要。

4大数据分析面临问题的对策

针对大数据分析过程中存在五个方面的问题,本

文提出了五种对策建议。4.1

部署云存储技术

大数据正以惊人的速度增

长,大数据的存储方式不仅影响数据分析处理的效率,也影响数据存储的成本。因此,需要研究高效率、低成本的数据存储方式

[30]

,云存储技术就满足了这一目

标,云存储专注于向用户提供以互联网为基础的在线存储服务,用户无需考虑存储容量、存储设备类型、数据存储位置以及数据的可用性、可靠性和安全性等繁琐的底层技术细节,根据需要付费就可以从云存储服务提供商那里获得近乎无限大的存储空间和企业级的服务质量

[31]

本文所说的云存储指的是云计算环境下分布式的存储架构体系。数据中心是云计算环境下分布式存储的基础,云计算环境下的分布式存储研究数据在数据中心上的组织和管理。从不同角度可以对数据存储中心进行不同的划分。依据数据中心中担任数据包的路由转发功能的节点类型看,可以把数据中心网络分为三种:以交换机为中心的结构、以服务器为中心的结构以及混合结构

[32]

。从系统建设角度看,由于历史遗留

存储信息系统的缘故,云存储的数据中心架构主要由传统的数据中心的优化、基于云计算的数据中心或两者并存三种形态出现。

在存储服务的提供过程中,按用户服务内容的不同,可以将云存储用户划分为存储用户和云计算用户

两类,存储用户只需要云服务提供商提供简单快捷的数据存储服务,而云计算用户则先在云端进行数据存储,为计算服务做准备。基于云计算理念构建的数据中心将是云存储服务的核心,如图1所示,在并行编程模型的调度分割下,用并行数据库和分布式文件系统实现对结构化数据和非结构化数据的存储,进而以云服务等级协议为基础,通过云服务接口向云用户提供计算资源服务

探索。另外,宗威和吴锋认为大数据分析的前提必须要保障数据的质量,从流程、技术和管理视角讨论了大数据时代如何确保数据质量问题4.3

优化数据分析模型

[34]

在数据分析系统领域,数

据库、模型库和知识库是三大相互联系而又区别的概念。在数据分析系统已有知识库和模型库基础上,对数据库里存储的数据进行分析,得到数据分析结果,一方面将结果导入知识库作为知识储备,另一方面通过数据分析结果对模型库进行修正和丰富,三者之间形成动态的循环关系如图2所示

图2模型库与数据库、知识库的简化关系

模型库子系统包括模型库和模型库管理系统。顾名思义,模型库里包含众多的可用的模型,可以将其分

图1

大数据云存储模型

为简单模型与复杂模型、单一模型与组合模型。模型可以是基于传统的数理统计的数学模型,也可以是基于人工神经网络、遗传进化计算和模糊系统的计算智能模型。系统决策过程可根据实际决策问题的复杂性选择单个模型或多个广义模型进行组合决策

[35]

4.2提升数据可用性海量复杂数据是大数据分

析的对象,由于其产生方式的多样性,其中涉及不同信息系统、不同应用软件和传感网络等多源数据的高效采集与无缝整合。在每一个大数据分析项目中,都需要搜集数据以供分析,分析本身这一步是简单的,但数据的预分析则是难以把握的环节

[33]

。从

大数据分析的实际应用来看,数据量大且复杂,应用复杂的、组合的模型也不一定能在较短时间内满足数据分析的要求。因此,在大数据分析任务过程中,模型库的优化可以从两个方面进行理解:一是对现有模型的参数进行修正,让模型更好地满足数据分析的要求;二是不断增加模型的数量,通过模型之间的组合应用实现数据分析的目标。

随着数据类型的不断丰富,基于预测的分析已经IBM 基于大数据分不能完全满足大数据分析的需要,

析的加速器组件封装成软件包,并整合进IBM InfoS-phere BigInsights TM 和IBM InfoSphere Streams 两个大IBM 数据挖数据分析平台。尤其在数据挖掘过程中,

掘加速器提供了一系列流式处理语言运算符对实时数据进行排序记录,并且这些运算符将预测模型标记语言(predictive model markup language )文件描述的预测模型作为输入流,进而快速动态地对模型更新,为了实现无缝整合,加速器直接嵌入了IBM Infosphere 数据仓库

[36]

。本文所探讨的

数据可用性就是数据预分析要解决的问题,即解决数据一致性、精确性、完整性、时效性和实体同一性等问题。利用数据可用性这五个方面的内容,可以很好地对数据质量进行衡量。

从当前主要的大数据来源看,包括Web 数据、业务系统数据、传感网数据和科学实验数据四大类。其中,每一类数据源又会根据具体的工作或研究等的需要,将不同类型的数据或者相同类型数据中涉及不同信息系统或不同信息结构的数据进行有效地预处理,且随着数据的动态变化,对其相应地进行增减处理,满足上述数据一致性、精确性、完整性、时效性和实体同一性等数据质量指标的要求。提升数据可用性需要加强数据可用性的理论和技术两方面的研究,当前,有关大数据可用性的研究还比较少。李建中等提出了大数据可用性的五个挑战性研究问题,包括高质量大数据获取与整合的理论和技术、完整的大数据可用性理论体系、数据错误自动检测与修复的理论和技术、弱可用数据上近似计算的理论与技术和弱可用数据上的知识发掘与演化的机理

[29]

不断地优化数据分析的模型,通过模型库和模型库管理系统的配合使用,能够扩展数据分析模型对不断涌现出的大数据的分析处理能力。4.4

资源的弹性调度

从大数据的产生特点来看,

可以将大数据分析方面的需求划分为周期性需求和非周期性需求两类。周期性需求会定期出现,因此,可以

,从基础理论、算法和工程技术

各层面提出了大数据可用性领域严峻的挑战性研究问题,对大数据可用性的理论与技术研究进行了重要的

提早分配数据处理资源,满足数据分析需要。非周期性需求则具有突发性和偶然性,需要弹性地分配计算资源完成数据分析处理,因此,云计算资源管理成为应对大数据分析的核心问题。云计算是一种能够向各种互联网应用提供硬件服务、基础架构服务、平台服务、软件服务、存储服务的系统

[37]

数据用并行数据库和分布式文件系统分别进行存储;然后用数据可用性五个方面的标准去衡量搜集的原始数据的数据质量,将基于弱可用的数据分析方法整合进数据分析工具的功能之中,实现对弱可用数据的清洗和预处理;进而调用大数据分析工具的分析模型对新产生的数据进行分析处理,找出数据中暗藏的情报信号或已有重大问题的相关影响因素等,满足人们及时处理大数据的目标。

此外,由于大数据分析任务和分析过程的复杂性,在研发大数据分析工具过程中,必须从大数据本身的特点考虑大数据分析工具的开发和平台建设等相关问题。由于大数据类型和产生方式的差异,需要对大数据分析工具针对具体分析对象进行相应的设计和优化,保证分析工具对大数据分析任务的完全匹配和支持。

。在云计算服务领域,

计算资源作为服务资源进行提供,服务质量和服务成本是人们关注的两个主要问题。通过架构云计算的服务体系,以应对大数据时代周期性和非周期性数据分析的需求,按需对计算资源和信息资源进行弹性调度和分配,用最低的成本保障服务的实现。祝家钰等根据云计算的弹性化和虚拟化等新特性,综合考虑任务的性能QoS 和信任QoS ,提出一种在云计算环境下的任务调度机制,采用虚拟机迁移技术实现动态负载均衡

[38]

Google 公司2004年提出的MapReduce编程模型是最具代表性的批量计算模型。批量计算首先进行数据的存储,然后再对存储的静态数据进行集中计算。Hadoop 是典型的大数据批量计算架构,由HDFS 分布式文件系统负责静态数据的存储,并通过MapReduce将计算逻辑分配到各数据节点进行数据计算和价值发现

[39]

5结束语

大数据时代已经来临,社会各行各业都面临着前

所未有的数据量和数据分析需求。伴随着云计算领域倡导的软件即服务(Software as a service )、平台即服务(Platform as a service )、基础设施即服务(Infrastruc-ture as a service )以及一切即服务(X as a service )的快速发展,大数据分析受到社会越来越多的关注,分析即服务(Analytics as a service )逐渐发展并形成。在大数据分析与大数据应用的大背景下,美国著名知识管理学者达文波特在《哈佛商业评论》上发表文章对数据An-分析进行了深入地剖析,甚至提出了Analytics1.0、alytics2.0和Analytics3.0等概念,向人们展望了在云计算和大数据时代,数据分析将完全融入到企业产品的开发和服务的过程中,数据分析的价值需要得到更深层次的挖掘,并真正将数据分析的结果辅助于管理决策。本文只是对大数据分析领域已经存在的主要问题进行了梳理,由于数据产生方式的多样性和数据的动态演变,大数据分析的方法和技术也会随之变化,只有紧跟大数据发展的理论前沿和实践需要,运用大数据思维才能科学地把握大数据发展的走势,去有效地架构和驾驭大数据分析。

。MapReduce架构的程序能够在大量的普通配

置的计算机上实现并行化处理。这个系统在运行时只关心如何分割输入数据,在大量计算机组成的集群上的调度,集群中计算机的错误处理,管理集群中的计算机之间必要的通信

[10]

。在具体使用方面,用户不必关

注MapReduce如何进行数据分割、负载均衡、容错处理等细节,只需要将实际应用问题分解成若干可并行操作的子问题,设计相应的Map 和Reduce两个函数,就能将自己的应用程序运行在分布式系统上

[40]

大数据仍在不断的增长,尤其是以社交网络和移动平台应用为主,产生了海量的网络数据,网络大数据的产生与演变具有不确定性和涌现性,通过云计算技术能够有效地架构大数据,并以MapReduce编程模型对批量数据进行分割处理,以云计算服务质量等级协议为基础,弹性地调度计算资源以匹配数据分析需求,保障高质量服务的提供。4.5

研发大数据分析工具

数据分析的任务包括

描述性分析、预测性分析和规定性分析三种类型。大数据分析包含这三种类型的分析任务,但侧重对第三种规定性分析任务数据的分析。大数据集成分析平台是大数据分析的关键工具,它将处理这三种类型分析任务的能力集成到统一的分析平台,数据库厂商Tera-data 较早地开展了大数据集成分析平台方面的研究。

具体来看,专业化的大数据分析工具,应该具有强大的数据仓库支持,把海量的结构化数据和非结构化

参考文献

[1]Tom K.Big Data Is a Big Deal [EB /OL].[2014-03-21].

http ://www.whitehouse.gov /blog/2012/03/29/big-data -big -deal.

[2]Executive O O T P.Big Data Across the Federal Government

[EB /OL].[2014-03-21].http ://www.whitehouse.gov /sites /default/files/microsites/ostp/big_data_fact_sheet_final_1.pdf.

[3]张春磊,杨小牛.大数据分析(BDA )及其在情报领域的应用

·104·

[J ].中国电子科学研究院学报,2013,8(1):18-22.

情报杂志

2014(2):129-132.[J ].新闻大学,

第34卷

.中国[4]李广健,化柏林.大数据分析与情报分析关系辨析[J ]

2014,40(5):14-22.图书馆学报,

[5]顾君忠.大数据与大数据分析[J ].软件产业与工程,2013

(4):17-22.

[6]包昌火.情报研究方法论[M ].北京:科学技术文献出版社,

1990:5.[7]李广健,杨

林.大数据视角下的情报研究与情报研究技术

[J ].图书与情报,2012(6):1-8.

[8]黄晓斌,钟辉新.大数据时代企业竞争情报研究的创新与发

2012(6):9-14.展[J ].图书与情报,

[9]罗军舟,宋爱波,等.云计算:体系架构与关键技术金嘉晖,

[J ].通信学报,2011,32(7):3-21.[10]王秀磊,刘

.中兴通讯技术,2013鹏.大数据关键技术[J ]

(4):17-21.

[11]覃雄派,——RDBMS与Ma-杜小勇,等.大数据分析—王会举,

pReduce的竞争与共生[J ].软件学报,2012,23(1):32-45.[12]Lee Y ,Madnick S ,Wang RE.A Cubic Framework for the Chief

Data Officer :Succeeding in a World of Big Data [J ].MIS Quarterly Executive ,2014,13(1):1-13.

[13]Dursun D ,Haluk D.Data ,Information and Analytics as Services

[J ].Decision Support Systems ,2013,55(1):359-363.[14]Thomsa H D.Analytics 3.0[J ].Harvard Business Review,

2013(12):65-72.

.计算[15]王宏志,樊文飞.复杂数据上的实体识别技术研究[J ]

2011,34(10):1143-1152.机学报,

[16]William R,Derek X W ,Dou W.Social Media Analytics for

Competitive Advantage [J ].Computer and Graphics ,2014,38:328-331.

[17]RaymondY K L ,Chunping L ,Stephen S Y L.Social Analytics :

Learning Fuzzy Product Ontologies for Aspect -oriented Senti-ment Analysis [J ].Decision Support Systems ,2014,65:80-94.

[18]Belaud J ,Negny S ,Dupros F.Collaborative Simulation and Sci-entific Big Data Analysis :Illustration for Sustainability in Natural Hazards Management and Chemical Process Engineering [J ].Computers in Industry ,2014,65(3):521-535.

[19]Zhao Jiaqi ,Wang Lizhe ,Tao Jie.A Security Framework in G -

hadoop for Big Data Computing [J ].Journal of Computer and System Sciences ,2014,80(5):994-1007.

[20]李晨晖,陈超泉.大数据知识服务平台构建关键技术崔建明,

J ].情报资料工作,2013(2):29-34.研究[[21]刘[22]聂

瑜,康朝贵,王法辉.大数据驱动的人类移动模式和模型磊.新媒体环境下大数据驱动的受众分析与传播策略J ].武汉大学学报:信息科学版,2014(6):660-666.研究[

[23]辛宇,郑——基于汽车行鑫.大数据驱动与客户生命周期—

J ].河南社会科学,2014(3):71-77.业的分析[

J ].图书[24]朱维乔.大数据驱动的特色资源服务平台架构研究[

2014,44(4):77-81.馆研究,

[25]Douglas C C.An Open Framework for Dynamic Big -data -driv-en Application Systems (dbddas )Development [C ]//14thAnnu-al International Conference on Computational Science [A ].AM-STERDAM:ELSEVIERSCIENCE BV ,2014:1246-1255.[26]Chawla N V ,Davis D A.Bringing Big Data to Personalized

Healthcare :a Patient -centered Framework [J ].Journal of Gen-eral Internal Medicine ,2013(28):660-665.

[27]Lusher S J ,Mcguire R,Van schaik RC,et al.Data -driven Me-dicinal Chemistry in the Era of Big Data [J ].Drug Discovery Today ,2014,19(7):859-868.[28]王

珊,王会举,等.架构大数据:挑战、现状与展望覃雄派,[J ].计算机学报,2011,34(10):1741-1752.

[29]李建中,刘显敏.大数据的一个重要方面[J ].计算机研究与

2013,50(6):1147-1162.发展,

[30]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重

2012,27(6):647-657.大战略领域[J ].中国科学院院刊,

J ].计算[31]王德政,周宁宁.云计算环境下的数据存储[申山宏,

2011,21(4):81-84.机技术与发展,[32]王意洁,周孙伟东,

松,等.云计算环境下的分布存储关键技

J ].软件学报,2012,23(4):962-986.术[

[33]Jules J B.Principles of Big Data :Preanalyzing ,Sharing ,and An-alyzing Complex Information [M ].Waltham :Morgan Kauf-mann ,2013:129.[34]宗

威,吴

峰.大数据时代下数据质量的挑战[J ].西安交群,黄

铮.基于SDSS 的高速公路养护管理系

2013,33(5):38-43.通大学学报:社会科学版,[35]邹国平,邹

J ].交通运输工程学报,2006,6(3):47-50.统结构[

[36]IBM Accelerators for Big Data [EB /OL].[2014-06-13].ht-tp ://public.[37]梁

dhe.

ibm.

com /common/ssi/ecm/en/

imd14414usen /IMD14414USEN.PDF.

.计爽.基于SOA 的云计算框架模型的研究与实现[J ]

丹,王

飞.云计算下负载均衡的多维QoS 约束

2011,47(35):92-94.算机工程与应用,[38]祝家钰,肖

89.

[39]孙大为,郑纬民.大数据流式计算:关键技术及系统张广艳,

J ].软件学报,2014,25(4):839-862.实例[[40]钱

.计进,苗夺谦,张泽华.云计算环境下知识约简算法[J ]

(责编:刘影梅

2011,34(12):2332-2343.算机学报,

J ].计算机工程与应用,2013,49(9):85-任务调度机制[


相关内容

  • 2017年智慧旅游现状及发展趋势分析 (目录)
  • 中国智慧旅游行业现状调研及未来发展趋 势分析报告(2017-2023) 报告编号:2089829 行业市场研究属于企业战略研究范畴,作为当前应用最为广泛的咨询服务,其研究成果以报告形式呈现,通常包含以下内容: 一份专业的智慧旅游行业研究报告(2017年智慧旅游现状及发展趋势分析),注重指导企业或投资 ...

  • 医生职业责任保险市场现状与发展对策
  • 内容摘要:本文通过在对我国医生职业责任保险市场进行理论分析的基础上,从两方面分析了市场发展不乐观的现状.本文认为造成需求方投保不积极的主要原因有:医院对自己信誉的担忧:责任风险相对偏小:保险产品险种单一.造成供给方保险产品销售难的主要原因有:道德风险的存在造成医生职业责任保险的纯保险费率偏高:经验数 ...

  • 大数据影响国家治理的三大问题
  • 大数据影响国家治理的三大问题 针对大数据时代国家治理的发展,中国人民大学信息资源管理学院教授安小米在<学术前沿>上发文,从"政府数据开放利用""政务数据连续性管理""大数据背景下国家机关个人信息保护"探索了大数据时代信息治理存在 ...

  • 担保公司业务中存在的问题及对策研究
  • 担保公司业务中存在的问题及对策研究 作者:孙美茹 来源:<中国集体经济>2013年第03期 摘要:改革开放以来,我国经济快速发展,银行资金流动加快,贷款总量增长迅速.银行为保证其资产的安全性.流动性以及效益性,商业银行发放贷款大部分需要借贷方提供贷款担保.担保公司的出现以及发展为我国的中 ...

  • 三维解构国内大数据应用现状
  • 随着大数据神秘面纱揭开,人们意识到大数据价值实为大数据科学挖掘之后的应用.应用,能推动大数据技术的创新和产业的发展,是大数据在经济发展.社会进步中显现价值的关键环节.大数据应用已延伸至各个领域,总的可以借助一个三维的XYZ发展战略来概括,即政府.行业及部委. 地方政府显灵活 大数据应用破难题X轴-政 ...

  • 浅析我国农村基层自治存在的问题及对策
  • 题 目浅析我国农村基层自治存在的问题及 姓 名 唐仁焕 学 号 14250004 院(系) 工商管理学院 专 业 公共事业管理 任课教师 柳成超 2016年1月1日 目录 一.农村留守儿童教育现状 ................................................... ...

  • 农民工选举权保障与户籍制度改革
  • 新生代农民工选举权保障与户籍制度改革 韩金哲 丁 玲 (江苏警官学院,江苏 南京 210031) 摘 要:当下大量新生代农民工人户分离,进驻城市务工,业已成为城市的中间层.但是,对市场经济的过分追捧,政治文化发展的滞后,自身面临的窘境以及传统户籍制度的阻隔与法律法规的缺陷使新生代农民工的选举权克减问 ...

  • 四年级辅导教案
  • 四年级数学上册辅导教案 四年级数学上册辅导教案 第一单元 大数的认识 一 重点.关键 教学重点:万级数的读.写法. 教学关键:把个级数的读.写推广到万级. 二 教学要求 本单元是本册教材的起始单元,是在学生认识和掌握万以内数的基础上学习的,生活中大数广泛存在,对大数认识既是万以内数的认识的巩固和扩展 ...

  • 中学文言文教学现状及对策
  • 中学文言文教学现状及对策 [摘要] 古文.古诗词是中华民族五千年的瑰丽文化中内容最丰富,思想最深刻的宝贵遗产.搞好中学文言文教学,是全体语文老师肩负的使命和神圣职责,也是弘扬传统,繁荣社会主义文化义不容辞的义务.中学文言文教学存在教学内容不平衡.教学效果不明显.学生学习积极性不高.课堂气氛沉闷.拓展 ...