电信运营商大数据应用和实践
钱岭
中国移动通信有限公司研究院
2012年6月
目录
1323
大数据处理技术发展概况电信运营商大数据需求中国移动大数据应用实践
全球数据量高速增长,全球数据量高速增长,信息成为企业战略资产
•信息社会的信息增量在高速发展
•随着互联网/移动互联网、数码设备、物联网/传感器等技术的发展,全球数据生产在高速增长•据IDC 研究报告,未来10年全球数据量将以40+%的速度增长,2020年全球数据量将达到35ZB (35,000,000PB ),为2009年(0.8ZB )的44倍
•信息成为企业战略资产,市场竞争和政策管制要求越来越多的数据被长期保存
•企业越来越需要长期保存各类数据,以进行用户行为分析、市场研究,信息服务企业更是需要积累越来越多的信息资源
•为了遵从萨巴斯、上网日志审计等管制要求,企业需要长期保存越来越多的生产数据
大数据实时处理技术
①发生了什么?
②为什么会发生?
③将会发生什么?
④正在发生什么?
⑤希望发生什么?
战略与战术的结合
数据仓库的几项趋势:性能优化、内存数据库、实时海量数据分析主要是批处理批处理统计查询主要关键技术 基于内存的分
析:访问内存获得数据而非磁盘,如SAP HANA 并行计算:采用并行计算
大规模并行计算技术,如Facebook 。
SAP HANA/内存数据库:单PC 服务器(32核、0.5T 内存、1.3TB 数据)每小时完成10000个查询,每个查询在秒时间
---Gartner 2011
事件驱动
动态查询分析动态查询功能逐渐增加分析预测预测挖掘模型持续数据更新及快快速响应查询速响应
Facebook Insight for Website /HBase 数据库使用大规模HBase 集群,每天处理200亿消息
大数据非结构化数据大数据非结构化数据的管理结构化数据的管理
10年间,年间,在非结构化数据占比加大的同时,在非结构化数据占比加大的同时,业界对非结构化数据的重视极度上升,业界对非结构化数据的重视极度上升,超越结构化数据
主要关键技术 低成本低成本、、海量数据存
储管理。储管理。单系统需要管理高达10PB 甚至更大规模的数据 搜索引擎技术(搜索引擎技术(IR )。
包括自然语言理解、索引等技术 大规模并行计算:采大规模并行计算
用大规模并行计算技术
目前,基于Google 搜索引擎基础设施研发的开源软件Hadoop 系列是非结构化数据处理的最
佳工具,具备成本低、存储规模大、易集成、相关工具多的特点。
目前Hadoop目前Hadoop是大数据领域的事实标准Hadoop 是大数据领域的事实标准
可扩展性好:最大可以达到
4000节点
通用性强:可以用于各种类型数据的处理,MapReduce 几乎就是标准接口
系统高可用,数据可靠:数据三个副本,自动负载均衡 易于管理:磁盘和节点自动管理
社区活跃,衍生产品多
•••••
Yahoo 最大Hadoop 集群约4000节点,所有Hadoop 服务器超过1万台。用于完成从广告推荐,用户行为分析在内的各种计算
Facebook 拥有超过2000节点的至少2个Hadoop 集群,用于数据批处理和即席查询,同时将HBase 用于实时数据统计
淘宝拥有超过2000节点的Hadoop 集群,用于替代现有的Oracle 系统,完成数据分析工作
eBay 部署超过500节点的Hadoop 集群(Cloudera 提供),用于点击流分析等,目前超过1500节点
百度拥有超过4000台服务器的Hadoop 集群,用于日志分析、机器学习等应用
目录
3123
大数据处理技术发展概况电信运营商大数据需求中国移动大数据应用实践
海量数据的出现、海量数据的出现、数据结构的改变,数据结构的改变,对数据管理及数据管理及分析带来挑战
•传统数据仓库难以满足日益增长的业务数据带来的存储、传统数据仓库难以满足日益增长的业务数据带来的存储、计算需求
–随着业务发展数据量的增加,随着应用复杂导致的数据量增加,这些数据量导致了数据存储和处理压力;数据仓库无法线性扩容,管理难度加大,成本高扩容压力大,效率下降等
•传统数据仓库难以满足非结构化数据的处理要求
–移动互联网和物联网业务带来的非结构化数据、半结构化数据(如网页)对分析系统提出了不同以往的处理要求,如自然语言处理、网页分类等
电信运营商大数据应用和实践
钱岭
中国移动通信有限公司研究院
2012年6月
目录
1323
大数据处理技术发展概况电信运营商大数据需求中国移动大数据应用实践
全球数据量高速增长,全球数据量高速增长,信息成为企业战略资产
•信息社会的信息增量在高速发展
•随着互联网/移动互联网、数码设备、物联网/传感器等技术的发展,全球数据生产在高速增长•据IDC 研究报告,未来10年全球数据量将以40+%的速度增长,2020年全球数据量将达到35ZB (35,000,000PB ),为2009年(0.8ZB )的44倍
•信息成为企业战略资产,市场竞争和政策管制要求越来越多的数据被长期保存
•企业越来越需要长期保存各类数据,以进行用户行为分析、市场研究,信息服务企业更是需要积累越来越多的信息资源
•为了遵从萨巴斯、上网日志审计等管制要求,企业需要长期保存越来越多的生产数据
大数据实时处理技术
①发生了什么?
②为什么会发生?
③将会发生什么?
④正在发生什么?
⑤希望发生什么?
战略与战术的结合
数据仓库的几项趋势:性能优化、内存数据库、实时海量数据分析主要是批处理批处理统计查询主要关键技术 基于内存的分
析:访问内存获得数据而非磁盘,如SAP HANA 并行计算:采用并行计算
大规模并行计算技术,如Facebook 。
SAP HANA/内存数据库:单PC 服务器(32核、0.5T 内存、1.3TB 数据)每小时完成10000个查询,每个查询在秒时间
---Gartner 2011
事件驱动
动态查询分析动态查询功能逐渐增加分析预测预测挖掘模型持续数据更新及快快速响应查询速响应
Facebook Insight for Website /HBase 数据库使用大规模HBase 集群,每天处理200亿消息
大数据非结构化数据大数据非结构化数据的管理结构化数据的管理
10年间,年间,在非结构化数据占比加大的同时,在非结构化数据占比加大的同时,业界对非结构化数据的重视极度上升,业界对非结构化数据的重视极度上升,超越结构化数据
主要关键技术 低成本低成本、、海量数据存
储管理。储管理。单系统需要管理高达10PB 甚至更大规模的数据 搜索引擎技术(搜索引擎技术(IR )。
包括自然语言理解、索引等技术 大规模并行计算:采大规模并行计算
用大规模并行计算技术
目前,基于Google 搜索引擎基础设施研发的开源软件Hadoop 系列是非结构化数据处理的最
佳工具,具备成本低、存储规模大、易集成、相关工具多的特点。
目前Hadoop目前Hadoop是大数据领域的事实标准Hadoop 是大数据领域的事实标准
可扩展性好:最大可以达到
4000节点
通用性强:可以用于各种类型数据的处理,MapReduce 几乎就是标准接口
系统高可用,数据可靠:数据三个副本,自动负载均衡 易于管理:磁盘和节点自动管理
社区活跃,衍生产品多
•••••
Yahoo 最大Hadoop 集群约4000节点,所有Hadoop 服务器超过1万台。用于完成从广告推荐,用户行为分析在内的各种计算
Facebook 拥有超过2000节点的至少2个Hadoop 集群,用于数据批处理和即席查询,同时将HBase 用于实时数据统计
淘宝拥有超过2000节点的Hadoop 集群,用于替代现有的Oracle 系统,完成数据分析工作
eBay 部署超过500节点的Hadoop 集群(Cloudera 提供),用于点击流分析等,目前超过1500节点
百度拥有超过4000台服务器的Hadoop 集群,用于日志分析、机器学习等应用
目录
3123
大数据处理技术发展概况电信运营商大数据需求中国移动大数据应用实践
海量数据的出现、海量数据的出现、数据结构的改变,数据结构的改变,对数据管理及数据管理及分析带来挑战
•传统数据仓库难以满足日益增长的业务数据带来的存储、传统数据仓库难以满足日益增长的业务数据带来的存储、计算需求
–随着业务发展数据量的增加,随着应用复杂导致的数据量增加,这些数据量导致了数据存储和处理压力;数据仓库无法线性扩容,管理难度加大,成本高扩容压力大,效率下降等
•传统数据仓库难以满足非结构化数据的处理要求
–移动互联网和物联网业务带来的非结构化数据、半结构化数据(如网页)对分析系统提出了不同以往的处理要求,如自然语言处理、网页分类等