电信运营商大数据应用和实践

电信运营商大数据应用和实践

钱岭

中国移动通信有限公司研究院

2012年6月

目录

1323

大数据处理技术发展概况电信运营商大数据需求中国移动大数据应用实践

全球数据量高速增长,全球数据量高速增长,信息成为企业战略资产

•信息社会的信息增量在高速发展

•随着互联网/移动互联网、数码设备、物联网/传感器等技术的发展,全球数据生产在高速增长•据IDC 研究报告,未来10年全球数据量将以40+%的速度增长,2020年全球数据量将达到35ZB (35,000,000PB ),为2009年(0.8ZB )的44倍

•信息成为企业战略资产,市场竞争和政策管制要求越来越多的数据被长期保存

•企业越来越需要长期保存各类数据,以进行用户行为分析、市场研究,信息服务企业更是需要积累越来越多的信息资源

•为了遵从萨巴斯、上网日志审计等管制要求,企业需要长期保存越来越多的生产数据

大数据实时处理技术

①发生了什么?

②为什么会发生?

③将会发生什么?

④正在发生什么?

⑤希望发生什么?

战略与战术的结合

数据仓库的几项趋势:性能优化、内存数据库、实时海量数据分析主要是批处理批处理统计查询主要关键技术 基于内存的分

析:访问内存获得数据而非磁盘,如SAP HANA 并行计算:采用并行计算

大规模并行计算技术,如Facebook 。

SAP HANA/内存数据库:单PC 服务器(32核、0.5T 内存、1.3TB 数据)每小时完成10000个查询,每个查询在秒时间

---Gartner 2011

事件驱动

动态查询分析动态查询功能逐渐增加分析预测预测挖掘模型持续数据更新及快快速响应查询速响应

Facebook Insight for Website /HBase 数据库使用大规模HBase 集群,每天处理200亿消息

大数据非结构化数据大数据非结构化数据的管理结构化数据的管理

10年间,年间,在非结构化数据占比加大的同时,在非结构化数据占比加大的同时,业界对非结构化数据的重视极度上升,业界对非结构化数据的重视极度上升,超越结构化数据

主要关键技术 低成本低成本、、海量数据存

储管理。储管理。单系统需要管理高达10PB 甚至更大规模的数据 搜索引擎技术(搜索引擎技术(IR )。

包括自然语言理解、索引等技术 大规模并行计算:采大规模并行计算

用大规模并行计算技术

目前,基于Google 搜索引擎基础设施研发的开源软件Hadoop 系列是非结构化数据处理的最

佳工具,具备成本低、存储规模大、易集成、相关工具多的特点。

目前Hadoop目前Hadoop是大数据领域的事实标准Hadoop 是大数据领域的事实标准

可扩展性好:最大可以达到

4000节点

通用性强:可以用于各种类型数据的处理,MapReduce 几乎就是标准接口

系统高可用,数据可靠:数据三个副本,自动负载均衡 易于管理:磁盘和节点自动管理

社区活跃,衍生产品多

•••••

Yahoo 最大Hadoop 集群约4000节点,所有Hadoop 服务器超过1万台。用于完成从广告推荐,用户行为分析在内的各种计算

Facebook 拥有超过2000节点的至少2个Hadoop 集群,用于数据批处理和即席查询,同时将HBase 用于实时数据统计

淘宝拥有超过2000节点的Hadoop 集群,用于替代现有的Oracle 系统,完成数据分析工作

eBay 部署超过500节点的Hadoop 集群(Cloudera 提供),用于点击流分析等,目前超过1500节点

百度拥有超过4000台服务器的Hadoop 集群,用于日志分析、机器学习等应用

目录

3123

大数据处理技术发展概况电信运营商大数据需求中国移动大数据应用实践

海量数据的出现、海量数据的出现、数据结构的改变,数据结构的改变,对数据管理及数据管理及分析带来挑战

•传统数据仓库难以满足日益增长的业务数据带来的存储、传统数据仓库难以满足日益增长的业务数据带来的存储、计算需求

–随着业务发展数据量的增加,随着应用复杂导致的数据量增加,这些数据量导致了数据存储和处理压力;数据仓库无法线性扩容,管理难度加大,成本高扩容压力大,效率下降等

•传统数据仓库难以满足非结构化数据的处理要求

–移动互联网和物联网业务带来的非结构化数据、半结构化数据(如网页)对分析系统提出了不同以往的处理要求,如自然语言处理、网页分类等

电信运营商大数据应用和实践

钱岭

中国移动通信有限公司研究院

2012年6月

目录

1323

大数据处理技术发展概况电信运营商大数据需求中国移动大数据应用实践

全球数据量高速增长,全球数据量高速增长,信息成为企业战略资产

•信息社会的信息增量在高速发展

•随着互联网/移动互联网、数码设备、物联网/传感器等技术的发展,全球数据生产在高速增长•据IDC 研究报告,未来10年全球数据量将以40+%的速度增长,2020年全球数据量将达到35ZB (35,000,000PB ),为2009年(0.8ZB )的44倍

•信息成为企业战略资产,市场竞争和政策管制要求越来越多的数据被长期保存

•企业越来越需要长期保存各类数据,以进行用户行为分析、市场研究,信息服务企业更是需要积累越来越多的信息资源

•为了遵从萨巴斯、上网日志审计等管制要求,企业需要长期保存越来越多的生产数据

大数据实时处理技术

①发生了什么?

②为什么会发生?

③将会发生什么?

④正在发生什么?

⑤希望发生什么?

战略与战术的结合

数据仓库的几项趋势:性能优化、内存数据库、实时海量数据分析主要是批处理批处理统计查询主要关键技术 基于内存的分

析:访问内存获得数据而非磁盘,如SAP HANA 并行计算:采用并行计算

大规模并行计算技术,如Facebook 。

SAP HANA/内存数据库:单PC 服务器(32核、0.5T 内存、1.3TB 数据)每小时完成10000个查询,每个查询在秒时间

---Gartner 2011

事件驱动

动态查询分析动态查询功能逐渐增加分析预测预测挖掘模型持续数据更新及快快速响应查询速响应

Facebook Insight for Website /HBase 数据库使用大规模HBase 集群,每天处理200亿消息

大数据非结构化数据大数据非结构化数据的管理结构化数据的管理

10年间,年间,在非结构化数据占比加大的同时,在非结构化数据占比加大的同时,业界对非结构化数据的重视极度上升,业界对非结构化数据的重视极度上升,超越结构化数据

主要关键技术 低成本低成本、、海量数据存

储管理。储管理。单系统需要管理高达10PB 甚至更大规模的数据 搜索引擎技术(搜索引擎技术(IR )。

包括自然语言理解、索引等技术 大规模并行计算:采大规模并行计算

用大规模并行计算技术

目前,基于Google 搜索引擎基础设施研发的开源软件Hadoop 系列是非结构化数据处理的最

佳工具,具备成本低、存储规模大、易集成、相关工具多的特点。

目前Hadoop目前Hadoop是大数据领域的事实标准Hadoop 是大数据领域的事实标准

可扩展性好:最大可以达到

4000节点

通用性强:可以用于各种类型数据的处理,MapReduce 几乎就是标准接口

系统高可用,数据可靠:数据三个副本,自动负载均衡 易于管理:磁盘和节点自动管理

社区活跃,衍生产品多

•••••

Yahoo 最大Hadoop 集群约4000节点,所有Hadoop 服务器超过1万台。用于完成从广告推荐,用户行为分析在内的各种计算

Facebook 拥有超过2000节点的至少2个Hadoop 集群,用于数据批处理和即席查询,同时将HBase 用于实时数据统计

淘宝拥有超过2000节点的Hadoop 集群,用于替代现有的Oracle 系统,完成数据分析工作

eBay 部署超过500节点的Hadoop 集群(Cloudera 提供),用于点击流分析等,目前超过1500节点

百度拥有超过4000台服务器的Hadoop 集群,用于日志分析、机器学习等应用

目录

3123

大数据处理技术发展概况电信运营商大数据需求中国移动大数据应用实践

海量数据的出现、海量数据的出现、数据结构的改变,数据结构的改变,对数据管理及数据管理及分析带来挑战

•传统数据仓库难以满足日益增长的业务数据带来的存储、传统数据仓库难以满足日益增长的业务数据带来的存储、计算需求

–随着业务发展数据量的增加,随着应用复杂导致的数据量增加,这些数据量导致了数据存储和处理压力;数据仓库无法线性扩容,管理难度加大,成本高扩容压力大,效率下降等

•传统数据仓库难以满足非结构化数据的处理要求

–移动互联网和物联网业务带来的非结构化数据、半结构化数据(如网页)对分析系统提出了不同以往的处理要求,如自然语言处理、网页分类等


相关内容

  • 2017高校邦大数据营销与创新答案
  • 本次得分 100.00 分,满分 100.00 分. 大数据营销与创新结课测验答案期末测试答案 亲爱的同学们,你们好! 从今天开始,我们将和您一起开始<大数据营销与创新[2017寒假班]>的课程学习了,我们将带您感受<大数据营销与创新[2017寒假班]>的美丽,进<大数 ...

  • 信息进村入户这么件大好事,为何做大这么难?
  • 信息进村入户是农业部为贯彻落实党的十八届三中全会精神和2014年中央一号文件的有关要求,为加快完善农业信息服务体系,满足农民群众和新型农业经营主体信息需求而开展的一项重大工程. 信息进村入户是一件大大的好事,其目的是让农村跟城市一样大步跨入信息时代,享受丰富的互联网产品,享受从网上购物的实惠,网上缴 ...

  • IPTV项目分析及市场推广方案
  • IPTV项目分析及市场推广方案 ⅠIPTV项目分析 中国IPTV从起步到现在,断断续续,起起伏伏地走过13年的历程.如今终于在用户数和政策上获得双重突破.用户数上,达到了千万量级,从而使规模效益成为可能.政策上,如果不提纷纷扰扰中各方利益,单就对IPTV产业而言,可以说是摆脱了重重枷锁.轻装上阵.I ...

  • 基于业财融合的电信业管理会计指引体系搭建与实施研究
  • 摘要:本文首先回顾了近年来财政部就我国管理会计体系建设提出的指导意见和基本指引,在此政策背景下,从行业发展.资源投放.战略转型等角度出发指出电信业管理会计指引体系建设的内在必要性.进一步阐述了管理会计在决策信息的融合.支持与经营活动的管理等三方面的职能以及基于业财融合的管理会计目标.最后,提出从理论 ...

  • 基于电信运营商视角的物联网定义及其技术发展趋势分析_金永生
  • "物联网技术与发展" 专题 基于电信运营商视角的物联网[摘要]计算模式存在十五年周期定律,物联网是信息技术产业的第三次变革.文章梳理了近年来物联网的研究成果,从"说文解字"和电信运营商实践等两个角度提出物联网的定义及认识,针对近年来国内物联网研究成果的不足,从 ...

  • 隔耳有"墙"--从美国FCC新规谈个人信息保护新趋势
  • 2016年12月2日,美国联邦通信委员会(Federal Communications Commission,以下简称"FCC")正式公布"宽带和其它电信服务中用户隐私保护规则"(Protecting the Privacy of Customers of B ...

  • 电信专业大学生暑期设备维护社会实践报告
  • 一.实践课题:设备维护 课题背景:epon技术随着电信技术的开展所涉及的范围越来越宽泛,包括语音,宽带,itv等等一系列的实用技术.由此而带来的就是epon设备以及其他电信设备的大量增多,所以设备的安装调试以及日常维护工作显得尤为重要. 二.实践目的:了解电信设备的安装维护以及交换专业coms系统等 ...

  • 电子与通信工程就业方向
  • 电子通信工程专业发展及就业方向汇总 一.SP产品经理 职业概述:SP 可视电话能够让用户"耳闻其声""眼观其色" . ,可实现古人所谓的"天涯若比邻" 的佳境,所以被看作是3G 的杀手级应用!SP 产品经理一般负责规划研发移动增值业务产 品 ...

  • 电信客户满意度评测指标研究
  • 中国科学技术信息研究所 硕士学位论文 电信客户满意度评测指标研究 姓名:兰敏 申请学位级别:硕士 专业:情报学 指导教师:宋振峰 20040830 电信客户满意度评测指标研究 摘 要 本文是一篇探索建立电信客户满意度指标评价模型的论文通过定性与定量相结合的研究方法收集数据效度检验法多元回归等统计分析 ...