大数据及其在教育中的应用

ZHUANTIYANTAO

专题研讨

大数据及其在教育中的应用

文陆笪

〔摘要〕目前对大数据的定义有三种,分别从数据体量、复杂性程度、价值这三个角度来界定, 反映了大

数据三个最主要的特性。大数据在教育领域的主要应用是教育数据挖掘和学习分析。今后要加强多个来源的数据库整合,充分利用在线数据开展教育舆情分析等研究,在确保数据安全的前提下与专业数据公司开展合作。〔关键词〕大数据

数据挖掘

学习分析

一、大数据的定义和类型1. 定义

“大数据”概念第一次创造出来是在2008年9月4日,谷歌成立10年前际,《自然》推出了大数据专辑,包括8篇大数据专题文章加上1篇编者按。虽然该专辑并没有直接提出大数据的定义,但是从互联网技术、网络经济学、超级计算、环境科学、生物医药等多个方面介绍了海量数据带来的挑战。概括而言,科学研究产生的数据集越来越大,并且数据越来越复杂,使得研究人员都转向依靠数据挖掘工具、在线的团队合作(如维基百科)和复杂的可视化技术。每年的研究数据聚合起来形成了大数据资源,依靠研究者自身去花大量精力记录和管理数据已经跟不上发展,科学研究数据的长期管理和维护需要有大机构的支持。但是政府、社会机构对此还没有充分认识,文化还跟不上数据的发展。这组文章的目的是引起各方面对数据管理和分析的重视,指出充分利用数据实际上是需要额外建设大量基础设施、需要经费和资源支持、需要建立标准、需要工具和培训、需要专业的数据支持服务的。[1]

目前对大数据的定义有三种,分别从数据体量、复杂性程度、价值这三个角度来界定什么是大

上海教育科研2013.9

数据。

第一次提出大数据的定义并且估计大数据的商业价值的是全球著名咨询公司麦肯锡。2011年麦肯锡全球研究院发布了《大数据:创新、竞争和生产力

[2]

的下一个新领域》研究了数据和文档的规模,同时,

分析了处理这些数据能够释放出的潜在价值。麦肯锡对大数据的定义是从数据集的“大体量”入手的:大数据是指那些规模大到传统的数据库软件工具已经无法采集、存储、管理和分析的数据集。麦肯锡故意采用了主观的定义,没有定义多大的数据集才是大数据,所以这个定义中的“大”是动态的概念。他们的假设是,随着技术的进步,随着时间的推移,符合大数据界定的数据集大小也将增加。还有,不同部门对大数据的界定也可能不同,这取决于他们通常用什么软件,以及某个特定产业的数据库是多大的。在考虑这些因素后,许多部门的大数据规模将从几十个TB 到多个PB (几千个TB )。维基百科采纳了麦肯锡的定义,认为大数据是一组庞大而复杂的数据集的集合,大且复杂到难以用现有的数据库管理工具或传统的数据处理应用来处理。[3]我国学界也采用了这一定义[4]。

德勤咨询技术负责人罗伯特·福莱对大数据的

5

SHANGHAI JIAOYU KEYAN

专题研讨

ZHUANTIYANTAO

来自日常生活,特别是互联网公司的服务。谷歌每天要处理24PB 的数据,Facebook 每天更新的照片超过1000万张[10],生成300TB 以上的日志数据,百度每天大约要处理几十个PB 的数据[11]。

感知数据。传感网或物联网①的蓬勃发展是(3)移动大数据的又一推动力。进入移动互联网时代后,平台的感知功能和基于位置的服务普及产生了大量感知数据,各个城市的视频监控每时每刻都在采集巨量的流媒体数据,工业监控也是大数据的重要来源,与互联网数据产生了重叠。

科学实验是科技人员设计的,如何采集数据、处理数据事先都已想好了,不管是检索还是模式识别,都有一定的规律可循。[12]而网络大数据和感知数据有许多不同于自然科学数据的特点,包括多源异构、交互性、实效性、社会性、突发性和高噪声等,不但非结构化数据多,而且数据的实时性强,大量数据都是随机动态产生。所以一般而言,社会科学的大数据分析,特别是根据Web 数据做经济形势、安全形势、社会群体事件的预测,比科学实验的数据分析更困

[13]难。需要新的技术来处理分析这些新记录的事件,

“复杂性程度大”入手的。他在2012年提定义是从

出,过去对大数据的界定主要基于规模,而实际上,规模并不是常规数据和大数据的关键区别。他对大数据的定义是:有用的数据源排列数量巨大,使有用的查询非常困难,并且,复杂的相关关系使得排除很困难。大数据的第一个属性是复杂性,大不是数量大,而是复杂性更大。例如一架飞机上有10万个传感器,产生的数据流要查询起来非常困难,但它的规模可能没有想象的那么大,1小时的飞行中产生的数据不到3G 。而有些数据集很大,例如媒体流,生成量非常大,但是它的结构并不复杂,现在的搜索引擎和数据库工具可以很快将它解析出来。所以媒体流只是数据数量大,但复杂性程度却没有飞机传感器产生的数据那么大。大数据的另一个属性是很难删除,使得隐私成为共同关注的问题。例如,从收费公路数据中清除与某个汽车司机相关联的所有数据几乎是不可能的,如果删除的话,传感器计数的汽车数量将不再与个人的计费记录匹配,也与公司收到的款项不平衡。[5]我国学者李国杰也指出,大数据往往以复杂关联的数据网络这样一种独特的形式存在。[6]

·迈尔-舍恩伯格在《大数据时代》一书维克托

中主要从“价值大”的角度来定义大数据,他认为大数据是当今社会所独有的一种新型的能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。[7]

《上海推进大数据研究与发展行动计划》对大数据的概念做了较全面的概括:大数据有三层内涵:一是数据量巨大、来源多样和类型多样的数据集;二是新型的数据处理和分析技术;三是运用数据分析形成价值[8]。

2. 类型

大数据可以根据来源区分为三种类型。科研数据。以数据为中心的传统学科(如基(1)因组学、蛋白组学、天体物理学和脑科学等)的研究产生了越来越多的数据。例如,用电子显微镜重建大脑中的突触网络,1立方毫米大脑的图像数据就超

[9]

过1PB 。《自然》杂志最早提出大数据概念也是源于

非结构化的文本和图像数据、来自多个来源的数据、大量的数据。

3. 对几个问题的理解

(1)大数据的门槛究竟是多少?

多大的数据才达到大数据的门槛是一个随时间变化的概念,在2011年麦肯锡公司对大数据做界定时,由于当时传统数据库有效工作的数据大小一般来说在10-100TB ,因此10-100TB 通常成为大数据的门槛。国际数据公司(IDC )2012年发表第一份全球大数据技术和服务市场报告时也把大数据的规模阈值设在100TB 。[14]随着数据库分析技术的发展,大数据的门槛也在提高,目前一般认为PB 级以上数据是大数据。[15]

而根据麦肯锡公司的界定,大数据的阈值还与行业部门有关。据麦肯锡公司对美国所有1000人以上的公司或单位的数据库估计,截至2009年,美国积累的教育数据为269PB ,大约为卫生数据的62%,只有制造业(包含离散制造和流程制造在内)的16%,平均到每个教育单位的数据为319TB ,其中大量是视频和音频数据[16]。目前最大的教育国际比较研究PISA 项目的结果数据库只有几个G ,如果把已6

SHANGHAI JIAOYU KEYAN

科学研究中产生的大量数据。

互联网数据。近年来大数据的飙升主要还是(2)

上海教育科研2013.9

ZHUANTIYANTAO

经实施的5轮数据加起来,再加上计算机辅助测试搜集的原始数据,加上个案研究拍摄的视频数据,也只有几百个G 。所以在教育界,TB 级的数据就可以算大数据了。

(2)只要数据库规模足够大就是大数据了吗?大数据=海量数据+复杂类型数据。用传统的算法和数据库系统可以处理的海量数据不算大数

[17]

人口普查数据库、经济普查数据库、教育例如,据。

专题研讨

结束时的学生问卷来评价,Hung, J. L. 等(2012)开发了一种在线课程评价方法,通过分析一个学生K-12在线课程的学生学习日志,一共有7539名学生在883门注册课程中的23854527份学习日志,结合学生人口特征数据、课程结束时对学生开展的课程评价问卷调查,对学生进行分类,发现高危学生和高表现的特征,预测学生的成绩,并研究学生表现和对课程满意度的关系。[19]

教育数据挖掘最早也是最普遍的应用是预测学(成绩),近年来,教育数据挖掘的应用已经越生表现

来越广泛了,《简介》将教育数据挖掘的目标概括为

[20]

以下4个方面:

调查数据库、心理测验数据库等等,都有严格的结构,即便各级数据、历年数据累积起来达到了较大的规模,但都是用传统算法和数据库技术就能够处理的,不能算是大数据。

(3)大数据的主要特性是什么?

大数据的主要特性被概括为4个V :体量大(Volume ),速度快(Velocity ),类型杂(Variety ),价值大(Value ),还有人提出真实性(Veracity )、复杂性(Complexity )。笔者认为,从大数据的定义来看,体量大、关系复杂、价值大是大数据最主要的特性。

二、大数据在教育领域的主要应用

美国联邦政府教育部技术办公室2012年4月10日发布《通过教育数据挖掘和学习分析改进教与学:问题简介》(以下简称《简介》),指出在教育中有两个特定的领域会用到大数据:教育数据挖掘和学习分析。教育数据挖掘应用统计学、机器学习和数据挖掘的技术和开发方法,对教学和学习过程中收集的数据进行分析,教育数据挖掘检验学习理论并引导教育实践。学习分析应用从信息科学、社会学、心理学、统计学、机器学习和数据挖掘的技术,来分析从教育管理和服务过程中收集的数据,学习分析创建的应用程序直接影响教育实践。[18]

1. 教育数据挖掘

早期的教育数据挖掘主要是网站日志数据的挖掘,现在新的计算机技术支持的交互式学习方法和(智能辅导系统、仿真、游戏),为量化和收集学工具

生行为数据带来了新的机会。特别是更加集成、更加模块化和更加复杂化的在线学习系统提供了更多类型的数据,其中包含了数据挖掘算法需要的许多变量。教育数据挖掘能发现这些数据中的模式和规律,探索建立预测模型,让我们重新发现和预测学生如何学习。例如,过去对在线课程的评价主要通过课程

上海教育科研2013.9

元认知和态度*通过创建把学生的知识、动机、结合在一起的学生模型来预测学生未来的学习行为。

*发现或改进学科领域的模型,这些模型能够概括要学习的内容特点和优化的教学步骤。

*研究学习软件能够提供的对不同教学法支持的效果。

*通过建立综合了学生模型、领域模型和软件教学模型的计算模型,推进关于学习和学生的科学知识。

2. 学习分析

学习分析主要涉及学业分析、行为分析和预测分析的研究和应用。《简介》采纳了Johnson et al (2011)对学习分析的定义,指的是对学生学习过程中产生的大量数据进行解释,目的是评估学业进步、预测未来表现、发现潜在问题。数据来自学生的显性行为,如完成作业和参加考试;还有学生的隐性行为,如在线社交,课外活动,论坛发帖,以及其他一些不直接作为学生教育进步评价的活动。学习分析模型处理和显示的数据帮助教师和学校更好地理解教与学。学习分析的目标是使教师和学校创造适合每个学生需要和能力的教育机会。[21]

学习分析技术对于学生、教师、管理人员、研究人员以及技术开发人员均具有重要价值。对于学生而言,可以从学习者行为角度了解学习过程的发生机制,并用来优化学习,以基于学习行为数据的分析为学习者推荐学习轨迹,开展适应性学习、自我导向学习。对于教师和管理人员而言,可以用来评估课程和机构,以改善现有的学校考核方式,并提供更为深入的教学分析,以便教师在数据分析基础上为学生7

SHANGHAI JIAOYU KEYAN

专题研讨

ZHUANTIYANTAO

部门统筹考虑解决的问题。

目前,“与社会科学有关的大数据问题,例如舆情分析、情感分析等,许多理论问题过去没有考虑过,才刚刚开始研究。借助大数据的推理,社会科学

[24]

将脱下“准科学”的外衣,真正迈进科学的殿堂。”

可提供更有针对性的教学干预。对于研究人员而言,以作为研究学生个性化学习的工具和研究网络学习过程和效用的工具。对于技术开发人员而言,可以优化学习管理系统。[22]

3. 教育数据挖掘和学习分析的区别

从上述应用中可以看出,教育数据挖掘和学习分析有共同之处,例如个别化学习、提供反馈,但两者也有区别。Romero 从4个方面概括了教育数据挖

[23]

掘和学习分析的区别:

然而,教育数据挖掘和学习分析研究的议题都是以学生的学习和认知发展为中心的,对于教育舆情分析、德育评价等教育中的难点问题很少涉及。在自然状态下生成的在线数据,反映了社会和教育的真实。如何利用大数据来了解学生真实的课业负担,了解社会对教育的满意度,了解学生的道德水平,需要教育研究者和数据科学家合作来解决问题。

大数据需要专业研究,需要大机构的支持,需要政府、研究机构和专业数据分析公司的合作。政府负责提供数据或组织搜集数据,研究机构负责设计研究框架和分析结果,专业数据分析公司负责软件开发并提供数据分析模型方面的支持。这其中会涉及到数据安全和存储问题,因为大数据会涉及学生的个人信息,大数据可以重复利用,所以在合作中必须用合同的方式来确保学生个人信息的安全,不被用作商业用途(例如学习产品广告推送),还要确定数据由谁负责存储和维护,谁有权对数据进行二次开发利用。一般应由政府或政府授权的非营利机构负责数据的存储和管理,如果商业公司在完成合同规定的任务后要再次利用该数据库,就需要再次取得政府的授权,避免公司将政府投入经费委托收集的数据用于商业开发和商业化的培训。

注释:

①传感网或物联网是指通过二维码识读设备、射频识别(RFID )装置、红外感应器、全球定位系统和激光扫描器等信息传感设备,按约定的协议,把任何物品与互联网相连接,进行信息交换和通信,以实现智能化识别、定位、跟踪、监控和管理的一种网络。

*技术:学习分析最常用的技术是统计、可视化、系统网络架构、情绪分析、影响分析、话语分析,概念分析和意义建构模型;教育数据挖掘最常用的技术是分类、聚类、贝叶斯模型、关系挖掘和用模型来发现数据中有意义的信息。

*起源:学习分析较多地源于语义网络、智能课程和系统干预;教育数据挖掘较多地源于教育软件、学生建模和预测课程的结果。

*重点:学习分析更重视对数据和结果的描述;教育数据挖掘更重视对所采用的数据挖掘技术的描述和比较。

*发现:在学习分析中,利用人类判断的是关键,自动化的发现是用于实现这一目标的工具。在教育数据挖掘中,自动化的发现是关键,利用人类判断是用来完成这个目标的工具。

三、有关思考

大数据不是指单个数据库,而是数据库的集合。单个数据库可能并不大,但是多个来源的数据库集合起来规模就大了;单个数据库可能只有一种数据类型,但多个不同类型的数据库集合起来,传统数据库就难以处理了;单靠一次考试的成绩难以准确地评价一个学生的发展水平,但是结合态度、行为和背景因素,结合总体学生的表现和其他因素的分布就能够比较准确地对每个学生做出评价了。教育政策制定也是如此,不仅要有教育事业发展数据,还要结合经费数据、人口数据、以及学生表现和学生家庭社会经济背景数据等,才能公平地分配教育资源。所以数据库的集成和共享是大数据研究首先要考虑的问题。目前我们的考试数据、学籍数据、教师数据、事业数据、经费数据、人口数据、研究数据都分散在不同的机构和政府部门,很难形成大数据,这是需要政府

上海教育科研2013.9

参考文献:

[1]Nature. Vol 455|4september 2008.

[2][16]Manyika, J., M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh, and A. H. Byers. 2011. Big Data:The Next Frontier for Innovation, Competition, and Productivity. McKinsey Global Institute. Looks at innovation and competitive advantages for industries using big data, including health care, retail, and use of personal location. p.1, p.19.

[3]维基百科,“Big data ”条目,2013年8月7日检索. [4][6][9][11][12][13][24]李国杰,程学旗.

(下转第22页)

8

SHANGHAI JIAOYU KEYAN

理论经纬

LILUNJINGWEI

正是因为如此,他们对于命运的垂青显得格外感激和珍惜,一旦机会到来,他们就会紧紧抓住它不放手。

参考文献:

[1]邱瑞贤.农村大学生比例引起温家宝关注30年来下降一半[N].广州日报,2009-01-23.

[2]袁树勋.专家称要警惕高考弃考背后的教育资源分配不公[N].潇湘晨报,2013-06-17.

[3]陈卓.超社会资本、强社会资本与教育公平———从当今中国教育影响社会分层的视角[J].青年研究,2010,(5):75~84.

[4](美)特纳.社会学理论的结构[M].邱泽奇译.北京:华夏出版社,2001:48.

[5]关红,张人杰.西方教育不平等社会学述评[J].外国教育动态,1990,(5):34~37.

[6](德)马克思,恩格斯.马克思恩格斯全集(第3卷)·德意志意识形态[M].中共中央马克思恩格斯列宁斯大林著作编译局.北京:人民出版社,1960:29.

—以教育影响社会分层为视角[7]陈卓.学业资本与品味资本——[J].中国高教研究,2012,(11):13.

—寒[8]潘晓凌,沈茜蓉,夏倩,刘星,何谦.穷孩子没有春天?——门子弟为何离一线高校越来越远[N].南方周末,2011-08-04

一种文化再生产现象的分析[9]余秀兰.中国教育的城乡差异:[M].北京:教育科学出版社,2004:223~229.

[10]佚名.湖北五名贫困大学生“受助不感恩”引风波[J].湖北教育,2007,(10):60.

[11]彭国胜.青少年学生心理压力的家庭因素差异研究———基于湖南省的实证调查[J].青年探索,2008,(1):51.

[12]王敏.城市家庭少儿社会情感忽视问题实证研究———基于长沙市个家庭的调查[D].硕士学位论文,中南大学,2006:32.

从而多一份理解与宽容呢?

研究人员假设,低社会阶层家庭青少年学生的心理压力之所以要高于高社会阶层家庭的青少年,其精神层面的原因可能就在于:与低社会阶层家庭的青少年学生相比,高社会阶层家庭的青少年学生从家庭系统中更容易获得更高的认同感和自尊心,

[11]

以及更强的安全感和力量感。从理论上讲,家长的

职业不同,其工作条件、升迁机会、社会地位和经济条件也就不同,这些又与家长的自尊、身份、安全感和价值观密切相关,转而影响到他们对孩子的期望和行为方式,并通过与孩子的交往及教育活动,影响孩子社会情感的发展。调查显示,文化程度越高的家长,对孩子采取民主态度的比例也越高,而且每一文化层次间相差幅度较大。相反,文化程度最低的一组家长对孩子采取放纵和专制态度的比例是最高的,一般来说,民主的家庭环境有利于孩子积极社会情感的产生。[12]从这一点看,教育场域中的竞争,似乎成败早已是天注定。

正因为如此,对于那些来自下层社会的教育场域角逐者而言,他们得以入围(进入学校的和社会的更高阶层),这本身就是命运的眷顾。实际上,越是缺乏资本的阶层,对自身未来的规划就越少,正所谓“人穷志短”,这与人们常常提到的“缺乏长远眼光和未来意识,因而一代代穷下去,周而复始”的现象是一致的。对于缺乏竞争资本的下层人而言,他们所拥有的条件告诉他们,不能对自己能力之外的东西寄予太多的期望,不要去设定那些缺乏把握的目标。也

(上接第8页)

大数据研究:未来科技及经济社会发展的重

-

〔陈卓浙江警察学院社会科学部310053〕

[18][20][21]BienkowskiM, Feng M, Means B. Enhancing teaching and learning through educational data mining and learning analytics:an issue brief. Washington, D.C. Office of Educational Technology, U. S. Department of Education. 2012. p.9, p.10, p.13.

[19]Hung,J.L., Hsu, H. C., and Rice, K. (2012). Integrating Data Mining in Program Evaluation of K-12Online Education. Educational Technology &Society, 15(3),27~41.

[22]魏顺平. 学习分析技术:挖掘大数据时代下教育数据的价值[J].现代教育技术,2013,(2).

[23]RomeroC., and Ventura S., 2012. Data mining in education. WIREs Data Mining and Knowledge Discovery 2013,3:12~27doi:10.1002/widm.1075.

大战略领域[J].中国科学院院刊,2012,(6).

[5]http://mike2.openmethodology.org/blogs/information2013年8月7日检索.

[7][10]维克托·迈尔-舍恩伯格,肯尼斯·库克耶著,盛杨燕,周涛译. 大数据时代[M].浙江人民出版社,2013:4,11.

[8]http://www.stcsm.gov.cn/gk/ghjh/333008.htm.2013年8月7日检索.

[14]IDCpress release. IDC Releases First Worldwide Big Data Technology and Services Market Forcast. http://www.idc.com/getdoc.jsp?containerid=prus23355112.

[15][17]李国杰. 大数据科学问题研究.973计划信息领域战略调研材料之三. http://www.ict.ac.cn/liguojiewenxuan/wzlj/lgjxsbg/201302/P[***********]379.pdf, 2013年8月8日检索.

development/2012/03/18/its-time-for-a-new-definition-of -big -data/.

〔陆璟华东师范大学课程与教学系;上海市教育科200032〕

学研究院普教所

上海教育科研2013.9

22

SHANGHAI JIAOYU KEYAN

ZHUANTIYANTAO

专题研讨

大数据及其在教育中的应用

文陆笪

〔摘要〕目前对大数据的定义有三种,分别从数据体量、复杂性程度、价值这三个角度来界定, 反映了大

数据三个最主要的特性。大数据在教育领域的主要应用是教育数据挖掘和学习分析。今后要加强多个来源的数据库整合,充分利用在线数据开展教育舆情分析等研究,在确保数据安全的前提下与专业数据公司开展合作。〔关键词〕大数据

数据挖掘

学习分析

一、大数据的定义和类型1. 定义

“大数据”概念第一次创造出来是在2008年9月4日,谷歌成立10年前际,《自然》推出了大数据专辑,包括8篇大数据专题文章加上1篇编者按。虽然该专辑并没有直接提出大数据的定义,但是从互联网技术、网络经济学、超级计算、环境科学、生物医药等多个方面介绍了海量数据带来的挑战。概括而言,科学研究产生的数据集越来越大,并且数据越来越复杂,使得研究人员都转向依靠数据挖掘工具、在线的团队合作(如维基百科)和复杂的可视化技术。每年的研究数据聚合起来形成了大数据资源,依靠研究者自身去花大量精力记录和管理数据已经跟不上发展,科学研究数据的长期管理和维护需要有大机构的支持。但是政府、社会机构对此还没有充分认识,文化还跟不上数据的发展。这组文章的目的是引起各方面对数据管理和分析的重视,指出充分利用数据实际上是需要额外建设大量基础设施、需要经费和资源支持、需要建立标准、需要工具和培训、需要专业的数据支持服务的。[1]

目前对大数据的定义有三种,分别从数据体量、复杂性程度、价值这三个角度来界定什么是大

上海教育科研2013.9

数据。

第一次提出大数据的定义并且估计大数据的商业价值的是全球著名咨询公司麦肯锡。2011年麦肯锡全球研究院发布了《大数据:创新、竞争和生产力

[2]

的下一个新领域》研究了数据和文档的规模,同时,

分析了处理这些数据能够释放出的潜在价值。麦肯锡对大数据的定义是从数据集的“大体量”入手的:大数据是指那些规模大到传统的数据库软件工具已经无法采集、存储、管理和分析的数据集。麦肯锡故意采用了主观的定义,没有定义多大的数据集才是大数据,所以这个定义中的“大”是动态的概念。他们的假设是,随着技术的进步,随着时间的推移,符合大数据界定的数据集大小也将增加。还有,不同部门对大数据的界定也可能不同,这取决于他们通常用什么软件,以及某个特定产业的数据库是多大的。在考虑这些因素后,许多部门的大数据规模将从几十个TB 到多个PB (几千个TB )。维基百科采纳了麦肯锡的定义,认为大数据是一组庞大而复杂的数据集的集合,大且复杂到难以用现有的数据库管理工具或传统的数据处理应用来处理。[3]我国学界也采用了这一定义[4]。

德勤咨询技术负责人罗伯特·福莱对大数据的

5

SHANGHAI JIAOYU KEYAN

专题研讨

ZHUANTIYANTAO

来自日常生活,特别是互联网公司的服务。谷歌每天要处理24PB 的数据,Facebook 每天更新的照片超过1000万张[10],生成300TB 以上的日志数据,百度每天大约要处理几十个PB 的数据[11]。

感知数据。传感网或物联网①的蓬勃发展是(3)移动大数据的又一推动力。进入移动互联网时代后,平台的感知功能和基于位置的服务普及产生了大量感知数据,各个城市的视频监控每时每刻都在采集巨量的流媒体数据,工业监控也是大数据的重要来源,与互联网数据产生了重叠。

科学实验是科技人员设计的,如何采集数据、处理数据事先都已想好了,不管是检索还是模式识别,都有一定的规律可循。[12]而网络大数据和感知数据有许多不同于自然科学数据的特点,包括多源异构、交互性、实效性、社会性、突发性和高噪声等,不但非结构化数据多,而且数据的实时性强,大量数据都是随机动态产生。所以一般而言,社会科学的大数据分析,特别是根据Web 数据做经济形势、安全形势、社会群体事件的预测,比科学实验的数据分析更困

[13]难。需要新的技术来处理分析这些新记录的事件,

“复杂性程度大”入手的。他在2012年提定义是从

出,过去对大数据的界定主要基于规模,而实际上,规模并不是常规数据和大数据的关键区别。他对大数据的定义是:有用的数据源排列数量巨大,使有用的查询非常困难,并且,复杂的相关关系使得排除很困难。大数据的第一个属性是复杂性,大不是数量大,而是复杂性更大。例如一架飞机上有10万个传感器,产生的数据流要查询起来非常困难,但它的规模可能没有想象的那么大,1小时的飞行中产生的数据不到3G 。而有些数据集很大,例如媒体流,生成量非常大,但是它的结构并不复杂,现在的搜索引擎和数据库工具可以很快将它解析出来。所以媒体流只是数据数量大,但复杂性程度却没有飞机传感器产生的数据那么大。大数据的另一个属性是很难删除,使得隐私成为共同关注的问题。例如,从收费公路数据中清除与某个汽车司机相关联的所有数据几乎是不可能的,如果删除的话,传感器计数的汽车数量将不再与个人的计费记录匹配,也与公司收到的款项不平衡。[5]我国学者李国杰也指出,大数据往往以复杂关联的数据网络这样一种独特的形式存在。[6]

·迈尔-舍恩伯格在《大数据时代》一书维克托

中主要从“价值大”的角度来定义大数据,他认为大数据是当今社会所独有的一种新型的能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。[7]

《上海推进大数据研究与发展行动计划》对大数据的概念做了较全面的概括:大数据有三层内涵:一是数据量巨大、来源多样和类型多样的数据集;二是新型的数据处理和分析技术;三是运用数据分析形成价值[8]。

2. 类型

大数据可以根据来源区分为三种类型。科研数据。以数据为中心的传统学科(如基(1)因组学、蛋白组学、天体物理学和脑科学等)的研究产生了越来越多的数据。例如,用电子显微镜重建大脑中的突触网络,1立方毫米大脑的图像数据就超

[9]

过1PB 。《自然》杂志最早提出大数据概念也是源于

非结构化的文本和图像数据、来自多个来源的数据、大量的数据。

3. 对几个问题的理解

(1)大数据的门槛究竟是多少?

多大的数据才达到大数据的门槛是一个随时间变化的概念,在2011年麦肯锡公司对大数据做界定时,由于当时传统数据库有效工作的数据大小一般来说在10-100TB ,因此10-100TB 通常成为大数据的门槛。国际数据公司(IDC )2012年发表第一份全球大数据技术和服务市场报告时也把大数据的规模阈值设在100TB 。[14]随着数据库分析技术的发展,大数据的门槛也在提高,目前一般认为PB 级以上数据是大数据。[15]

而根据麦肯锡公司的界定,大数据的阈值还与行业部门有关。据麦肯锡公司对美国所有1000人以上的公司或单位的数据库估计,截至2009年,美国积累的教育数据为269PB ,大约为卫生数据的62%,只有制造业(包含离散制造和流程制造在内)的16%,平均到每个教育单位的数据为319TB ,其中大量是视频和音频数据[16]。目前最大的教育国际比较研究PISA 项目的结果数据库只有几个G ,如果把已6

SHANGHAI JIAOYU KEYAN

科学研究中产生的大量数据。

互联网数据。近年来大数据的飙升主要还是(2)

上海教育科研2013.9

ZHUANTIYANTAO

经实施的5轮数据加起来,再加上计算机辅助测试搜集的原始数据,加上个案研究拍摄的视频数据,也只有几百个G 。所以在教育界,TB 级的数据就可以算大数据了。

(2)只要数据库规模足够大就是大数据了吗?大数据=海量数据+复杂类型数据。用传统的算法和数据库系统可以处理的海量数据不算大数

[17]

人口普查数据库、经济普查数据库、教育例如,据。

专题研讨

结束时的学生问卷来评价,Hung, J. L. 等(2012)开发了一种在线课程评价方法,通过分析一个学生K-12在线课程的学生学习日志,一共有7539名学生在883门注册课程中的23854527份学习日志,结合学生人口特征数据、课程结束时对学生开展的课程评价问卷调查,对学生进行分类,发现高危学生和高表现的特征,预测学生的成绩,并研究学生表现和对课程满意度的关系。[19]

教育数据挖掘最早也是最普遍的应用是预测学(成绩),近年来,教育数据挖掘的应用已经越生表现

来越广泛了,《简介》将教育数据挖掘的目标概括为

[20]

以下4个方面:

调查数据库、心理测验数据库等等,都有严格的结构,即便各级数据、历年数据累积起来达到了较大的规模,但都是用传统算法和数据库技术就能够处理的,不能算是大数据。

(3)大数据的主要特性是什么?

大数据的主要特性被概括为4个V :体量大(Volume ),速度快(Velocity ),类型杂(Variety ),价值大(Value ),还有人提出真实性(Veracity )、复杂性(Complexity )。笔者认为,从大数据的定义来看,体量大、关系复杂、价值大是大数据最主要的特性。

二、大数据在教育领域的主要应用

美国联邦政府教育部技术办公室2012年4月10日发布《通过教育数据挖掘和学习分析改进教与学:问题简介》(以下简称《简介》),指出在教育中有两个特定的领域会用到大数据:教育数据挖掘和学习分析。教育数据挖掘应用统计学、机器学习和数据挖掘的技术和开发方法,对教学和学习过程中收集的数据进行分析,教育数据挖掘检验学习理论并引导教育实践。学习分析应用从信息科学、社会学、心理学、统计学、机器学习和数据挖掘的技术,来分析从教育管理和服务过程中收集的数据,学习分析创建的应用程序直接影响教育实践。[18]

1. 教育数据挖掘

早期的教育数据挖掘主要是网站日志数据的挖掘,现在新的计算机技术支持的交互式学习方法和(智能辅导系统、仿真、游戏),为量化和收集学工具

生行为数据带来了新的机会。特别是更加集成、更加模块化和更加复杂化的在线学习系统提供了更多类型的数据,其中包含了数据挖掘算法需要的许多变量。教育数据挖掘能发现这些数据中的模式和规律,探索建立预测模型,让我们重新发现和预测学生如何学习。例如,过去对在线课程的评价主要通过课程

上海教育科研2013.9

元认知和态度*通过创建把学生的知识、动机、结合在一起的学生模型来预测学生未来的学习行为。

*发现或改进学科领域的模型,这些模型能够概括要学习的内容特点和优化的教学步骤。

*研究学习软件能够提供的对不同教学法支持的效果。

*通过建立综合了学生模型、领域模型和软件教学模型的计算模型,推进关于学习和学生的科学知识。

2. 学习分析

学习分析主要涉及学业分析、行为分析和预测分析的研究和应用。《简介》采纳了Johnson et al (2011)对学习分析的定义,指的是对学生学习过程中产生的大量数据进行解释,目的是评估学业进步、预测未来表现、发现潜在问题。数据来自学生的显性行为,如完成作业和参加考试;还有学生的隐性行为,如在线社交,课外活动,论坛发帖,以及其他一些不直接作为学生教育进步评价的活动。学习分析模型处理和显示的数据帮助教师和学校更好地理解教与学。学习分析的目标是使教师和学校创造适合每个学生需要和能力的教育机会。[21]

学习分析技术对于学生、教师、管理人员、研究人员以及技术开发人员均具有重要价值。对于学生而言,可以从学习者行为角度了解学习过程的发生机制,并用来优化学习,以基于学习行为数据的分析为学习者推荐学习轨迹,开展适应性学习、自我导向学习。对于教师和管理人员而言,可以用来评估课程和机构,以改善现有的学校考核方式,并提供更为深入的教学分析,以便教师在数据分析基础上为学生7

SHANGHAI JIAOYU KEYAN

专题研讨

ZHUANTIYANTAO

部门统筹考虑解决的问题。

目前,“与社会科学有关的大数据问题,例如舆情分析、情感分析等,许多理论问题过去没有考虑过,才刚刚开始研究。借助大数据的推理,社会科学

[24]

将脱下“准科学”的外衣,真正迈进科学的殿堂。”

可提供更有针对性的教学干预。对于研究人员而言,以作为研究学生个性化学习的工具和研究网络学习过程和效用的工具。对于技术开发人员而言,可以优化学习管理系统。[22]

3. 教育数据挖掘和学习分析的区别

从上述应用中可以看出,教育数据挖掘和学习分析有共同之处,例如个别化学习、提供反馈,但两者也有区别。Romero 从4个方面概括了教育数据挖

[23]

掘和学习分析的区别:

然而,教育数据挖掘和学习分析研究的议题都是以学生的学习和认知发展为中心的,对于教育舆情分析、德育评价等教育中的难点问题很少涉及。在自然状态下生成的在线数据,反映了社会和教育的真实。如何利用大数据来了解学生真实的课业负担,了解社会对教育的满意度,了解学生的道德水平,需要教育研究者和数据科学家合作来解决问题。

大数据需要专业研究,需要大机构的支持,需要政府、研究机构和专业数据分析公司的合作。政府负责提供数据或组织搜集数据,研究机构负责设计研究框架和分析结果,专业数据分析公司负责软件开发并提供数据分析模型方面的支持。这其中会涉及到数据安全和存储问题,因为大数据会涉及学生的个人信息,大数据可以重复利用,所以在合作中必须用合同的方式来确保学生个人信息的安全,不被用作商业用途(例如学习产品广告推送),还要确定数据由谁负责存储和维护,谁有权对数据进行二次开发利用。一般应由政府或政府授权的非营利机构负责数据的存储和管理,如果商业公司在完成合同规定的任务后要再次利用该数据库,就需要再次取得政府的授权,避免公司将政府投入经费委托收集的数据用于商业开发和商业化的培训。

注释:

①传感网或物联网是指通过二维码识读设备、射频识别(RFID )装置、红外感应器、全球定位系统和激光扫描器等信息传感设备,按约定的协议,把任何物品与互联网相连接,进行信息交换和通信,以实现智能化识别、定位、跟踪、监控和管理的一种网络。

*技术:学习分析最常用的技术是统计、可视化、系统网络架构、情绪分析、影响分析、话语分析,概念分析和意义建构模型;教育数据挖掘最常用的技术是分类、聚类、贝叶斯模型、关系挖掘和用模型来发现数据中有意义的信息。

*起源:学习分析较多地源于语义网络、智能课程和系统干预;教育数据挖掘较多地源于教育软件、学生建模和预测课程的结果。

*重点:学习分析更重视对数据和结果的描述;教育数据挖掘更重视对所采用的数据挖掘技术的描述和比较。

*发现:在学习分析中,利用人类判断的是关键,自动化的发现是用于实现这一目标的工具。在教育数据挖掘中,自动化的发现是关键,利用人类判断是用来完成这个目标的工具。

三、有关思考

大数据不是指单个数据库,而是数据库的集合。单个数据库可能并不大,但是多个来源的数据库集合起来规模就大了;单个数据库可能只有一种数据类型,但多个不同类型的数据库集合起来,传统数据库就难以处理了;单靠一次考试的成绩难以准确地评价一个学生的发展水平,但是结合态度、行为和背景因素,结合总体学生的表现和其他因素的分布就能够比较准确地对每个学生做出评价了。教育政策制定也是如此,不仅要有教育事业发展数据,还要结合经费数据、人口数据、以及学生表现和学生家庭社会经济背景数据等,才能公平地分配教育资源。所以数据库的集成和共享是大数据研究首先要考虑的问题。目前我们的考试数据、学籍数据、教师数据、事业数据、经费数据、人口数据、研究数据都分散在不同的机构和政府部门,很难形成大数据,这是需要政府

上海教育科研2013.9

参考文献:

[1]Nature. Vol 455|4september 2008.

[2][16]Manyika, J., M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh, and A. H. Byers. 2011. Big Data:The Next Frontier for Innovation, Competition, and Productivity. McKinsey Global Institute. Looks at innovation and competitive advantages for industries using big data, including health care, retail, and use of personal location. p.1, p.19.

[3]维基百科,“Big data ”条目,2013年8月7日检索. [4][6][9][11][12][13][24]李国杰,程学旗.

(下转第22页)

8

SHANGHAI JIAOYU KEYAN

理论经纬

LILUNJINGWEI

正是因为如此,他们对于命运的垂青显得格外感激和珍惜,一旦机会到来,他们就会紧紧抓住它不放手。

参考文献:

[1]邱瑞贤.农村大学生比例引起温家宝关注30年来下降一半[N].广州日报,2009-01-23.

[2]袁树勋.专家称要警惕高考弃考背后的教育资源分配不公[N].潇湘晨报,2013-06-17.

[3]陈卓.超社会资本、强社会资本与教育公平———从当今中国教育影响社会分层的视角[J].青年研究,2010,(5):75~84.

[4](美)特纳.社会学理论的结构[M].邱泽奇译.北京:华夏出版社,2001:48.

[5]关红,张人杰.西方教育不平等社会学述评[J].外国教育动态,1990,(5):34~37.

[6](德)马克思,恩格斯.马克思恩格斯全集(第3卷)·德意志意识形态[M].中共中央马克思恩格斯列宁斯大林著作编译局.北京:人民出版社,1960:29.

—以教育影响社会分层为视角[7]陈卓.学业资本与品味资本——[J].中国高教研究,2012,(11):13.

—寒[8]潘晓凌,沈茜蓉,夏倩,刘星,何谦.穷孩子没有春天?——门子弟为何离一线高校越来越远[N].南方周末,2011-08-04

一种文化再生产现象的分析[9]余秀兰.中国教育的城乡差异:[M].北京:教育科学出版社,2004:223~229.

[10]佚名.湖北五名贫困大学生“受助不感恩”引风波[J].湖北教育,2007,(10):60.

[11]彭国胜.青少年学生心理压力的家庭因素差异研究———基于湖南省的实证调查[J].青年探索,2008,(1):51.

[12]王敏.城市家庭少儿社会情感忽视问题实证研究———基于长沙市个家庭的调查[D].硕士学位论文,中南大学,2006:32.

从而多一份理解与宽容呢?

研究人员假设,低社会阶层家庭青少年学生的心理压力之所以要高于高社会阶层家庭的青少年,其精神层面的原因可能就在于:与低社会阶层家庭的青少年学生相比,高社会阶层家庭的青少年学生从家庭系统中更容易获得更高的认同感和自尊心,

[11]

以及更强的安全感和力量感。从理论上讲,家长的

职业不同,其工作条件、升迁机会、社会地位和经济条件也就不同,这些又与家长的自尊、身份、安全感和价值观密切相关,转而影响到他们对孩子的期望和行为方式,并通过与孩子的交往及教育活动,影响孩子社会情感的发展。调查显示,文化程度越高的家长,对孩子采取民主态度的比例也越高,而且每一文化层次间相差幅度较大。相反,文化程度最低的一组家长对孩子采取放纵和专制态度的比例是最高的,一般来说,民主的家庭环境有利于孩子积极社会情感的产生。[12]从这一点看,教育场域中的竞争,似乎成败早已是天注定。

正因为如此,对于那些来自下层社会的教育场域角逐者而言,他们得以入围(进入学校的和社会的更高阶层),这本身就是命运的眷顾。实际上,越是缺乏资本的阶层,对自身未来的规划就越少,正所谓“人穷志短”,这与人们常常提到的“缺乏长远眼光和未来意识,因而一代代穷下去,周而复始”的现象是一致的。对于缺乏竞争资本的下层人而言,他们所拥有的条件告诉他们,不能对自己能力之外的东西寄予太多的期望,不要去设定那些缺乏把握的目标。也

(上接第8页)

大数据研究:未来科技及经济社会发展的重

-

〔陈卓浙江警察学院社会科学部310053〕

[18][20][21]BienkowskiM, Feng M, Means B. Enhancing teaching and learning through educational data mining and learning analytics:an issue brief. Washington, D.C. Office of Educational Technology, U. S. Department of Education. 2012. p.9, p.10, p.13.

[19]Hung,J.L., Hsu, H. C., and Rice, K. (2012). Integrating Data Mining in Program Evaluation of K-12Online Education. Educational Technology &Society, 15(3),27~41.

[22]魏顺平. 学习分析技术:挖掘大数据时代下教育数据的价值[J].现代教育技术,2013,(2).

[23]RomeroC., and Ventura S., 2012. Data mining in education. WIREs Data Mining and Knowledge Discovery 2013,3:12~27doi:10.1002/widm.1075.

大战略领域[J].中国科学院院刊,2012,(6).

[5]http://mike2.openmethodology.org/blogs/information2013年8月7日检索.

[7][10]维克托·迈尔-舍恩伯格,肯尼斯·库克耶著,盛杨燕,周涛译. 大数据时代[M].浙江人民出版社,2013:4,11.

[8]http://www.stcsm.gov.cn/gk/ghjh/333008.htm.2013年8月7日检索.

[14]IDCpress release. IDC Releases First Worldwide Big Data Technology and Services Market Forcast. http://www.idc.com/getdoc.jsp?containerid=prus23355112.

[15][17]李国杰. 大数据科学问题研究.973计划信息领域战略调研材料之三. http://www.ict.ac.cn/liguojiewenxuan/wzlj/lgjxsbg/201302/P[***********]379.pdf, 2013年8月8日检索.

development/2012/03/18/its-time-for-a-new-definition-of -big -data/.

〔陆璟华东师范大学课程与教学系;上海市教育科200032〕

学研究院普教所

上海教育科研2013.9

22

SHANGHAI JIAOYU KEYAN


相关内容

  • 2013年北京邮电大学公共管理专业考试复试考生名单
  • 育 明 教 育 专注于北京邮电大学考研专业课辅导 始于2006,八年辅导经验 育明教育徐老师赠言:你若盛开,清风自来 2014年硕士研究生入学考试自命题科目考试大纲(一) 211 翻译硕士英语 一.考试目的 <翻译硕士英语>作为全日制翻译硕士专业学位(MTI)入学考试的外国语考试,其目的 ...

  • 2015年北京邮电大学电子工程学院无线通信与电磁兼容方向(刘元安)博士研究生考试科目
  • 育 明 教 育 专注于北京邮电大学考研专业课辅导 始于2006,八年辅导经验 育明教育徐老师赠言:你若盛开,清风自来 2014年硕士研究生入学考试自命题科目考试大纲(一) 211 翻译硕士英语 一.考试目的 <翻译硕士英语>作为全日制翻译硕士专业学位(MTI)入学考试的外国语考试,其目的 ...

  • 专业及其研究方向
  • 欢迎广大考生报考东北大学! 东北大学2007年攻读硕士学位研究生招生简章 欢迎广大考生报考东北大学! 东北大学2007年攻读硕士学位研究生招生简章 欢迎广大考生报考东北大学! 东北大学2007年攻读硕士学位研究生招生简章 欢迎广大考生报考东北大学! 东北大学2007年攻读硕士学位研究生招生简章 欢迎 ...

  • 数据挖掘的技术与商业定义及其研究对象
  • 总第!"期理论探讨 # 数据挖掘的技术 与商业定义及其研究对象 !朱建平$ 范霄文% 张志强% &$'厦门大学统计学系福建,厦门()$**! 山西太原*(***)+%'山西财经大学经济学院, 摘要:本文在对数据挖掘考察的基础上,从技术角度和商业角度对数据挖掘的概念予以界定,并探讨了 ...

  • 计算机信息管理毕业论文题目
  • 信管专业本科毕业论文选题参考331目 以下选题仅供同学们参考,不一定在这个范围内,同学们完全可以自已命题.由于IT技术发展极快,所以我们提供的论文选题不一定最新.最快.最先进.请大家理解. 要求同学们在选题时尽量与带实习及指导论文的老师联系和商量,获得老师们的支持和帮助.如果能考虑论文与实习项目结合 ...

  • 物联网工程本科毕业论文选题
  • 毕业论文(设计) 题 目 学 院 学 院 专 业 学生姓名 学 号 年级 级 指导教师 毕业教务处制表 毕业 毕业二〇一五年 十二月一 日 毕业 物联网工程毕业论文选题(1435个) 一.论文说明 本写作团队致力于毕业论文写作与辅导服务,精通前沿理论研究.仿真编程.数据图表制作,专业本科论文300起 ...

  • 现代信号处理及其应用
  • [数字信号处理在视频领域的应用] [] [111044A ] [111044124] [2014.4.15] 摘要: 本文主要介绍了数字信号处理在视频领域的应用,包括相关背景.发展历程及其未来发展趋势.包含数字信号处理视频的标准及应用,重点突出数字信号处理在视频处理中的具体技术及其的实现. 目录 数 ...

  • 计算机应用技术
  • 培养目标 编辑 计算机应用技术证书该专业培养掌握计算机应用专业必要的基础理论, 能熟练掌握常用计算机软件操作,至少熟练掌握一门编程语言,具有一定分析问题和解决问题能力,并具有较强实践技能的高级计算机应用型人才.为全国计算机应用工作人员.企业各级管理人员.学校计算机教师及政府部门各级行政人员培养具有现 ...

  • 中国矿业大学
  • 中国矿业大学2011年硕士研究生招生专业目录 专业代码.名称及研究方向 招生人数 考试科目 备注 001 资源与地球科学学院 联系电话:0516-83591009 070503 地图学与地理信息系统 01空间分析方法与GIS建模理论 02应用地理信息系统 03数字城乡规划 04数字矿山多元地质信息集 ...