大规模传感网数据溯源技术研究

第30卷第4期苏州科技学院学报(自然科学版)V01.30No.42013年12月JoumalofSuzhouUniversitvofScienceandTechn0109Y(NaturalScience)Dec.2013

大规模传感网数据溯源技术研究

纪佩宇1,陈俊2,谢新2,李千目2

(1.江苏警官学院公安科技系,江苏南京210031;2.南京理工大学计算机科学与工程学院,江苏南京210094)

摘要:对数据溯源和大规模传感网数据处理系统进行了综述,描述了大规模传感网上的数据溯源应用场景。通过与传统数据处理系统的比较,指出在大规模传感网数据处理系统上进行数据溯源面临的挑战。

关键词:传感网;数据溯源;数据处理

中图分类号:TP391文献标识码:A文章编号:1672—0687(2013)04—0055—05

正是因为传感网和互联网的产生,以及存储介质容量的持续发展和存储能力的迅速飞跃,使得信息流呈爆炸式的增长.人们辨别数据的起源以及评定数据质量变得非常困难:人们在因特网上看到一条信息数据时候,会想知道这条数据是怎么样得到的;当科学家做实验的时候,会希望自己的实验数据真实可靠。而如今随着物联和互联技术的繁荣发展。人们却常常对着一堆数据无所适从。面对这些数据,将其分为两大类:一是原始录入时采集的数据:二是由原始数据衍生的数据。其中人们在生活工作中最常见到的是衍生的数据,它们一般都经过了一系列的处理,简单的如拷贝粘贴,复杂的如经过各种转换和修改等过程。人们在需要某特定数据的时候无法判断其来源和可靠性.这种现状让人们不得不关心起这些信息的产生过程和其数据源头,人们用“数据起源”来描述数据的由来、记录和追踪数据在不同数据库之间的移动过程。

数据起源(dataprovenance)叉..称为数据族系(datalineage)、数据来源(dataderivation)。数据起源最早的一个定义:一份数据的起源由它的整个处理历史组成,包括其出处(origin)及随后所有的处理步骤。

数据溯源,又称数据起源追踪,即根据记录的数据起源信息,追踪数据的源头及产生过程,从应用的角度出发。强调追踪的过程和方法。

数据起源信息中包含7W信息(What、Where、Who、When、Which、Why、How),其核心是What,即数据生命周期内的各种事件的发生,以及数据的当前状态。其他6个“W”都是围绕着What来描述数据信息,描述数据发生变化的时刻,在哪里发生了变化,发生了什么变化,哪个数据发生了变化等等信息。

数据溯源方法介绍

目前对于数据溯源的方法,代表性的有以下两种:基于标注(Annotation)的数据溯源方法【-1和基于查询反演(Querylnversion)的数据溯源方法121。其他的还有以位向量存储定位,利用双向指针追踪f31,利用图论思想以及利用查询语言追踪[41的数据溯源方法等。

I.I基于标注的数据溯源方法

通过标注来记录数据起源信息,标注是在原有数据之外引入的辅助数据,标注中记录数据的出处及详细的演化过程。标注随着数据本身一起传播,通过查看结果数据的标注或作简单的推导即可得到数据起源。这种方式是在事先得到并携带数据起源信息,因此,也被称为“Eager”方法。

小型的系统一般采取源数据和标注数据一起存储的方式,随着数据量的增加和数据处理难度的增大.大型的系统一般采取源数据和标注数据分开存放的方法,因为,细粒度的起源信息将会导致标注数据比源数据还要大【润。

[收稿日期]2013—03—22

【基金项目]国家自然科学基金资助项目(60903131)[作者简介】纪佩宇(1978一),男,江苏海安人,工程师,硕士,研究方向:计算机网络安全。

56苏州科技学院学报(自然科学版)2013血

采用基于标注的数据溯源方式的典型系统有DBNotesta等,其中DBNotes的基本架构如图1所示。

图1DBNotes基本架构

1.2基于查询反演的数据溯源方法

通过对查询或演化过程进行分析,对查询求逆(构造一个逆查询),或者根

据演化过程反向推导,从而计算得到数据起源的方法。这种方法是在需要查看

数据起源信息时,才计算数据起源,因此,也被称为“Lazy”方法[8-91。

但是这样的方法有一定的局限性,并不是所有的数据处理都可以采用查

询反演方法。于是很多学者对于查询反演的方法提出了改进和扩展,提出了使

用弱反函数代替精确反函数的思想,顾名思义。弱反函数就是提供近似的功

能,但是这样做的结果就是仅能返回部分或者带有误差的数据,因此,学者们

又提出了利用单独的验证函数来判断返回的数据是否准确并加以修正。

采用基于查询反演的数据溯源方法的典型系统有Triotlot和Pandalll]等,其

中Trio的基本系统架构如图2所示。

1.3其他数据溯源方法图2Trio基本系统架构

其他的数据溯源方法目前还不是太成熟。以位向量存储起源信息的方法只能处理简单的存储过程,记录数据的简单路径信息;利用双向指针进行追踪的方法只有在特定的数据库环境下才能实现;而基于图论思想的方法目前还停留在讨论阶段,并没有真正的实现。

2大规模传感网数据处理系统

2.1大规模传感网数据的特点

基于大规模传感网的数据处理系统,处理的都是由大量的传感器产生的数据流。数据流,即流式数据,是指一个实时的、持续的、按照到达时间或精确的时间戳排序的数据元组的序列。B.Babcock等【12】认为数据流在以下几个方面不同于传统的数据模型:(1)数据联机到达。数据源与主机通过有线或无线介质直接相连,数据源产生数据后直接将其发送给主机处理。(2)处理系统无法控制所处理的数据的到达顺序。数据由数据源主动发送给主机,主机无法对数据的到达顺序进行控制。(3)数据可能是无限多的。只要数据源不停止产生数据,数据就会持续的到达,因此,可能是无限多的,这是大规模传感网数据和传统数据的一个很大的不同点。(4)由于数据量的庞大,数据流中的元素被处理后将被抛弃。由于数据源产生的数据可能是无限多的,因此.很难对这些数据都进行存储。如不对数据进行存储则只能在数据第一次到达时获取数据。

2.2大规模传感网数据处理的特点

由于大规模传感网数据的固有特点,大规模传感网数据处理系统对于数据的处理方式有许多不同于传统数据管理系统的特点。这些特点主要有【l¨7】:

第4期纪佩宇,等:大规模传感网数据溯源技术研究572.2.1直接处理(见图3)为了保证大规模传感网数据处——+i

理系统在处理数据时的低延迟特性.系统不应当对数据流进

行存储,而应该直接对其进行处理。一些存储操作需要较大

的时间开销,如与数据库系统的交互,需要进行磁盘I/0等

费时的操作。而直接处理实时数据,则可以使得数据处理的

时间开销最小。因此,为了使得数据处理系统的时间开销最妥磊玉器l三三口二蚓二口—口—口三三l蝴行为一流处理应用一{L_J詈N小.应当尽量避免存储等需要较大时间开销的操作。

2.2.2瞬时响应与处理面对海量的流式数据时.大规模传

感网数据处理系统需要有一个能够高效的处理数据流并产

生输出的数据流处理引擎。才能保证整个处理系统的低处理<]\r——一/1与查询可选的存储图3可选存储信息的直接处理过程

延迟。该数据流处理引擎运行时应当有尽可能小的时间开销,能够在短时间内响应并处理实时数据,才能保证在规定的时间内完成处理,满足实时处理的要求并产生正确的结果。若不能瞬时响应与处理实时数据,则会造成数据的堆叠和网络拥塞的产生。

2.2.3长时间的持续运行的查询在大规模传感网数据处理系统中,查询通常都是针对一个时间段内的若干数据元组进行的。处理系统开始运行后,会在数据流上持续的执行查询动作,并持续的产生查询结果,直到处理系统运行结束。

2.2.4基于滑动窗121'的操作在大规模传感网数据处理系统中.系统对于数据的处理操作通常不是针对单个独立的数据元组进行,而是针对滑动窗口进行的。滑动窗口主要分为两类:基于数据元组数量的滑动窗口(如数据元组数量为3的滑动窗1:3)与基于时间长度的滑动窗口(如时间长度为5s的滑动窗口)。滑动窗口的使用能够很好的弥补数据流固有的缺陷,如数据元组延迟、数据元组丢失和数据元组顺序混乱等情况。2.3大规模传感网数据溯源应用场景

考虑这样的场景,某个城市部署了一套危险源在线监测及报警系统。这套系统由监测危险源(包括各类有毒、易燃易爆的气体、液体等)的各类传感器和对这些传感器产生的数据进行实时的分析、处理和报警的控制中心系统组成。传感器部署在全市各个存在危险源的场所,如化工厂、加油站和煤矿等,不同的场景下,根据具体危险源的类别,选用不同类型的传感器。控制中心系统部署在该市的消防局内,当控制中心系统报警时,消防局能在第一时间响应,及时处理危险情况。

针对不同的应用场景,不同的危险源,控制中心系统中预置了不同危险情况对应的判断逻辑,这些判断逻辑通常是综合理论计算及经验积累而得出,存在一定的不准确性。

比如在加油站这个场景中,油罐储存区的逸出的油气组分主要是气态的C。,C:,C,等轻烃,同时也携带有C,、C。等较重的烃类。根据这些烃类的爆炸极限以及加油站逸出油气中各烃类的比例,运用理查定律进行计算,得出混合气体的爆炸极限为:下限2.74%,上限10.92%。

控制中心系统在对监测各烃类浓度的传感器的输人数据元组进行清洗、聚合等处理后.最后根据混合气体的浓度是否处于爆炸极限中来判断是否存在爆炸危险。

场景1对单个输出数据元组进行溯源

当加油站油罐储存区发生油气泄漏,空气中的混合危险气体浓度上升并接近爆炸极限时,控制中心系统应当产生报警。为了确认报警信息是否准确并快速定位油气泄漏的详细地理位置,系统管理员应当能够根据系统产生的报警数据元组迅速溯源至数据源头,明确在系统处理工程中由于哪些原因产生了报警。如果管理员确认危险情况确实存在,系统应该能在第一时间提供相关传感器的详细地理位置信息。以便险情处置人员能在第一时间准确到达事发地点。以上应用场景代表了一类大规模传感网数据溯源的需求,这类需求可以归纳为:大规模传感网数据处理系统的用户应当能够对系统产生的单个输出数据元组进行溯源。精确到各输人流中对产生输出数据元组有贡献的所有输人数据元组【lB】。

这种能力使得用户能够根据输入数据元组来检验输出数据元组的正确性,对提高系统的准确率有很大的帮助。因此,是十分必要的。

58苏州科技学院学报(自然科学版)2013生场景2重现特定输出数据元组的产生过程

当加油站油罐储存区发生爆炸,而控制中心系统却没有产生报警时,系统管理员需要对系统出错原因进行调查。首先管理员对爆炸发生的时间段内的输出数据元组进行溯源,分析爆炸发生时传感器产生的数据,通常会有以下两种情况:(1)爆炸发生时,传感器产生的危险源监测数据不符合系统预置的爆炸判断条件。这表明处理中心系统的处理过程没有问题,而基于理论计算及经验积累得到的爆炸判断条件存在不足。此时应对爆炸判断条件进行修正,以不断提高系统对危险源爆炸预警的准确性;(2)爆炸发生时,传感器产生的危险源监测数据符合系统预置的爆炸判断条件。这表明处理中心系统的处理过程存在问题,为了快速准确的定位错误原因,管理员应当能够根据爆炸发生时处理中心系统的输入(即传感器监测数据),重现整个系统的处理过程。以上应用场景代表了一类大规模传感网数据溯源的需求,这类需求可以归纳为:大规模传感网数据处理系统的用户应当能够对系统产生的单个输出数据元组的产生过程进行重现,精确地回放有贡献的输入元组从进入处理系统后进行的所有处理过程。

这种能力使得用户能够重现特定输出结果的产生过程,以便对数据处理系统进行快速准确的修正与改进,因此,是十分必要的。

3大规模传感网数据溯源的挑战

基于大规模传感网的数据处理系统存在一些不同于传统数据处理系统的特点【19-20]:

3.1海量数据

大规模传感网中存在大量的传感器,传感器数据流在数据处理系统中汇合,进入系统的数据已经是海量的,如要为每个数据元组加上标注信息的话,会造成巨大的存储开销。通常传感网中的数据元组本身都比较小。而标注中要储存元组的出处及详细的演化过程,因此标注的大小通常比数据元组本身更大。

3.2低开销高吞吐量

面对高频率的输人数据元组,大规模传感网数据处理系统需要尽可能的降低系统处理的时间开销,才能保证整个数据处理过程的正确与高效。而基于标注的数据起源计算方法需要在每一步处理流程中为每一个输入数据元组添加标注信息,这个过程显然会大大增加整个系统处理过程的时间开销,减小系统吞吐量。3.3滑动窗口的使用

为了弥补数据流固有的缺陷(如数据元组延迟、数据元组丢失和数据元组顺序混乱等),大规模传感网数据处理系统的处理过程通常都是基于滑动窗口进行的。使用了滑动窗口以后,单个输人数据元组会对多个输出数据元组产生影响。当采用基于标注的数据起源计算方法时,单个输人数据元组会被重复的记录在多个输出数据元组的标注信息中,这将会大大增加系统的存储开销。

以上这些特点使得传统的数据溯源方法并不能很好的适用于大规模传感网数据处理系统,因此,研究适用于大规模传感网的数据溯源方法显得异常重要。

4结语

笔者首先对基于标注和基于查询反演的数据溯源方法分别做了简要介绍,详细分析了大规模传感网数据和数据处理的特点,并根据大规模传感网数据溯源的需求,考虑不同的应用场景进行了论证,最后通过与传统数据处理系统的比较,指出在大规模传感网数据处理系统上进行数据溯源面临的挑战。

参考文献:

【l】李亚子.数据起源标注模式与描述模型叽.数字图书馆,2007(7):10—13.

【2】刘喜平,万常选.数据起源研究综述田.科技广场,2005(1):47—52.

【3】王黎维,彭智勇,黄泽谦.集成对象代理数据库的科学工作流服务框架中的数据跟踪[J】.计算机学报,2008,31(5):12.

[41KarvounarakisG.ProvenanceforCollaborativeDataSharing[M].USAPennsylVania:uniVersityofPennsylvania,2009・

第4期纪佩宇.等:大规模传感网数据溯源技术研究59

【5】刘喜平,万常选.带起源的数据:模型和存储闭.计算机科学,2008(35):187—191.

【6】GeertsF,Kementsietsidis

enceonA,MilanoD.MONDRIAN:Annotatingandqueryingdatabasesthroughcolorsandblocks[C]//22ndInternationalConfer—DataEngineering(ICDE'06),Atlanta,Georsia,USA,2006:82—92.

WC,VijayvargiyaG.DBNotes:apost—itsystemforrelationaldatabasesbasedon【7】Chiticariu

tionalL,Tanprovenance[C]//2005ACMSIGMODInterna—ConferenceonManagementofData(SIGMOD'05),Baltimore,Maryland,USA,2005:942-944.

D,TannenV.Provenanceforaggregate[8】AmsterdamerY,Deutchqueries[J].ThirtiethACMSIGMOD—SIGACT—SIGARTSymposiumOHPrinciplesof

DatababeSystems,tIlens,Greece,201l,6:13—15.

[9】TannenV.Provenance

2010,3:22—26.fordatabasetransformations叨.13thInternationalConferenceonExtendingDatabaseTechnology,Lausanne,Switzerland,

【10]AgrawalP,Benjelloun0,SarmaAD,et以.Trio:asystemfordata,uncertainty,andlineage[C]//32ndInternationalConferenceonVeryLargeDataBases(VLDB"06),Seoul,Korea,2006:1151—1154.

【11】IkedaR,WidomJ.Panda:a

[12]Golabsystemforprovenanceanddata[J].IEEEDataEngineeringBuHetin,2010,33(3):1-4.survey[R].SchoolofComputerScience,UniversityofL,OzsuMT.Datastrcammanagementissues—a

B,BabuS,DatarM,eta1.ModelsWaterloo,TechnicalReport,2003.on【13】Babcockandissuesindatastreamsystems[C]ffrwenty-RstACMSIGMOD—SIGACT—SIGARTSymposiumPrinciplesofDatabaseSystems(PODS"02),Madison,Wisconsin,USA,2002:1一16.

U,ZdonikS.The8requirementsofreal—timestream

R,etdf.Multi-dimensionalrangequeries【14】StonebrakerM,Etintemel【15】“X,KimYJ,Govindan

【16】ReprocessingfJ].ACMSIGMODRecord,2005,34(4):42.47.in靶r№rnetworks[C]//ACMSenSys,2003.C,LetehnerJ,BalazinskaM,eta1.Eventqueriesoncorrelatedprobabilisticstreams[C]//SIGMODConf,2008:715—728.

over【17】TeHyD,GoldbergD。NicholsD,eta1.Continuousqueriesappend-onlydatabases[C]//1992ACMSIGMODinternationalconferenceonMan—

agementofdata(SIGMOD"92),SanDiego,California,USA,1992:321-330.

【18】GlavicB,EsmailiKS,FischerPM,eta1.Theeaseforfine-grainedstreamprovenanee[C]//InDatenbanksystemefarBusiness,Technologicund

Web(BTW)一Workshops,2011:58-61.

【19】LimHS,MoonYS,BertinoE.Researchissuesindata

onprovenanceforstreamingenvironments[C]//'2ndSIGSPATIALACMGIS2009InternationalWorkshopSecurityandPrivacyinGISandLBS(SPRINGL"09),Seatde,Washington,USA,2009:58—62.

E,eta1.Tacklingtheprovenance【20】ScheideggerC,KoopD,Santoschallengeonelayeratatime叨.ConcurrencyandComputation:Practiceand

Experience,2008,20(5):473—483.

[21】GrothP,MoreauL.Recordingprocessdocumentationforprovenance叨.IEEETransactionsonParallelandDistributedSystems,2009,20(9):

1246一】259.

Datatraceabilityoflarge-scalesensornetworks

JIPeiyul,CHENJun2,XIEXin2,LI

(1.DepartmentofPublicSecurityScienceand

2.SchoolofComputerScienceandQianmu2Institute,Nanjing210031,China;210094,Technology,JiangsuPoliceEngineering,NanjingUniversityofScienceandTechnology,NanjingChina)

Abstract:Thispaperhasrevieweddatatraceabilitytechnology,dataprocessingsystemoflarge—scalenetworks

points

works.

Keywords:sensornetworks;dataoutsensorandtheirapplication.Bycomparingitwiththetraditionaldataprocessingsystems,thispaperalsothechallengesconfrontedindatatraceabilityinthedataprocessingsystemoflarge——scalesensornet.traceability;dataprocessing责任编辑:艾淑艳

大规模传感网数据溯源技术研究

作者:

作者单位:

刊名:

英文刊名:

年,卷(期):纪佩宇, 陈俊, 谢新, 李千目, JI Peiyu, CHEN Jun, XIE Xin, LI Qianmu纪佩宇,JI Peiyu(江苏警官学院公安科技系,江苏南京,210031), 陈俊,谢新,李千目,CHEN Jun,XIEXin,LI Qianmu(南京理工大学 计算机科学与工程学院,江苏南京,210094)苏州科技学院学报(自然科学版)Journal of Suzhou University of Science and Technology(Natural Science)2013,30(4)

参考文献(21条)

1. 李亚子 数据起源标注模式与描述模型[期刊论文]-数字图书馆 2007(07)

2. 刘喜平;万常选 数据起源研究综述[期刊论文]-科技广场 2005(01)

3. 王黎维;彭智勇;黄泽谦 集成对象代理数据库的科学工作流服务框架中的数据跟踪[期刊论文]-计算机学报 2008(05)

4. Karvounarakis G Provenance for Collaborative Data Sharing 2009

5. 刘喜平;万常选 带起源的数据:模型和存储 2008(35)

6. Geerts F;Kementsietsidis A;Milano D MONDRIAN:Annotating andquerying databases through colors and blocks 2006

7. Chiticariu L;Tan W C Vijayvargiya G.DBNotes:a post-it system forrelational databases based on provenance 2005

8. Amsterdamer Y;Deutch D;Tannen V Provenance for aggregate queries 2011

9. Tannen V Provenance for database transformations 2010

10. Agrawal P;Benjelloun O;Sarma AD Trio:a system for data,uncertainty,and lineage 2006

11. Ikeda R;Widom J Panda:a system for provenance and data 2010(03)

12. Golab L;Ozsu M T Data stream management issues-a survey 2003

13. Babcock B;Babu S;Datar M Models and issues indata stream systems 2002

14. Stonebraker M;Etintemel U;Zdonik S The 8 requirements of real-timestream processing 2005(04)

15. Li X;Kim Y J;Govindan R Multi-dimensional range queries in sensor networks 2003

16. Re C;Letchner J;Balazinska M Event queries on correlated probabilistic streams 2008

17. Terry D;Goldberg D;Nichols D Continuous queries over append-only databases 1992

18. Glavic B;Esmaili K S;Fischer P M The case for fine-grained stream pmvenance 2011

19. Lim H S;Moon Y S;Beaino E Research issues in data provenance forstreaming environments 2009

20. Scheidegger C;Koop D;Santos E Tackling the provenance challenge one layer at a time[外文期刊] 2008(05)

21. Groth P;Moreau L Recording process documentation for provenance 2009(09)

引用本文格式:纪佩宇. 陈俊. 谢新. 李千目. JI Peiyu. CHEN Jun. XIE Xin. LI Qianmu 大规模传感网数据溯源技术研究[期刊论文]-苏州科技学院学报(自然科学版) 2013(4)

第30卷第4期苏州科技学院学报(自然科学版)V01.30No.42013年12月JoumalofSuzhouUniversitvofScienceandTechn0109Y(NaturalScience)Dec.2013

大规模传感网数据溯源技术研究

纪佩宇1,陈俊2,谢新2,李千目2

(1.江苏警官学院公安科技系,江苏南京210031;2.南京理工大学计算机科学与工程学院,江苏南京210094)

摘要:对数据溯源和大规模传感网数据处理系统进行了综述,描述了大规模传感网上的数据溯源应用场景。通过与传统数据处理系统的比较,指出在大规模传感网数据处理系统上进行数据溯源面临的挑战。

关键词:传感网;数据溯源;数据处理

中图分类号:TP391文献标识码:A文章编号:1672—0687(2013)04—0055—05

正是因为传感网和互联网的产生,以及存储介质容量的持续发展和存储能力的迅速飞跃,使得信息流呈爆炸式的增长.人们辨别数据的起源以及评定数据质量变得非常困难:人们在因特网上看到一条信息数据时候,会想知道这条数据是怎么样得到的;当科学家做实验的时候,会希望自己的实验数据真实可靠。而如今随着物联和互联技术的繁荣发展。人们却常常对着一堆数据无所适从。面对这些数据,将其分为两大类:一是原始录入时采集的数据:二是由原始数据衍生的数据。其中人们在生活工作中最常见到的是衍生的数据,它们一般都经过了一系列的处理,简单的如拷贝粘贴,复杂的如经过各种转换和修改等过程。人们在需要某特定数据的时候无法判断其来源和可靠性.这种现状让人们不得不关心起这些信息的产生过程和其数据源头,人们用“数据起源”来描述数据的由来、记录和追踪数据在不同数据库之间的移动过程。

数据起源(dataprovenance)叉..称为数据族系(datalineage)、数据来源(dataderivation)。数据起源最早的一个定义:一份数据的起源由它的整个处理历史组成,包括其出处(origin)及随后所有的处理步骤。

数据溯源,又称数据起源追踪,即根据记录的数据起源信息,追踪数据的源头及产生过程,从应用的角度出发。强调追踪的过程和方法。

数据起源信息中包含7W信息(What、Where、Who、When、Which、Why、How),其核心是What,即数据生命周期内的各种事件的发生,以及数据的当前状态。其他6个“W”都是围绕着What来描述数据信息,描述数据发生变化的时刻,在哪里发生了变化,发生了什么变化,哪个数据发生了变化等等信息。

数据溯源方法介绍

目前对于数据溯源的方法,代表性的有以下两种:基于标注(Annotation)的数据溯源方法【-1和基于查询反演(Querylnversion)的数据溯源方法121。其他的还有以位向量存储定位,利用双向指针追踪f31,利用图论思想以及利用查询语言追踪[41的数据溯源方法等。

I.I基于标注的数据溯源方法

通过标注来记录数据起源信息,标注是在原有数据之外引入的辅助数据,标注中记录数据的出处及详细的演化过程。标注随着数据本身一起传播,通过查看结果数据的标注或作简单的推导即可得到数据起源。这种方式是在事先得到并携带数据起源信息,因此,也被称为“Eager”方法。

小型的系统一般采取源数据和标注数据一起存储的方式,随着数据量的增加和数据处理难度的增大.大型的系统一般采取源数据和标注数据分开存放的方法,因为,细粒度的起源信息将会导致标注数据比源数据还要大【润。

[收稿日期]2013—03—22

【基金项目]国家自然科学基金资助项目(60903131)[作者简介】纪佩宇(1978一),男,江苏海安人,工程师,硕士,研究方向:计算机网络安全。

56苏州科技学院学报(自然科学版)2013血

采用基于标注的数据溯源方式的典型系统有DBNotesta等,其中DBNotes的基本架构如图1所示。

图1DBNotes基本架构

1.2基于查询反演的数据溯源方法

通过对查询或演化过程进行分析,对查询求逆(构造一个逆查询),或者根

据演化过程反向推导,从而计算得到数据起源的方法。这种方法是在需要查看

数据起源信息时,才计算数据起源,因此,也被称为“Lazy”方法[8-91。

但是这样的方法有一定的局限性,并不是所有的数据处理都可以采用查

询反演方法。于是很多学者对于查询反演的方法提出了改进和扩展,提出了使

用弱反函数代替精确反函数的思想,顾名思义。弱反函数就是提供近似的功

能,但是这样做的结果就是仅能返回部分或者带有误差的数据,因此,学者们

又提出了利用单独的验证函数来判断返回的数据是否准确并加以修正。

采用基于查询反演的数据溯源方法的典型系统有Triotlot和Pandalll]等,其

中Trio的基本系统架构如图2所示。

1.3其他数据溯源方法图2Trio基本系统架构

其他的数据溯源方法目前还不是太成熟。以位向量存储起源信息的方法只能处理简单的存储过程,记录数据的简单路径信息;利用双向指针进行追踪的方法只有在特定的数据库环境下才能实现;而基于图论思想的方法目前还停留在讨论阶段,并没有真正的实现。

2大规模传感网数据处理系统

2.1大规模传感网数据的特点

基于大规模传感网的数据处理系统,处理的都是由大量的传感器产生的数据流。数据流,即流式数据,是指一个实时的、持续的、按照到达时间或精确的时间戳排序的数据元组的序列。B.Babcock等【12】认为数据流在以下几个方面不同于传统的数据模型:(1)数据联机到达。数据源与主机通过有线或无线介质直接相连,数据源产生数据后直接将其发送给主机处理。(2)处理系统无法控制所处理的数据的到达顺序。数据由数据源主动发送给主机,主机无法对数据的到达顺序进行控制。(3)数据可能是无限多的。只要数据源不停止产生数据,数据就会持续的到达,因此,可能是无限多的,这是大规模传感网数据和传统数据的一个很大的不同点。(4)由于数据量的庞大,数据流中的元素被处理后将被抛弃。由于数据源产生的数据可能是无限多的,因此.很难对这些数据都进行存储。如不对数据进行存储则只能在数据第一次到达时获取数据。

2.2大规模传感网数据处理的特点

由于大规模传感网数据的固有特点,大规模传感网数据处理系统对于数据的处理方式有许多不同于传统数据管理系统的特点。这些特点主要有【l¨7】:

第4期纪佩宇,等:大规模传感网数据溯源技术研究572.2.1直接处理(见图3)为了保证大规模传感网数据处——+i

理系统在处理数据时的低延迟特性.系统不应当对数据流进

行存储,而应该直接对其进行处理。一些存储操作需要较大

的时间开销,如与数据库系统的交互,需要进行磁盘I/0等

费时的操作。而直接处理实时数据,则可以使得数据处理的

时间开销最小。因此,为了使得数据处理系统的时间开销最妥磊玉器l三三口二蚓二口—口—口三三l蝴行为一流处理应用一{L_J詈N小.应当尽量避免存储等需要较大时间开销的操作。

2.2.2瞬时响应与处理面对海量的流式数据时.大规模传

感网数据处理系统需要有一个能够高效的处理数据流并产

生输出的数据流处理引擎。才能保证整个处理系统的低处理<]\r——一/1与查询可选的存储图3可选存储信息的直接处理过程

延迟。该数据流处理引擎运行时应当有尽可能小的时间开销,能够在短时间内响应并处理实时数据,才能保证在规定的时间内完成处理,满足实时处理的要求并产生正确的结果。若不能瞬时响应与处理实时数据,则会造成数据的堆叠和网络拥塞的产生。

2.2.3长时间的持续运行的查询在大规模传感网数据处理系统中,查询通常都是针对一个时间段内的若干数据元组进行的。处理系统开始运行后,会在数据流上持续的执行查询动作,并持续的产生查询结果,直到处理系统运行结束。

2.2.4基于滑动窗121'的操作在大规模传感网数据处理系统中.系统对于数据的处理操作通常不是针对单个独立的数据元组进行,而是针对滑动窗口进行的。滑动窗口主要分为两类:基于数据元组数量的滑动窗口(如数据元组数量为3的滑动窗1:3)与基于时间长度的滑动窗口(如时间长度为5s的滑动窗口)。滑动窗口的使用能够很好的弥补数据流固有的缺陷,如数据元组延迟、数据元组丢失和数据元组顺序混乱等情况。2.3大规模传感网数据溯源应用场景

考虑这样的场景,某个城市部署了一套危险源在线监测及报警系统。这套系统由监测危险源(包括各类有毒、易燃易爆的气体、液体等)的各类传感器和对这些传感器产生的数据进行实时的分析、处理和报警的控制中心系统组成。传感器部署在全市各个存在危险源的场所,如化工厂、加油站和煤矿等,不同的场景下,根据具体危险源的类别,选用不同类型的传感器。控制中心系统部署在该市的消防局内,当控制中心系统报警时,消防局能在第一时间响应,及时处理危险情况。

针对不同的应用场景,不同的危险源,控制中心系统中预置了不同危险情况对应的判断逻辑,这些判断逻辑通常是综合理论计算及经验积累而得出,存在一定的不准确性。

比如在加油站这个场景中,油罐储存区的逸出的油气组分主要是气态的C。,C:,C,等轻烃,同时也携带有C,、C。等较重的烃类。根据这些烃类的爆炸极限以及加油站逸出油气中各烃类的比例,运用理查定律进行计算,得出混合气体的爆炸极限为:下限2.74%,上限10.92%。

控制中心系统在对监测各烃类浓度的传感器的输人数据元组进行清洗、聚合等处理后.最后根据混合气体的浓度是否处于爆炸极限中来判断是否存在爆炸危险。

场景1对单个输出数据元组进行溯源

当加油站油罐储存区发生油气泄漏,空气中的混合危险气体浓度上升并接近爆炸极限时,控制中心系统应当产生报警。为了确认报警信息是否准确并快速定位油气泄漏的详细地理位置,系统管理员应当能够根据系统产生的报警数据元组迅速溯源至数据源头,明确在系统处理工程中由于哪些原因产生了报警。如果管理员确认危险情况确实存在,系统应该能在第一时间提供相关传感器的详细地理位置信息。以便险情处置人员能在第一时间准确到达事发地点。以上应用场景代表了一类大规模传感网数据溯源的需求,这类需求可以归纳为:大规模传感网数据处理系统的用户应当能够对系统产生的单个输出数据元组进行溯源。精确到各输人流中对产生输出数据元组有贡献的所有输人数据元组【lB】。

这种能力使得用户能够根据输入数据元组来检验输出数据元组的正确性,对提高系统的准确率有很大的帮助。因此,是十分必要的。

58苏州科技学院学报(自然科学版)2013生场景2重现特定输出数据元组的产生过程

当加油站油罐储存区发生爆炸,而控制中心系统却没有产生报警时,系统管理员需要对系统出错原因进行调查。首先管理员对爆炸发生的时间段内的输出数据元组进行溯源,分析爆炸发生时传感器产生的数据,通常会有以下两种情况:(1)爆炸发生时,传感器产生的危险源监测数据不符合系统预置的爆炸判断条件。这表明处理中心系统的处理过程没有问题,而基于理论计算及经验积累得到的爆炸判断条件存在不足。此时应对爆炸判断条件进行修正,以不断提高系统对危险源爆炸预警的准确性;(2)爆炸发生时,传感器产生的危险源监测数据符合系统预置的爆炸判断条件。这表明处理中心系统的处理过程存在问题,为了快速准确的定位错误原因,管理员应当能够根据爆炸发生时处理中心系统的输入(即传感器监测数据),重现整个系统的处理过程。以上应用场景代表了一类大规模传感网数据溯源的需求,这类需求可以归纳为:大规模传感网数据处理系统的用户应当能够对系统产生的单个输出数据元组的产生过程进行重现,精确地回放有贡献的输入元组从进入处理系统后进行的所有处理过程。

这种能力使得用户能够重现特定输出结果的产生过程,以便对数据处理系统进行快速准确的修正与改进,因此,是十分必要的。

3大规模传感网数据溯源的挑战

基于大规模传感网的数据处理系统存在一些不同于传统数据处理系统的特点【19-20]:

3.1海量数据

大规模传感网中存在大量的传感器,传感器数据流在数据处理系统中汇合,进入系统的数据已经是海量的,如要为每个数据元组加上标注信息的话,会造成巨大的存储开销。通常传感网中的数据元组本身都比较小。而标注中要储存元组的出处及详细的演化过程,因此标注的大小通常比数据元组本身更大。

3.2低开销高吞吐量

面对高频率的输人数据元组,大规模传感网数据处理系统需要尽可能的降低系统处理的时间开销,才能保证整个数据处理过程的正确与高效。而基于标注的数据起源计算方法需要在每一步处理流程中为每一个输入数据元组添加标注信息,这个过程显然会大大增加整个系统处理过程的时间开销,减小系统吞吐量。3.3滑动窗口的使用

为了弥补数据流固有的缺陷(如数据元组延迟、数据元组丢失和数据元组顺序混乱等),大规模传感网数据处理系统的处理过程通常都是基于滑动窗口进行的。使用了滑动窗口以后,单个输人数据元组会对多个输出数据元组产生影响。当采用基于标注的数据起源计算方法时,单个输人数据元组会被重复的记录在多个输出数据元组的标注信息中,这将会大大增加系统的存储开销。

以上这些特点使得传统的数据溯源方法并不能很好的适用于大规模传感网数据处理系统,因此,研究适用于大规模传感网的数据溯源方法显得异常重要。

4结语

笔者首先对基于标注和基于查询反演的数据溯源方法分别做了简要介绍,详细分析了大规模传感网数据和数据处理的特点,并根据大规模传感网数据溯源的需求,考虑不同的应用场景进行了论证,最后通过与传统数据处理系统的比较,指出在大规模传感网数据处理系统上进行数据溯源面临的挑战。

参考文献:

【l】李亚子.数据起源标注模式与描述模型叽.数字图书馆,2007(7):10—13.

【2】刘喜平,万常选.数据起源研究综述田.科技广场,2005(1):47—52.

【3】王黎维,彭智勇,黄泽谦.集成对象代理数据库的科学工作流服务框架中的数据跟踪[J】.计算机学报,2008,31(5):12.

[41KarvounarakisG.ProvenanceforCollaborativeDataSharing[M].USAPennsylVania:uniVersityofPennsylvania,2009・

第4期纪佩宇.等:大规模传感网数据溯源技术研究59

【5】刘喜平,万常选.带起源的数据:模型和存储闭.计算机科学,2008(35):187—191.

【6】GeertsF,Kementsietsidis

enceonA,MilanoD.MONDRIAN:Annotatingandqueryingdatabasesthroughcolorsandblocks[C]//22ndInternationalConfer—DataEngineering(ICDE'06),Atlanta,Georsia,USA,2006:82—92.

WC,VijayvargiyaG.DBNotes:apost—itsystemforrelationaldatabasesbasedon【7】Chiticariu

tionalL,Tanprovenance[C]//2005ACMSIGMODInterna—ConferenceonManagementofData(SIGMOD'05),Baltimore,Maryland,USA,2005:942-944.

D,TannenV.Provenanceforaggregate[8】AmsterdamerY,Deutchqueries[J].ThirtiethACMSIGMOD—SIGACT—SIGARTSymposiumOHPrinciplesof

DatababeSystems,tIlens,Greece,201l,6:13—15.

[9】TannenV.Provenance

2010,3:22—26.fordatabasetransformations叨.13thInternationalConferenceonExtendingDatabaseTechnology,Lausanne,Switzerland,

【10]AgrawalP,Benjelloun0,SarmaAD,et以.Trio:asystemfordata,uncertainty,andlineage[C]//32ndInternationalConferenceonVeryLargeDataBases(VLDB"06),Seoul,Korea,2006:1151—1154.

【11】IkedaR,WidomJ.Panda:a

[12]Golabsystemforprovenanceanddata[J].IEEEDataEngineeringBuHetin,2010,33(3):1-4.survey[R].SchoolofComputerScience,UniversityofL,OzsuMT.Datastrcammanagementissues—a

B,BabuS,DatarM,eta1.ModelsWaterloo,TechnicalReport,2003.on【13】Babcockandissuesindatastreamsystems[C]ffrwenty-RstACMSIGMOD—SIGACT—SIGARTSymposiumPrinciplesofDatabaseSystems(PODS"02),Madison,Wisconsin,USA,2002:1一16.

U,ZdonikS.The8requirementsofreal—timestream

R,etdf.Multi-dimensionalrangequeries【14】StonebrakerM,Etintemel【15】“X,KimYJ,Govindan

【16】ReprocessingfJ].ACMSIGMODRecord,2005,34(4):42.47.in靶r№rnetworks[C]//ACMSenSys,2003.C,LetehnerJ,BalazinskaM,eta1.Eventqueriesoncorrelatedprobabilisticstreams[C]//SIGMODConf,2008:715—728.

over【17】TeHyD,GoldbergD。NicholsD,eta1.Continuousqueriesappend-onlydatabases[C]//1992ACMSIGMODinternationalconferenceonMan—

agementofdata(SIGMOD"92),SanDiego,California,USA,1992:321-330.

【18】GlavicB,EsmailiKS,FischerPM,eta1.Theeaseforfine-grainedstreamprovenanee[C]//InDatenbanksystemefarBusiness,Technologicund

Web(BTW)一Workshops,2011:58-61.

【19】LimHS,MoonYS,BertinoE.Researchissuesindata

onprovenanceforstreamingenvironments[C]//'2ndSIGSPATIALACMGIS2009InternationalWorkshopSecurityandPrivacyinGISandLBS(SPRINGL"09),Seatde,Washington,USA,2009:58—62.

E,eta1.Tacklingtheprovenance【20】ScheideggerC,KoopD,Santoschallengeonelayeratatime叨.ConcurrencyandComputation:Practiceand

Experience,2008,20(5):473—483.

[21】GrothP,MoreauL.Recordingprocessdocumentationforprovenance叨.IEEETransactionsonParallelandDistributedSystems,2009,20(9):

1246一】259.

Datatraceabilityoflarge-scalesensornetworks

JIPeiyul,CHENJun2,XIEXin2,LI

(1.DepartmentofPublicSecurityScienceand

2.SchoolofComputerScienceandQianmu2Institute,Nanjing210031,China;210094,Technology,JiangsuPoliceEngineering,NanjingUniversityofScienceandTechnology,NanjingChina)

Abstract:Thispaperhasrevieweddatatraceabilitytechnology,dataprocessingsystemoflarge—scalenetworks

points

works.

Keywords:sensornetworks;dataoutsensorandtheirapplication.Bycomparingitwiththetraditionaldataprocessingsystems,thispaperalsothechallengesconfrontedindatatraceabilityinthedataprocessingsystemoflarge——scalesensornet.traceability;dataprocessing责任编辑:艾淑艳

大规模传感网数据溯源技术研究

作者:

作者单位:

刊名:

英文刊名:

年,卷(期):纪佩宇, 陈俊, 谢新, 李千目, JI Peiyu, CHEN Jun, XIE Xin, LI Qianmu纪佩宇,JI Peiyu(江苏警官学院公安科技系,江苏南京,210031), 陈俊,谢新,李千目,CHEN Jun,XIEXin,LI Qianmu(南京理工大学 计算机科学与工程学院,江苏南京,210094)苏州科技学院学报(自然科学版)Journal of Suzhou University of Science and Technology(Natural Science)2013,30(4)

参考文献(21条)

1. 李亚子 数据起源标注模式与描述模型[期刊论文]-数字图书馆 2007(07)

2. 刘喜平;万常选 数据起源研究综述[期刊论文]-科技广场 2005(01)

3. 王黎维;彭智勇;黄泽谦 集成对象代理数据库的科学工作流服务框架中的数据跟踪[期刊论文]-计算机学报 2008(05)

4. Karvounarakis G Provenance for Collaborative Data Sharing 2009

5. 刘喜平;万常选 带起源的数据:模型和存储 2008(35)

6. Geerts F;Kementsietsidis A;Milano D MONDRIAN:Annotating andquerying databases through colors and blocks 2006

7. Chiticariu L;Tan W C Vijayvargiya G.DBNotes:a post-it system forrelational databases based on provenance 2005

8. Amsterdamer Y;Deutch D;Tannen V Provenance for aggregate queries 2011

9. Tannen V Provenance for database transformations 2010

10. Agrawal P;Benjelloun O;Sarma AD Trio:a system for data,uncertainty,and lineage 2006

11. Ikeda R;Widom J Panda:a system for provenance and data 2010(03)

12. Golab L;Ozsu M T Data stream management issues-a survey 2003

13. Babcock B;Babu S;Datar M Models and issues indata stream systems 2002

14. Stonebraker M;Etintemel U;Zdonik S The 8 requirements of real-timestream processing 2005(04)

15. Li X;Kim Y J;Govindan R Multi-dimensional range queries in sensor networks 2003

16. Re C;Letchner J;Balazinska M Event queries on correlated probabilistic streams 2008

17. Terry D;Goldberg D;Nichols D Continuous queries over append-only databases 1992

18. Glavic B;Esmaili K S;Fischer P M The case for fine-grained stream pmvenance 2011

19. Lim H S;Moon Y S;Beaino E Research issues in data provenance forstreaming environments 2009

20. Scheidegger C;Koop D;Santos E Tackling the provenance challenge one layer at a time[外文期刊] 2008(05)

21. Groth P;Moreau L Recording process documentation for provenance 2009(09)

引用本文格式:纪佩宇. 陈俊. 谢新. 李千目. JI Peiyu. CHEN Jun. XIE Xin. LI Qianmu 大规模传感网数据溯源技术研究[期刊论文]-苏州科技学院学报(自然科学版) 2013(4)


相关内容

  • 市物联网产业十二五发展规划
  • 按照市委、市政府关于“加快新兴产业发展,培育新的经济增长点”战略部署,为加快培育和发展我市物联网产业,特制定本规划。 一、发展现状 (一)国内外物联网产业发展态势。随着现代通信技术、计算机信息技术和传感技术的广泛应用,物联网相关产业得到了快速发展。国际电信联盟在xx年度的互联网报告中,首先提出“物联 ...

  • 物联网技术在农业中的应用
  • 146 广东农业科学2011年第16期 物联网技术在农业中的应用 张凌云,薛 飞 430071) (湖北省科技信息研究院,湖北武汉 摘 要:介绍了物联网的起源.概念及其体系构架,分析了物联网研究中的关键技术,包括射频识别(RFID)技术.传感器技 术.传感器网络技术.网络通信技术等:阐述了物联网技术 ...

  • 大数据与食品安全
  • 1.建立食品追溯系统需要物联网技术的运用和普及, 以期实现对食品生产.加工.运输.包装.储存等方面质量问题的监管, 理论上实现对食品从农田到餐桌的全面监控(陈园.熊犍,2012).1 2.用物联网技术, 从食品生产过程的角度出发, 构建出一个食品安全监理模型, 针对食品在生产过程中所产生的对人体生命 ...

  • 物联网技术研究
  • 摘 要:物联网技术是计算机科学领域的前沿技术,它的出现将掀起一次新的科技革命.物联网的目的是实现万物的互联,以识别.管理和控制.本文着重介绍了物联网产生的历程.体系结构和用到的关键技术并对物联网的应用作了简介. 关键词:物联网:网络感知:无线传感网络:云计算 1 物联网简介 物联网是继互联网之后的新 ...

  • 中国物联网发展研究报告
  • 中国物联网产业发展研究报告 网舟电信咨询 [关键词]:物联网.发展策略.商业模式.示范基地.应用创新.产学研合作 [内容提要]:中国已进入物联网发展的关键时期,各方积极关注.网舟依托2004年即开始的物联网研究.咨询经验积累,从物联网发展战略层面解读物联网发展机遇与挑战,为企业界提供物联网发展战略思 ...

  • 药品质量安全追溯系统设计方案-中德福林
  • 北京中德福林软件科技有限公司 药品质量安全追溯系统 2012.06.14 目录 第一章 概述........................................................................................................ ...

  • 智慧农业.农业物联网解决方案
  • 智慧农业.农业物联网解决方案 智慧农业是根据农业.畜牧业及林业生产实际需求及现代网络发展现状,采用顶层设计,统一规划,建设统一资源数据系统,统一平台,分部门实施,分系统建设,提供统一集成服务,统一运营维护,综合应用互联网.移动互联网.云计算.物联网.智能控制.智能决策.精准农业.卫星遥感等现代信息技 ...

  • 成功案例丨国家葡萄产业技术体系南宁试验站
  • 产品:夏黑葡萄.巨玫瑰葡萄.美人指葡萄.阳光玫瑰 规模:500亩 时间:2012年正式在各大园区投入使用慧云"智能农业监控系统" 用户简介 地处中国南疆的广西,是适宜葡萄生长的特殊区域,依靠独特的"一年两收"技术,即使在寒冷的冬天,人们依旧可以品尝到新鲜的优质 ...

  • 中国互联网+农业市场研究报告目录
  • 中国市场调研在线 行业市场研究属于企业战略研究范畴,作为当前应用最为广泛的咨询服务,其研究成果以报告形式呈现,通常包含以下内容: 一份专业的行业研究报告,注重指导企业或投资者了解该行业整体发展态势及经济运行状况,旨在为企业或投资者提供方向性的思路和参考. 一份有价值的行业研究报告,可以完成对行业系统 ...