一个就医行为模式挖掘算法

第28卷第8期

2011年8月

计算机应用与软件

ComputerApplicationsandSofh叮are

V01.28No.8Aug.2011

VPM:一个就医行为模式挖掘算法

坤1王爱荣2张敬谊3熊赘1朱扬勇1

1(复旦大学计算机科学技术学院上海200433)2(上海市医疗保险信息中心上海200040)3(万达信息股份有限公司上海2叭112)

摘要在医保基金管理中,第三方付费机制和信息不对称等问题造成了基金运作面临严重“道德风险”困境,医药机构和参保

人可能存在过度使用医保基金的倾向。通过对参保人就医行为序列的分析挖掘其就医行为模式,对于发现疾病发病规律、参保人健康状况以及是否存在违规欺诈行为,从而有效防范基金风险具有非常重要的作用。由于就医行为模式的特殊性,传统的序列模式挖掘算法在结果可用性和效率上存在问题,如挖掘结果丢失时间间隔较长的模式,挖掘过程需多次构造投影数据库等,因此难以直接应用。针对就医行为模式特点,提出了基于二叉树增长策略的向量模式挖掘算法VPM。实验表明,VPM算法在解决就医行为模式挖掘问题上具有良好的性能。关键词

医保基金

风险防控

就医行为模式

序列模式

数据挖掘

中图分类号TPl8文献标识码A

VPM:AMEDICALTREATMENTBEH渔VIOUR

zhouKunl

PATTERN

MININGALGoRITHM

zhuYangyon91

wang

Airon矿

zhangJingyi3

xiongYunl

。(&^∞f矿c0唧Ⅱ河sc切Ⅻ,凡也n£,n妇H蚵,舶o,。g舰i

20D钉j,蕊iM)

2(踟,t咖i胁以池f,mⅡm删倒白删如厅Dn灯。踟nghi20D∞D,醌iM)

3(%,幽3蝴泐co.,£m,踟,咖i

fund

20,J,2,吼iM)

f南m

Abs仃actWith

reg捌tomedicalimu啪ce

are

mnagement,pmbIe啪d甜villgtllird-parI)rpaymentmeclla仉i8m柚diIIllbal鲫ceof

Bothmedicalagencie8and

infon舱tionacknowledgement

patientstendpeople

to

to

c甜siIlgtheplightof”immoml时riskI.along埘ththeoperationoft}Iefund.

exeessivelyexploitt|lemedical

illsu埘lcefund.ThmugII

pattem,itise鹊ier

to

aIlalysisofmedical

treatIIlentbehaviour

seqllence“tllei璐ured

minetheirrnedical协Batmembehaviourdiscovertlle

regularities

ofdiseases,theheal出stamsoftheinsured

t0

peopk,锄dwhethertIlereis蚰y如udbeh8viour,tIlerefbreitplays粕impona眦rolein

of出emedicaltreatmentbehaviourpattem8inIIlining

contIoUiIlg妇fundrisk.【)ue

thespecial

nah啪

pattem,ther;eisd娟ciency

on

i协陀sult

f宅鹪ibilit),粕de伍ciency,such∞山emissiIlgoflongerinten,al

results锄dthe陀quirementforrel)eatedlybuildingshadowc鹬tiIlgd北Ib够∞,etc.for岫ditioIlalsequential

encounters

pa仕哪IIlining

pattem,tlle

algoritIlI璐.TIlereforetheirim啦ediateapplication明thorspropose

b删e玛Aiming

at

thespecialtiesofmedicaltreatmentbehaviour

novel

algoritb

b鹳ed

on

bi∞ry-tI傥铲州h

strategy,calledVectorPattem

Mini|lg址goritllIn(VPM).TheoreticaI删ysis

pattem

andexperimentalresultsshowthatVPMalgDri出mpe娟)rIIlweUinsolvingthepmblemofmedical廿eatmentbellaviourpattemmining.

Ke"r叫凼

Medical池u砌ce

fhndRisk

prevelni蚰粕dconhd

Medical

tre咖ent

bella“伽r

SequentiaI

pattem

DatarniIlillg

下一些特点。

引言

首先,表示方式不同。参保人就诊往往是突发性的,比如某些人平时不怎么生病,但最近忽然患有某类疾病,就诊次数将会频繁增长,如表l所示。

表l示例序列集

IDl

序列模式挖掘问题是Agrawal和晒kant在1995年研究交

易序列时第一次提出的…。许多应用领域都涉及到序列模式的挖掘。2】。医保基金风险防控领域中参保人就医行为模式就是一种序列模式。通过对就医行为模式的挖掘,可以得出疾病的发病规律;划分易患人群,提前做好防治工作;还可以筛选出就医行为异常的参保人,为审核监督提供重点监督管理对象,提高审核监督力度和效率。因此,如何挖掘就医行为模式对医保基金风险防控具有十分重要的意义。

就医行为是指参保人在一段时间内到医院就诊的次数。例如,参保人在第1、2、4、6天就诊,可以表示成序列模式<d。,如,也,cf6>。就医行为模式不同于一般的事务序列模式,它具有如

序列

dl,d2,d3,d4,d100,d30ldlo。dl∞,d加1'd撇,d203,d2阱

参保人l和参保人2存在一种相同的就医行为模式:连续

收稿日期:20lO一03—3l。上海市科委科研计划基金项目(0851l500203);上海市重点学科建设项目(Bll4)。周坤,硕士生,主研领域:数据挖掘,数据科学。

万方数据

124

计算机应用与软件

2011年

4天就诊。但如果仅从d,上看,是找不出这种模式的,因为面、d2、d3、d4显然不同于d∞,、d202、d抛、d枷。所以如果仅仅像交易型记录那样记录天数.算法难以挖掘出这种模式。因此必须将交易数据转化成向量形式,某天内用l表示就诊,0表示未就诊。这样我们就能挖掘出<l,l,1,1,0,0,…,O,l>与<l,0,0…0,l,1,l,l,O,0,l>之间的共有模式<l,1,l,l>。

其次,我们找的往往是精确的模式匹配,如<1lOl>与<1000lOl>显然是不同的就医行为模式。

第三,由于就诊治疗的阶段性,单条序列中可能含有较大时间间隔的重复模式。例如,<111000…000lll…>表示某参保人上个月化疗和本月化疗记录。

第四,就医行为模式以l开头和结尾。在就医行为模式中,l表示就诊,0表示未就诊,故以0开头或结尾的序列是没有实际意义的。例如模式<10lOl000>等价于模式<10101>,<0001010ll>等价于模式<1010ll>。

随着近年来的研究与发展,很多序列模式挖掘算法被提出。这些算法主要分为两大类,一类基于Apriori性质;另一类基于

频繁模式增长。代表性的算法有GS川J、P硝xSp锄嵋1。虽然这

些算法原则上可以处理更广泛的数据结构,但是它们最初都是针对交易序列模式设计的,难以直接应用到诸如生物、就医行为等序列数据上。因此,这些算法存在一些共同的问题。首先,带有约束的Pre6xspan等算法在投影数据库中查找序列模式时,引入了模式间隔约束,考虑了序列模式问可能存在间隔的情况。例如,针对就医模式序列<110l>和<1000101>,将会得到<l101>这样的频繁模式,但在第二条序列中包含的<110l>模式间间隔了没来就诊的三天<lo0010l>。从就诊意义上看,它与<110l>存在较大差异。其次,Prefixspan算法在创建初始投影数据库时,仅仅对单个符号的第一次出现进行投影,而忽略该符号在该条序列中重复出现的情况。因此,如果单条序列中含有重复的序列模式,并且这些模式超过了引入的时间间隔的约束,则这些模式将会丢失。而生物DNA序列、就医行为序列中常常含有这类序列模式。针对生物序列,Yun等提出BioPM算法旧J,很好地解决了生物序列模式挖掘问题。但针对就医模式问题,该算法会产生大量莺叠投影数据库。降低了算法效率。第三,大部分已有算法没有考虑到分布支持度和局部支持度的区别。多投影策略会造成模式误判,可能重复计算单条序列中的重复模式,从而把局部频繁的模式认为是全局频繁的。例如模式<111>是<10001110001ll>中的局部频繁序列,但可能并不是序列数据库中的全局频繁序列。因此需要记录模式对应的分布支持度和局部支持度,用以判断模式是全局频繁还是局

部频繁的。最后,无论是P蔺xsp锄算法还是BioPM算法,得到

的模式集中可能会存在冗余,即包含重叠的模式。这类问题并没有得到很好的解决。

本文针对就医行为模式的特点,提出了一个新的序列模式挖掘算法:向量模式挖掘算法VPM(Vector

Pattem

Mining)。该

算法采用二叉树增长的策略,通过建立VP.tree的方式挖掘频繁模式,避免产生不必要的投影数据库,并有效区分分布支持度和局部支持度。分析和实验表明,VPM算法具有良好的性能。1

问题定义

就医行为数据库D是元组<,D,|s>的集合,如表2所示。

,D表示参保人卡号,s表示就医行为模式。

万方数据

表2就医行为数据库D

IDdld2d3d4d5d6l1

10lO

lO

lO

l】

lOO1

ll

如果a是s的子序列,则称元组<,D,s>包含序列a。序列“在就医行为数据库中的支持度是数据库中包含a的元组个数,记为suppDn,(口)≥min-sup。给定一个正整数min—sup,表示最小支持度阈值。如果suppDn。(a)≥miIl_sup,则称序列a在数据库D中是频繁的。

2ⅦM:向量序列模式的挖掘算法

2.1基本概念

引理1分区问题。

①设{口,,口:,…,%}是D中所有长度为1的序列模式集合。在D中的所有序列模式可以分成n个不相交的子集,第i个子集(1≤i≤n)是具有前缀H1为o;的序列模式集。

②设a是长度为Z的序列模式,{崩,岛,…,卢。}是所有具有前缀d的长度为Z+钾的序列模式。包含前缀仅的所有序列模式的集合,a本身除外,可以被分为m个不相交的子集。第J个子集(m≥』≥1)是含有前缀鼠的序列模式。

引理l的证明参见P—ixSp柚算法。基于引理l,VPM算法可通过建立VP.tree树的方式递归地把问题分割成几个小问题解决,并且序列模式的每个子集也可以进一步划分,从而采用模式增长的方式来产生频繁模式。

定义l

VP一讹e一棵向量模式树定义为一棵有向根树r

=<y(r),E(r)>,其中,y(r)是结点集,每个结点口属于y(T),代表一个(或埘个)序元的值和它的分布支持度,分别记为仉口口£w和仉sup。E(r)cy(r)×y(r)是(有向)边集。r必须满足约束:V口Ey(r),口.8up≥min-sup(最小的支持度阈值)。根据就医行为数据库建立一个VP.tree,其根结点到每个叶子结点的路径序列就是序列模式。

定义2散列

散列是一种以线性表中每个元素的关键字

K为自变量,通过一种函数_II(K)计算出函数值,并以这个值作为一块连续存储空间的单元地址,将该元素存储到这个单元中的存储方法。

散列技术可以用来压缩数据库,减少,/D次数。我们根据序列中l的个数将其散列到不同的桶中。如图1所示。

桶地址

{1000011000lIll加l11ll∞l

ll}

I咖lO

11∞IO

fllOlO

{1100儿

檑内容

ll

ll

100l∞

fllooO

}l

图l散列表:根据每条序列中I的个数将其映射到散列表的不同桶中

第8期

周坤等:VPM:一个就医行为模式挖掘算法

2.2、甲M算法的序列模式产生

2.3

VPM算法

根据以上定义和基本概念,下面给出基于频繁模式增长的

…w22。

例l设就医行为数据库D如表3所示.最小支持度闺值

无候选生成的就医行为模式挖掘算法VPM。

表3就E行为蕞式数据牟D

算法VPM模式。

使用Vnn槐,通过模式增长挖掘就医序列

输入D:就医行为模式散据库;一一sup:最小支持度计数

阈值。

输出就医行为模式集。方法

(1)为降低ⅣO次数.将数据库D中就医序列读人戢列表

就医行为模式挖掘过程如下:

步骤1为降低∥0攻数,首先将就医模式数据库D中的记录存^散列表P中。由于本例所有序列都古有4个1,故映射到同一个桶中。如表4所示。

襄4靛到囊v

V中。

(2)接以下步骤构造vnⅡ恍:

(a)首先创建VP—盹e的根结点,以1标记它。

(b)分别刨建根结点的左右子结点,分别以0,l标记之。记录该结点到根结点的路径,存人栈中。出栈,形成扶根结点到该结点的序列‰并扫描散列表V,如果散列表中序列q古有该序列^,则其支持度s。8”p加l。统计根结点左右子树的支持度,

如果某子树s..eup㈣n-暑“p,则删除该子树,并记根结点该子

树为Ⅳ““如果根结点左右子树均为№“,则该结点为叶子结

点,人队列Q|Jeue,Q—e中用于保存所有叶子结点。

(c)递归执行(b),直到VP・t眦所有叶子结点的左右子树

步骤2创建根结点.用慎l标记。

步骤3划分搜索空问。就医行为模式表示成二元向量的形式,其序列模式的完全集可根据2个前缀划分成:(1)前缀为(0>的子集;(2)前缀为<l>的子集。创建根结点的左右子树结点,分别用O.1标记。

步骤4支持度计数。记录从根结点到该序元的路径10和1】.其中10含有1个l,故扫描散列表v中大于等于1的桶地址,11吉有2个1.故扫描散列表v中大于等于2的桶地址。这里都扫描4号桶。如果桶中向量c;包含序列10,则口..s“p加l(即使向量e.包古多条10序列,也仅仅对-..8“p贡献了1,从而有效区别分布支持度和局部支持度问题)。统计10序列和11序列的支持度.1E为(0:4),<1:3>,其中,符号<序元:计数)表示从根结点到该序元的支持度计数。如果该序元的支持度计数”sup(mln-sup,则删除该序元结点.并记该序元的父结点该子树为空。

径}

(b)br队列中每个叶于结点B,EOm∞do

均为空。

(3)通过调用叫‘p.Jt一呻enc。pallem(VP岫,Queue)生成

s;}建立韧始栈.月f保存从叶}结点到根结点∞路

就医序列模式集。

(4)‰k

(c)Hp叫

(d)(e)

(f)Ⅲ“l

B埘d(5.){将该结点^栈f

%=s…i日期到Z结点}

5…uu

(g)mⅢ

(h)(】)∞db‘

(_)∞m目…P‘y

(k)R咖J1I=u8t

sF…p叩(){±成序列模式}

(4)删除序列模式中可能含有的0结尾,然后判断删踪后的序列是否是序列模式集中其他序列的前缀。如果是,删除该序列,从而去除冗余。最后输出就医行为模式集。

3实验分析

3l数据集和实验环境

本实验的散据集来自某市医疗保险局提供的就医模式序列数据库。该数据库中共收集了100天内就诊20状以上的

192

790名参保人就诊记录。

实验程序在内存为2G、处理器为I““嗍酷睿双核2

xP

24

cm的pc机上运行.操作系统为wlndow5验程序采用hH语言编写。

中叶于结点之间的指针链接(图中虚日2对&3就日模式

P曲聃lond。实

线所示),这样有助于依次回蝴到根结数据库D建i的v^№

点,输出序列模式。

步骤7就医行为模式是从根结点到每个叶子结点的路径的汇集。奉例中,行为模式为;<1001001),(11>f。

3.2实验结果

实验的目的是对比VPM算法和胁nxsp蛆算法在不同阈

值支持度下得出的序刊模式的个数和长度。

(下转第1帅贾l

万方数据

180

计算机应用与软件2011年

实验过程中,本文算法中的式(5)改为:s溉(邪,粥R)=÷[s拥(S,,彤)+s拥(如,肋)]

文献[4]算法和本文算法的平均查全率分别为73%和84%,平均查准率分别为8l%和79%,两种算法的平均查准率相近,本文算法的平均查全率较高。分析得知,文献[4]的算法只注重用于服务匹配的领域本体概念间的子类关系,忽略了概念间的其它多元关系,导致概念的语义不能被完整地反映出来,从而影响了算法的查全率。本文算法在对服务进行匹配时利用了本体概念间的多元关系,因而在整体性能上较好。

4结语

服务匹配算法是web服务发现的核心技术。本文提出的基于语义相似度的web服务匹配算法,利用本体概念间的多元关系定义了一种语义距离,在此基础上,给出概念间的语义相似度计算方法,进而通过计算与服务功能参数集中参数相应的本体概念间的语义相似度实现了web服务的匹配。实验的结果表明,与文献[4]中的算法相比,本文提出的算法具有较好的整体性能。本文主要针对服务的功能匹配进行了研究,但没有考虑到服务的QoS属性,所以下一步工作是研究服务的Q0s匹配,以使服务匹配算法迸一步完善。

参考文献

[1]廖祝华,刘建勋,刘毅志。等.web服务发现技术研究综述[J].情

报学报,2008,27(2):186一192.

[2]吕庆聪,周集良,杨帆,等.普适计算机服务匹配技术研究[J].计

算机科学,2009。36(11):182—185.【3]P∞luoci

M。Kaw出哪T,Payne

R,眦a1.sem明ticMatching0f

web

seⅣic∞c印labiliti∞[c]//PT∞eedings

0fthe

First

Intemational

sem如ticWeb

Confe地nce(ISwC).Sardima,ltali8,2002:333

—347.

[4]彭晖,史忠植。邱莉榕,等.基于本体概念相似度的语义web服务

匹配算法[J].计算机工程,2008,34(15):5l一53.

[5]黄志成,李华.改进的语义web服务匹配算法设计与实现[J].计

算机工程,2009,35(20):88—90.

[6]M8而nD,BursteinM。HobbsJ。e【a1.OwL・s:se眦nticMarIc印h

web

sefvi啷[EB/OL].[2004一ll一22].http//w’哪.’d.叫

SIlbnlis8ion/OWL.s/.

[7]顾金謇,王芳.关于本体论的研究综述[J].情报科学,2007,25

(6):949—956.

[8]刘汉兴。林旭东,田绪红.基于本体的自动答疑系统的研究与实现

[J].计算机应用,20lO,30(2):415—418.

[9】姜华.一种基于本体的概念语义相似度计算研究[J].计算机应用

与软件,2009,26(7):143一145.[10】Kh丑lik

A,蹦∞B.OwLs[EB/OL].[2006一12—01].hup:∥

p玎Djec协.senn州出∞nt商.o口g/矗∥downloBd.php/255/o岬15一tc2.面p.

【上接第125页)

实验结果表明,VPM算法得出的序列模式结果集中序列的个数和长度明显比PrefixSp柚算法的多,尤其在阈值较小的情况下。此时满足条件的模式大大增加。并且进一步的实验对比表明。VPM算法的序列模式结果集中包含了Pr;efi】【sp锄算法得出的所有序列模式,表明了Pre6)【sp如算法并不能获得所有的就医行为模式,遗漏了参保人阶段性就诊治疗所产生的含有时

万方数据

间间隔较长的重复序列模式。而VPM算法能很好地挖掘出这类行为模式。如图3、图4、表5所示。

800

’’

t、’

600

.o

旨枷

\\

-、~,.

Z200

‘\

~~~●

+^

lO%

20%30%

臣三运巫三三固

图3不同支持度下序列模式个数比较

2520

~~1

雹15

●h一

姜lo

\-

5—、●

lo%

2096

3096

巨三匦五匠翔

Support

threshold(%)

图4不同支持度下序列模式长度比较表5在不同的支持度下P代fixS呻n和Ⅵ礓I

结果集中序列模式个数和长度的比较支持度

VPM

Pr蛳xSpanlO%

kngth:22

kngt}I:16

Numbe硌:736

Numbe瑁:353

20%

kngth:22

kngth:11

NulIlbe糟:382

Humbe玛:131

30%

k“Sth:18

kngth:7

Numl)ers:253

Numbers:90

实验结果表明。针对就医行为模式的特点,VPM算法优于

Pre脑paIl算法。

本文针对就医行为模式的特点,提出了一个新的就医行为目前,VPM算法已被成功应用在某市医保基金风险防控数据仓库项目的数据挖掘过程中,为后续的医保风险防控、决策支持提供帮助。进一步工作我们还将考虑内存建树、数据压缩等问参考文献

[1]Ag瑚同R,蹦k∞tR.Mining∞qlI∞t试pBttems:Gemraliz“o邶蜘d

pe而mmceimpn玳ment8[c]//EDBT。1996.

[2]Ji蛐Pei,eIa1.Pr曲xsp曲:MinillgsequentiaIPattem8E币ciendyby

Pt幽x・P叫佻l耐P砒t哪G彤wtII[c]//Dala

Engineering,2001.

[3])(iorIgY,动u

YY.BioPM:An

Emci棚tAlgo削【lm缸ProteinM0tif

MiniIIg[c】//lcBBE,200r7.

【4]A印哪alR,srik蛐t

R.f.聃t

al窜丽tllmforminingass∞i砒ionmles

[C]//VLDB.1994.

[5])【i∞gY。办uYY.AMum・Supports—Ba∞dSequential

Pan哪Mini哩

‰h∞109y№eedi咿,舢.

A蛳tl瑚【c]//hnelTIatiollal酬毫嗍ce硼c伽puter如dlnfbn眦ti∞

4结语

模式挖掘算法VPM。实验表明,该算法优于Prefi)【Span算法。题。

VPM:一个就医行为模式挖掘算法

作者:作者单位:

周坤, 王爱荣, 张敬谊, 熊赟, 朱扬勇, Zhou Kun, Wang Airong, Zhang Jingyi, Xiong Yun, Zhu Yangyong

周坤,熊赟,朱扬勇,Zhou Kun,Xiong Yun,Zhu Yangyong(复旦大学计算机科学技术学院,上海,200433) , 王爱荣,Wang Airong(上海市医疗保险信息中心,上海,200040), 张敬谊,ZhangJingyi(万达信息股份有限公司,上海,201112)计算机应用与软件

COMPUTER APPLICATIONS AND SOFTWARE2011,28(8)

刊名:英文刊名:年,卷(期):

参考文献(5条)

1. Agrawal R;Srikant R Mining sequential patterns:Generalizations and performance improvements 19962. Jian Pei PrefixSpan:Mining Sequential Patterns Efficiently by Prefix-Projected Pattern Growth 20013. Xiong Y;Zhu Y Y BioPM:An Efficient Algorithm lor Protein Motif Mining 20074. Agrawal R;Srikant R Fast algorithms for mining association rules 1994

5. Xiong Y;Zhu Y Y A Multi-Supports-Based Sequential Pattern Mining Algorithm 2005

本文链接:http://d.wanfangdata.com.cn/Periodical_jsjyyyrj201108036.aspx

第28卷第8期

2011年8月

计算机应用与软件

ComputerApplicationsandSofh叮are

V01.28No.8Aug.2011

VPM:一个就医行为模式挖掘算法

坤1王爱荣2张敬谊3熊赘1朱扬勇1

1(复旦大学计算机科学技术学院上海200433)2(上海市医疗保险信息中心上海200040)3(万达信息股份有限公司上海2叭112)

摘要在医保基金管理中,第三方付费机制和信息不对称等问题造成了基金运作面临严重“道德风险”困境,医药机构和参保

人可能存在过度使用医保基金的倾向。通过对参保人就医行为序列的分析挖掘其就医行为模式,对于发现疾病发病规律、参保人健康状况以及是否存在违规欺诈行为,从而有效防范基金风险具有非常重要的作用。由于就医行为模式的特殊性,传统的序列模式挖掘算法在结果可用性和效率上存在问题,如挖掘结果丢失时间间隔较长的模式,挖掘过程需多次构造投影数据库等,因此难以直接应用。针对就医行为模式特点,提出了基于二叉树增长策略的向量模式挖掘算法VPM。实验表明,VPM算法在解决就医行为模式挖掘问题上具有良好的性能。关键词

医保基金

风险防控

就医行为模式

序列模式

数据挖掘

中图分类号TPl8文献标识码A

VPM:AMEDICALTREATMENTBEH渔VIOUR

zhouKunl

PATTERN

MININGALGoRITHM

zhuYangyon91

wang

Airon矿

zhangJingyi3

xiongYunl

。(&^∞f矿c0唧Ⅱ河sc切Ⅻ,凡也n£,n妇H蚵,舶o,。g舰i

20D钉j,蕊iM)

2(踟,t咖i胁以池f,mⅡm删倒白删如厅Dn灯。踟nghi20D∞D,醌iM)

3(%,幽3蝴泐co.,£m,踟,咖i

fund

20,J,2,吼iM)

f南m

Abs仃actWith

reg捌tomedicalimu啪ce

are

mnagement,pmbIe啪d甜villgtllird-parI)rpaymentmeclla仉i8m柚diIIllbal鲫ceof

Bothmedicalagencie8and

infon舱tionacknowledgement

patientstendpeople

to

to

c甜siIlgtheplightof”immoml时riskI.along埘ththeoperationoft}Iefund.

exeessivelyexploitt|lemedical

illsu埘lcefund.ThmugII

pattem,itise鹊ier

to

aIlalysisofmedical

treatIIlentbehaviour

seqllence“tllei璐ured

minetheirrnedical协Batmembehaviourdiscovertlle

regularities

ofdiseases,theheal出stamsoftheinsured

t0

peopk,锄dwhethertIlereis蚰y如udbeh8viour,tIlerefbreitplays粕impona眦rolein

of出emedicaltreatmentbehaviourpattem8inIIlining

contIoUiIlg妇fundrisk.【)ue

thespecial

nah啪

pattem,ther;eisd娟ciency

on

i协陀sult

f宅鹪ibilit),粕de伍ciency,such∞山emissiIlgoflongerinten,al

results锄dthe陀quirementforrel)eatedlybuildingshadowc鹬tiIlgd北Ib够∞,etc.for岫ditioIlalsequential

encounters

pa仕哪IIlining

pattem,tlle

algoritIlI璐.TIlereforetheirim啦ediateapplication明thorspropose

b删e玛Aiming

at

thespecialtiesofmedicaltreatmentbehaviour

novel

algoritb

b鹳ed

on

bi∞ry-tI傥铲州h

strategy,calledVectorPattem

Mini|lg址goritllIn(VPM).TheoreticaI删ysis

pattem

andexperimentalresultsshowthatVPMalgDri出mpe娟)rIIlweUinsolvingthepmblemofmedical廿eatmentbellaviourpattemmining.

Ke"r叫凼

Medical池u砌ce

fhndRisk

prevelni蚰粕dconhd

Medical

tre咖ent

bella“伽r

SequentiaI

pattem

DatarniIlillg

下一些特点。

引言

首先,表示方式不同。参保人就诊往往是突发性的,比如某些人平时不怎么生病,但最近忽然患有某类疾病,就诊次数将会频繁增长,如表l所示。

表l示例序列集

IDl

序列模式挖掘问题是Agrawal和晒kant在1995年研究交

易序列时第一次提出的…。许多应用领域都涉及到序列模式的挖掘。2】。医保基金风险防控领域中参保人就医行为模式就是一种序列模式。通过对就医行为模式的挖掘,可以得出疾病的发病规律;划分易患人群,提前做好防治工作;还可以筛选出就医行为异常的参保人,为审核监督提供重点监督管理对象,提高审核监督力度和效率。因此,如何挖掘就医行为模式对医保基金风险防控具有十分重要的意义。

就医行为是指参保人在一段时间内到医院就诊的次数。例如,参保人在第1、2、4、6天就诊,可以表示成序列模式<d。,如,也,cf6>。就医行为模式不同于一般的事务序列模式,它具有如

序列

dl,d2,d3,d4,d100,d30ldlo。dl∞,d加1'd撇,d203,d2阱

参保人l和参保人2存在一种相同的就医行为模式:连续

收稿日期:20lO一03—3l。上海市科委科研计划基金项目(0851l500203);上海市重点学科建设项目(Bll4)。周坤,硕士生,主研领域:数据挖掘,数据科学。

万方数据

124

计算机应用与软件

2011年

4天就诊。但如果仅从d,上看,是找不出这种模式的,因为面、d2、d3、d4显然不同于d∞,、d202、d抛、d枷。所以如果仅仅像交易型记录那样记录天数.算法难以挖掘出这种模式。因此必须将交易数据转化成向量形式,某天内用l表示就诊,0表示未就诊。这样我们就能挖掘出<l,l,1,1,0,0,…,O,l>与<l,0,0…0,l,1,l,l,O,0,l>之间的共有模式<l,1,l,l>。

其次,我们找的往往是精确的模式匹配,如<1lOl>与<1000lOl>显然是不同的就医行为模式。

第三,由于就诊治疗的阶段性,单条序列中可能含有较大时间间隔的重复模式。例如,<111000…000lll…>表示某参保人上个月化疗和本月化疗记录。

第四,就医行为模式以l开头和结尾。在就医行为模式中,l表示就诊,0表示未就诊,故以0开头或结尾的序列是没有实际意义的。例如模式<10lOl000>等价于模式<10101>,<0001010ll>等价于模式<1010ll>。

随着近年来的研究与发展,很多序列模式挖掘算法被提出。这些算法主要分为两大类,一类基于Apriori性质;另一类基于

频繁模式增长。代表性的算法有GS川J、P硝xSp锄嵋1。虽然这

些算法原则上可以处理更广泛的数据结构,但是它们最初都是针对交易序列模式设计的,难以直接应用到诸如生物、就医行为等序列数据上。因此,这些算法存在一些共同的问题。首先,带有约束的Pre6xspan等算法在投影数据库中查找序列模式时,引入了模式间隔约束,考虑了序列模式问可能存在间隔的情况。例如,针对就医模式序列<110l>和<1000101>,将会得到<l101>这样的频繁模式,但在第二条序列中包含的<110l>模式间间隔了没来就诊的三天<lo0010l>。从就诊意义上看,它与<110l>存在较大差异。其次,Prefixspan算法在创建初始投影数据库时,仅仅对单个符号的第一次出现进行投影,而忽略该符号在该条序列中重复出现的情况。因此,如果单条序列中含有重复的序列模式,并且这些模式超过了引入的时间间隔的约束,则这些模式将会丢失。而生物DNA序列、就医行为序列中常常含有这类序列模式。针对生物序列,Yun等提出BioPM算法旧J,很好地解决了生物序列模式挖掘问题。但针对就医模式问题,该算法会产生大量莺叠投影数据库。降低了算法效率。第三,大部分已有算法没有考虑到分布支持度和局部支持度的区别。多投影策略会造成模式误判,可能重复计算单条序列中的重复模式,从而把局部频繁的模式认为是全局频繁的。例如模式<111>是<10001110001ll>中的局部频繁序列,但可能并不是序列数据库中的全局频繁序列。因此需要记录模式对应的分布支持度和局部支持度,用以判断模式是全局频繁还是局

部频繁的。最后,无论是P蔺xsp锄算法还是BioPM算法,得到

的模式集中可能会存在冗余,即包含重叠的模式。这类问题并没有得到很好的解决。

本文针对就医行为模式的特点,提出了一个新的序列模式挖掘算法:向量模式挖掘算法VPM(Vector

Pattem

Mining)。该

算法采用二叉树增长的策略,通过建立VP.tree的方式挖掘频繁模式,避免产生不必要的投影数据库,并有效区分分布支持度和局部支持度。分析和实验表明,VPM算法具有良好的性能。1

问题定义

就医行为数据库D是元组<,D,|s>的集合,如表2所示。

,D表示参保人卡号,s表示就医行为模式。

万方数据

表2就医行为数据库D

IDdld2d3d4d5d6l1

10lO

lO

lO

l】

lOO1

ll

如果a是s的子序列,则称元组<,D,s>包含序列a。序列“在就医行为数据库中的支持度是数据库中包含a的元组个数,记为suppDn,(口)≥min-sup。给定一个正整数min—sup,表示最小支持度阈值。如果suppDn。(a)≥miIl_sup,则称序列a在数据库D中是频繁的。

2ⅦM:向量序列模式的挖掘算法

2.1基本概念

引理1分区问题。

①设{口,,口:,…,%}是D中所有长度为1的序列模式集合。在D中的所有序列模式可以分成n个不相交的子集,第i个子集(1≤i≤n)是具有前缀H1为o;的序列模式集。

②设a是长度为Z的序列模式,{崩,岛,…,卢。}是所有具有前缀d的长度为Z+钾的序列模式。包含前缀仅的所有序列模式的集合,a本身除外,可以被分为m个不相交的子集。第J个子集(m≥』≥1)是含有前缀鼠的序列模式。

引理l的证明参见P—ixSp柚算法。基于引理l,VPM算法可通过建立VP.tree树的方式递归地把问题分割成几个小问题解决,并且序列模式的每个子集也可以进一步划分,从而采用模式增长的方式来产生频繁模式。

定义l

VP一讹e一棵向量模式树定义为一棵有向根树r

=<y(r),E(r)>,其中,y(r)是结点集,每个结点口属于y(T),代表一个(或埘个)序元的值和它的分布支持度,分别记为仉口口£w和仉sup。E(r)cy(r)×y(r)是(有向)边集。r必须满足约束:V口Ey(r),口.8up≥min-sup(最小的支持度阈值)。根据就医行为数据库建立一个VP.tree,其根结点到每个叶子结点的路径序列就是序列模式。

定义2散列

散列是一种以线性表中每个元素的关键字

K为自变量,通过一种函数_II(K)计算出函数值,并以这个值作为一块连续存储空间的单元地址,将该元素存储到这个单元中的存储方法。

散列技术可以用来压缩数据库,减少,/D次数。我们根据序列中l的个数将其散列到不同的桶中。如图1所示。

桶地址

{1000011000lIll加l11ll∞l

ll}

I咖lO

11∞IO

fllOlO

{1100儿

檑内容

ll

ll

100l∞

fllooO

}l

图l散列表:根据每条序列中I的个数将其映射到散列表的不同桶中

第8期

周坤等:VPM:一个就医行为模式挖掘算法

2.2、甲M算法的序列模式产生

2.3

VPM算法

根据以上定义和基本概念,下面给出基于频繁模式增长的

…w22。

例l设就医行为数据库D如表3所示.最小支持度闺值

无候选生成的就医行为模式挖掘算法VPM。

表3就E行为蕞式数据牟D

算法VPM模式。

使用Vnn槐,通过模式增长挖掘就医序列

输入D:就医行为模式散据库;一一sup:最小支持度计数

阈值。

输出就医行为模式集。方法

(1)为降低ⅣO次数.将数据库D中就医序列读人戢列表

就医行为模式挖掘过程如下:

步骤1为降低∥0攻数,首先将就医模式数据库D中的记录存^散列表P中。由于本例所有序列都古有4个1,故映射到同一个桶中。如表4所示。

襄4靛到囊v

V中。

(2)接以下步骤构造vnⅡ恍:

(a)首先创建VP—盹e的根结点,以1标记它。

(b)分别刨建根结点的左右子结点,分别以0,l标记之。记录该结点到根结点的路径,存人栈中。出栈,形成扶根结点到该结点的序列‰并扫描散列表V,如果散列表中序列q古有该序列^,则其支持度s。8”p加l。统计根结点左右子树的支持度,

如果某子树s..eup㈣n-暑“p,则删除该子树,并记根结点该子

树为Ⅳ““如果根结点左右子树均为№“,则该结点为叶子结

点,人队列Q|Jeue,Q—e中用于保存所有叶子结点。

(c)递归执行(b),直到VP・t眦所有叶子结点的左右子树

步骤2创建根结点.用慎l标记。

步骤3划分搜索空问。就医行为模式表示成二元向量的形式,其序列模式的完全集可根据2个前缀划分成:(1)前缀为(0>的子集;(2)前缀为<l>的子集。创建根结点的左右子树结点,分别用O.1标记。

步骤4支持度计数。记录从根结点到该序元的路径10和1】.其中10含有1个l,故扫描散列表v中大于等于1的桶地址,11吉有2个1.故扫描散列表v中大于等于2的桶地址。这里都扫描4号桶。如果桶中向量c;包含序列10,则口..s“p加l(即使向量e.包古多条10序列,也仅仅对-..8“p贡献了1,从而有效区别分布支持度和局部支持度问题)。统计10序列和11序列的支持度.1E为(0:4),<1:3>,其中,符号<序元:计数)表示从根结点到该序元的支持度计数。如果该序元的支持度计数”sup(mln-sup,则删除该序元结点.并记该序元的父结点该子树为空。

径}

(b)br队列中每个叶于结点B,EOm∞do

均为空。

(3)通过调用叫‘p.Jt一呻enc。pallem(VP岫,Queue)生成

s;}建立韧始栈.月f保存从叶}结点到根结点∞路

就医序列模式集。

(4)‰k

(c)Hp叫

(d)(e)

(f)Ⅲ“l

B埘d(5.){将该结点^栈f

%=s…i日期到Z结点}

5…uu

(g)mⅢ

(h)(】)∞db‘

(_)∞m目…P‘y

(k)R咖J1I=u8t

sF…p叩(){±成序列模式}

(4)删除序列模式中可能含有的0结尾,然后判断删踪后的序列是否是序列模式集中其他序列的前缀。如果是,删除该序列,从而去除冗余。最后输出就医行为模式集。

3实验分析

3l数据集和实验环境

本实验的散据集来自某市医疗保险局提供的就医模式序列数据库。该数据库中共收集了100天内就诊20状以上的

192

790名参保人就诊记录。

实验程序在内存为2G、处理器为I““嗍酷睿双核2

xP

24

cm的pc机上运行.操作系统为wlndow5验程序采用hH语言编写。

中叶于结点之间的指针链接(图中虚日2对&3就日模式

P曲聃lond。实

线所示),这样有助于依次回蝴到根结数据库D建i的v^№

点,输出序列模式。

步骤7就医行为模式是从根结点到每个叶子结点的路径的汇集。奉例中,行为模式为;<1001001),(11>f。

3.2实验结果

实验的目的是对比VPM算法和胁nxsp蛆算法在不同阈

值支持度下得出的序刊模式的个数和长度。

(下转第1帅贾l

万方数据

180

计算机应用与软件2011年

实验过程中,本文算法中的式(5)改为:s溉(邪,粥R)=÷[s拥(S,,彤)+s拥(如,肋)]

文献[4]算法和本文算法的平均查全率分别为73%和84%,平均查准率分别为8l%和79%,两种算法的平均查准率相近,本文算法的平均查全率较高。分析得知,文献[4]的算法只注重用于服务匹配的领域本体概念间的子类关系,忽略了概念间的其它多元关系,导致概念的语义不能被完整地反映出来,从而影响了算法的查全率。本文算法在对服务进行匹配时利用了本体概念间的多元关系,因而在整体性能上较好。

4结语

服务匹配算法是web服务发现的核心技术。本文提出的基于语义相似度的web服务匹配算法,利用本体概念间的多元关系定义了一种语义距离,在此基础上,给出概念间的语义相似度计算方法,进而通过计算与服务功能参数集中参数相应的本体概念间的语义相似度实现了web服务的匹配。实验的结果表明,与文献[4]中的算法相比,本文提出的算法具有较好的整体性能。本文主要针对服务的功能匹配进行了研究,但没有考虑到服务的QoS属性,所以下一步工作是研究服务的Q0s匹配,以使服务匹配算法迸一步完善。

参考文献

[1]廖祝华,刘建勋,刘毅志。等.web服务发现技术研究综述[J].情

报学报,2008,27(2):186一192.

[2]吕庆聪,周集良,杨帆,等.普适计算机服务匹配技术研究[J].计

算机科学,2009。36(11):182—185.【3]P∞luoci

M。Kaw出哪T,Payne

R,眦a1.sem明ticMatching0f

web

seⅣic∞c印labiliti∞[c]//PT∞eedings

0fthe

First

Intemational

sem如ticWeb

Confe地nce(ISwC).Sardima,ltali8,2002:333

—347.

[4]彭晖,史忠植。邱莉榕,等.基于本体概念相似度的语义web服务

匹配算法[J].计算机工程,2008,34(15):5l一53.

[5]黄志成,李华.改进的语义web服务匹配算法设计与实现[J].计

算机工程,2009,35(20):88—90.

[6]M8而nD,BursteinM。HobbsJ。e【a1.OwL・s:se眦nticMarIc印h

web

sefvi啷[EB/OL].[2004一ll一22].http//w’哪.’d.叫

SIlbnlis8ion/OWL.s/.

[7]顾金謇,王芳.关于本体论的研究综述[J].情报科学,2007,25

(6):949—956.

[8]刘汉兴。林旭东,田绪红.基于本体的自动答疑系统的研究与实现

[J].计算机应用,20lO,30(2):415—418.

[9】姜华.一种基于本体的概念语义相似度计算研究[J].计算机应用

与软件,2009,26(7):143一145.[10】Kh丑lik

A,蹦∞B.OwLs[EB/OL].[2006一12—01].hup:∥

p玎Djec协.senn州出∞nt商.o口g/矗∥downloBd.php/255/o岬15一tc2.面p.

【上接第125页)

实验结果表明,VPM算法得出的序列模式结果集中序列的个数和长度明显比PrefixSp柚算法的多,尤其在阈值较小的情况下。此时满足条件的模式大大增加。并且进一步的实验对比表明。VPM算法的序列模式结果集中包含了Pr;efi】【sp锄算法得出的所有序列模式,表明了Pre6)【sp如算法并不能获得所有的就医行为模式,遗漏了参保人阶段性就诊治疗所产生的含有时

万方数据

间间隔较长的重复序列模式。而VPM算法能很好地挖掘出这类行为模式。如图3、图4、表5所示。

800

’’

t、’

600

.o

旨枷

\\

-、~,.

Z200

‘\

~~~●

+^

lO%

20%30%

臣三运巫三三固

图3不同支持度下序列模式个数比较

2520

~~1

雹15

●h一

姜lo

\-

5—、●

lo%

2096

3096

巨三匦五匠翔

Support

threshold(%)

图4不同支持度下序列模式长度比较表5在不同的支持度下P代fixS呻n和Ⅵ礓I

结果集中序列模式个数和长度的比较支持度

VPM

Pr蛳xSpanlO%

kngth:22

kngt}I:16

Numbe硌:736

Numbe瑁:353

20%

kngth:22

kngth:11

NulIlbe糟:382

Humbe玛:131

30%

k“Sth:18

kngth:7

Numl)ers:253

Numbers:90

实验结果表明。针对就医行为模式的特点,VPM算法优于

Pre脑paIl算法。

本文针对就医行为模式的特点,提出了一个新的就医行为目前,VPM算法已被成功应用在某市医保基金风险防控数据仓库项目的数据挖掘过程中,为后续的医保风险防控、决策支持提供帮助。进一步工作我们还将考虑内存建树、数据压缩等问参考文献

[1]Ag瑚同R,蹦k∞tR.Mining∞qlI∞t试pBttems:Gemraliz“o邶蜘d

pe而mmceimpn玳ment8[c]//EDBT。1996.

[2]Ji蛐Pei,eIa1.Pr曲xsp曲:MinillgsequentiaIPattem8E币ciendyby

Pt幽x・P叫佻l耐P砒t哪G彤wtII[c]//Dala

Engineering,2001.

[3])(iorIgY,动u

YY.BioPM:An

Emci棚tAlgo削【lm缸ProteinM0tif

MiniIIg[c】//lcBBE,200r7.

【4]A印哪alR,srik蛐t

R.f.聃t

al窜丽tllmforminingass∞i砒ionmles

[C]//VLDB.1994.

[5])【i∞gY。办uYY.AMum・Supports—Ba∞dSequential

Pan哪Mini哩

‰h∞109y№eedi咿,舢.

A蛳tl瑚【c]//hnelTIatiollal酬毫嗍ce硼c伽puter如dlnfbn眦ti∞

4结语

模式挖掘算法VPM。实验表明,该算法优于Prefi)【Span算法。题。

VPM:一个就医行为模式挖掘算法

作者:作者单位:

周坤, 王爱荣, 张敬谊, 熊赟, 朱扬勇, Zhou Kun, Wang Airong, Zhang Jingyi, Xiong Yun, Zhu Yangyong

周坤,熊赟,朱扬勇,Zhou Kun,Xiong Yun,Zhu Yangyong(复旦大学计算机科学技术学院,上海,200433) , 王爱荣,Wang Airong(上海市医疗保险信息中心,上海,200040), 张敬谊,ZhangJingyi(万达信息股份有限公司,上海,201112)计算机应用与软件

COMPUTER APPLICATIONS AND SOFTWARE2011,28(8)

刊名:英文刊名:年,卷(期):

参考文献(5条)

1. Agrawal R;Srikant R Mining sequential patterns:Generalizations and performance improvements 19962. Jian Pei PrefixSpan:Mining Sequential Patterns Efficiently by Prefix-Projected Pattern Growth 20013. Xiong Y;Zhu Y Y BioPM:An Efficient Algorithm lor Protein Motif Mining 20074. Agrawal R;Srikant R Fast algorithms for mining association rules 1994

5. Xiong Y;Zhu Y Y A Multi-Supports-Based Sequential Pattern Mining Algorithm 2005

本文链接:http://d.wanfangdata.com.cn/Periodical_jsjyyyrj201108036.aspx


相关内容

  • 大数据在智慧城市中的应用_李光亚
  • Microcomputer Applications Vol. 30, No.12, 2014 文章编号:1007-757X(2014)12-0001-04 专家论坛微型电脑应用2014年第30卷第12期 大数据在智慧城市中的应用 李光亚,张敬谊,童庆 摘要:伴随智慧城市的发展,多源.异构.冗余的大 ...

  • 用户点击行为模型分析
  • 数据挖掘实验报告 基于用户网站点击行为预测 ···数据挖掘实验报告.............................................. 1 一. 概要:.................................................. 3 二.背景和挖掘目标 ...

  • 基于数据挖掘的入侵检测系统模型
  • 基于数据挖掘的分布式入侵检测系统模型 冯超 大连理工大学软件学院,辽宁大连(116023) E-mail : 摘 要:本文提出了一种基于数据挖掘的分布式入侵检测系统模型,介绍了该系统模型的结构,以及系统进行数据挖掘的过程. 关键词:分布式入侵检测,数据挖掘 中图分类号:TP393.08 1. 引言 ...

  • 国家网上申请表填写项
  • 国家网上申请表填写项 主要学术成果摘要介绍 主要包括: 1.著作/论文摘要介绍 2.专利和承担或参与科研项目相关概述 正文: (不超过3000字. 请使用中文填写. 不得另附页.) 一.主要论文摘要介绍 [1]"钢中杂散损耗的测量技术"论文摘要: 针对大型电力变压器中使用的钢构件 ...

  • 决策树C4.5论文
  • 摘 要 数据挖掘(DM)是当前涉及统计学.人工智能.数据库等学科的热门的研究领域,是从数据中提取人们感兴趣的.潜在的.可用的知识,并表示成用户可理解的形式.分类是数据挖掘的一个重要分支,分类能找出描述数据类或概念的模型,以便能使用模型预测类标记未知的对象类. 最早的决策树算法是由Hunt等人于196 ...

  • 基于数据挖掘的审计数据浅析
  • 基于数据挖掘的审计数据浅析 0 论文类别: 会计审计论文 > 审计论文 论文作者: 荆霞 上传时间:2012-1-7 10:00:00 [摘要] 本文针对计算机审计的现状,提出了基于数据挖掘的审计数据分析流程,以及应用DBSCAN 聚类算法查找审计证据的方法. [关键词] 计算机审计:数据挖掘 ...

  • 聚焦爬虫技术研究综述
  • 第25卷第9期 2005年9月 文章编号:1001-9081(2005) 09-1965-05 Computer App licati ons Edited by Foxit Reader Copyright(C) by Foxit Software Company,2005-2007For Eva ...

  • 数据挖掘研究的现状与发展趋势
  • 第8卷 第2期红河学院学报Vol . 8 No . 2 2010年4月Journal of Honghe University Ap r . 2010 数据挖掘研究的现状与发展趋势 郑继刚, 王边疆 (保山学院数学系, 云南保山678000) 摘 要:数据挖掘作为提取知识的过程, 概述了数据挖掘研究 ...

  • 在线社交网络分析及可视化系统研究与设计
  • 在线社交网络分析及可视化系统研究与设计 摘要 近年来,随着Web2.0等互联网新概念的日益付诸实践,社交网络作为其中一种新兴的,实用的交友模式,依赖其真实性,稳定性等特点得到了用户的青睐,在网络活动中发挥着越来越重要的作用.我们可以看到,很多社交网站在最近几年取得了巨大的成就,例如Myspace 己 ...