一种研究图匹配问题的核方法

  摘要:随着计算机技术与网络技术的高速发展,大量的数据充斥着我们周围的世界。面对这些复杂的海量数据,如何才能准确无误地对它们进行辨别与分析,这对于人们来说是一个非常具有挑战性的问题。在计算机领域,图是一种非常灵活的数据结构,对图等含有结构化信息数据的进行学习,是模式识别和机器学习领域的一种重要问题。该文主要研究了通过核方法来解决这些识别问题,并且实例化了两种特殊的解决图匹配的核方法。在此基础上,分析了其解决这类问题的算法复杂度。实验结果表明,该文所提出的方法是一种解决图匹配的非常有效技术。   关键词:模式识别;图数据;图匹配;核方法   中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2014)20-4802-02   The Research of Graph Matching Based on Kernel Method   LI Yin-hu   (Department of Information and Control Engineering Institute, Xi’an University of Architecture and Technology, Xi’an, 710055, China)   Abstract: With the development of computer technology and network technology,our word is full of large number of data. It is a challenge thing that how to recognize and analyse these data. In the field of computer, graph is a flexible data structure and Learning graph that structured data is becoming an important problem. This article focuses on kernel method to settle down the pattern recognition problem and put forward an efficient kernel method to solve pattern recognition problem. Experimental results demonstrate the effectiveness and feasibility of the proposed algorithm.   Key words: pattern recognition; graph data; graph matching; kernel method   模式识别伴随着计算机技术和网络技术的快速发展,在许多领域得到了成功应用如数据挖掘、文献分类、财政、多媒体数据库的组织和检索、生物(比如根据人的物理特征,如人脸、指纹等识别人)、医学(医学图像分析)。其中图的顶点表示对象的各个组成部分,图的边表示各组成部分之间的关系,以这样的表达方式图就可以很容易地捕捉到物体的关系与结构信息。因此,基于图的描述是一种非常有效的表达方式。而当前模式识别领域中大多数工具却不能直接以图为其处理对象,这严重影响了基于图方法的发展。研究复杂模式分析和分类方法是有必要而且有意义的。其中基于核方法的学习方法是一种比较新的学习方法,它是从统计学习理论中发展出来的,并且有效地克服了传统模式识别方法的局部极小化和不完全统计分析的缺点。   现实世界中的数据往往具有数据量多、高维、动态、不完全(缺值)、不确定(包含噪声)以及稀疏性等特性。对于从事模式识别、信号处理以及数据挖掘的研究者来说,核方法是一个强有力的分析工具。该文主要研究并实例化了一种核方法来模式识别中的图匹配问题,也就是通过在一个图中匹配另一个图中的某个相似的子结构来计算两个图的相似性的过程。   1 核方法   在近几年的机器学习和数据挖掘领域中,核方法成为一种非线性数据处理的新方法。它避免了神经网络和决策树中典型的局部极小化问题和过拟合问题。因此,它可以看成是经典线性方法的扩展,也可以认为它等效于使用非线性映射将样本变换到希尔伯特特征空间,随后在该空间中实施线性特征抽取的方案。   定义1(图核)图G1和G2间的核函数K (G1, G2)称为图核。映射?将原始空间中的图映射到高维甚至无穷维向量空间(特征空间)中去,使得   K (G1, G2) =   由于映射?的选取,如 ? (G)的分量可以是两图中某一公共子路径的条数等,核k:G×G→R可以看成是两个图G1和G2间的相似性度量。   核方法作为一种非线性方法可以解决这些问题。这将使得原来用于向量表示的标准算法也适合图,它可以把统计模式识别和结构模式识别有机地结合起来。   2 图核   一般常见的图核可分为三大类:基于路径的核方法如随机游走核、最短路径核;基于有限规模子图的核方法;基于树模式的核方法如树模式图核、快速子树核、Weisfeiler-Lehman图核等。本节重点深入研究快速子树核和Weisfeiler-Lehman图核及其在解决图匹配问题时的算法复杂程度。   定义2 (快速子树核)图G和图G’之间快速子树核   通过分析比较,两图之间的快速子树核的计算复杂度是[O(n2h4d)],其中包括n2个节点对的比较和在[O(4d)]范围之内,邻居节点的所有匹配次数。重复h次,其中h是一个多分类因子而不是指数。以k1为起是点,经过kh-1到kh递归地计算子树核。   定义3(Weisfeiler-Lehman图核)图G和图G’之间的WL图核定义为:   其中Si(v)为节点v在第i次迭代中的多分类标签集,f是一个映射标签压缩函数,对于所有的[i≠j],集合[f(si(v))|v∈V?V']和集合[f(sj(v))|v∈V?V']是不相交的。S0(v)是在标签图v和非标签图中的初始标签并且[f(s0(v))=s0(v)]。   3 实验论证   3.1 数据准备   实验数据集主要包括MUTAG, NCI1,NCI109,ENZYMES,D&D。其中MUTAG是一个根据是否对革兰氏阴性菌鼠伤寒沙门氏菌有突变作用的含有188个突变芳香和杂环硝基化合物。NCI1和NCI109分别代表两组平衡的化学混合物数据集,它们来自于非小细胞肺癌细胞和卵巢癌细胞系。ENZYMES 是一个具有三层结构的蛋白质数据集,它包含从酶蛋白质数据库中获取的600个蛋白质酶。这种情况下的主要任务是正确给每个蛋白质添加一个6层结构的类。D&D是一个包含有1178个蛋白质结构的数据集。每一个蛋白质可以看做一个图,图中的节点表示氨基酸,两个节点之间的边小于埃则可以用一条边连接。所有节点在数据集中是被标记的,预测的任务则是区分蛋白质结构中的酶与非酶。   数据集中节点数、边数和度数的分布表1所示。   3.2 仿真实验   图是一种特殊的结构化数据表达形式,许多经典的学习算法不能用于图形数据的分析。因此,本实验主要围绕对图形数据的分析展开寻找适合图形数据后续分析的向量表示方法,以扩大传统学习算法在图形数据中的应用。实验硬件环境是Intel Core 2 双核CPU 2.2GH,内存2G。软件环境是美国The Math Works公司推出的Matlab软件,其中支持向量机SVM的实现采用的是Libsvm工具箱。实验方法采用十倍交叉进行,其结果如图1所示。   4 结束语   本文针对模式识别中的图匹配问题,主要研究了通过核方法来解决现实世界中的模式识别与分类问题。接着对两种图核的实例快速子树和与Weisfeiler-Lehman图核进行深入深入研究和分析外,着重探讨了其在解决大规模、复杂、高维数据上所具有的优越性。从实验结果可以看出,这两种图核解决模式识别问题时具有的高效特点,且Weisfeiler-Lehman图核比快速子树具有更优的匹配精度和更少的运行时间。随着经济社会的高速发展,在生物、数据挖掘领域越来越多的图数据(如分子结构、蛋白质交叉网络)变得越来越多。核方法将会受到更多学者们的青睐,希望今后能构造出分类精度更高效果更好的图核来解决其他领域中的分类和识别问题。   参考文献:   [1] Shervashidze N, Borgwardt K. Fast subtree kernels on graphs. In Neural Information Processing Systems, 2009.   [2] John S T, Nello C. Kernel methods for pattern analysis[M]. China machine press,2005.   [3] Duchenne O, Bach F, Kweon I, Ponce J. A tensor-based algorithm for high-order graph matching [C].International Conference on Computer Vision and Pattern Recognition, 2006.   [4] Jones L.K. A simple lemma on greedy approximation in Hilbert space and convergence rates for projection pursuit regression and neural network training. The Annals of Statistics,1992(20): 608-613.

  摘要:随着计算机技术与网络技术的高速发展,大量的数据充斥着我们周围的世界。面对这些复杂的海量数据,如何才能准确无误地对它们进行辨别与分析,这对于人们来说是一个非常具有挑战性的问题。在计算机领域,图是一种非常灵活的数据结构,对图等含有结构化信息数据的进行学习,是模式识别和机器学习领域的一种重要问题。该文主要研究了通过核方法来解决这些识别问题,并且实例化了两种特殊的解决图匹配的核方法。在此基础上,分析了其解决这类问题的算法复杂度。实验结果表明,该文所提出的方法是一种解决图匹配的非常有效技术。   关键词:模式识别;图数据;图匹配;核方法   中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2014)20-4802-02   The Research of Graph Matching Based on Kernel Method   LI Yin-hu   (Department of Information and Control Engineering Institute, Xi’an University of Architecture and Technology, Xi’an, 710055, China)   Abstract: With the development of computer technology and network technology,our word is full of large number of data. It is a challenge thing that how to recognize and analyse these data. In the field of computer, graph is a flexible data structure and Learning graph that structured data is becoming an important problem. This article focuses on kernel method to settle down the pattern recognition problem and put forward an efficient kernel method to solve pattern recognition problem. Experimental results demonstrate the effectiveness and feasibility of the proposed algorithm.   Key words: pattern recognition; graph data; graph matching; kernel method   模式识别伴随着计算机技术和网络技术的快速发展,在许多领域得到了成功应用如数据挖掘、文献分类、财政、多媒体数据库的组织和检索、生物(比如根据人的物理特征,如人脸、指纹等识别人)、医学(医学图像分析)。其中图的顶点表示对象的各个组成部分,图的边表示各组成部分之间的关系,以这样的表达方式图就可以很容易地捕捉到物体的关系与结构信息。因此,基于图的描述是一种非常有效的表达方式。而当前模式识别领域中大多数工具却不能直接以图为其处理对象,这严重影响了基于图方法的发展。研究复杂模式分析和分类方法是有必要而且有意义的。其中基于核方法的学习方法是一种比较新的学习方法,它是从统计学习理论中发展出来的,并且有效地克服了传统模式识别方法的局部极小化和不完全统计分析的缺点。   现实世界中的数据往往具有数据量多、高维、动态、不完全(缺值)、不确定(包含噪声)以及稀疏性等特性。对于从事模式识别、信号处理以及数据挖掘的研究者来说,核方法是一个强有力的分析工具。该文主要研究并实例化了一种核方法来模式识别中的图匹配问题,也就是通过在一个图中匹配另一个图中的某个相似的子结构来计算两个图的相似性的过程。   1 核方法   在近几年的机器学习和数据挖掘领域中,核方法成为一种非线性数据处理的新方法。它避免了神经网络和决策树中典型的局部极小化问题和过拟合问题。因此,它可以看成是经典线性方法的扩展,也可以认为它等效于使用非线性映射将样本变换到希尔伯特特征空间,随后在该空间中实施线性特征抽取的方案。   定义1(图核)图G1和G2间的核函数K (G1, G2)称为图核。映射?将原始空间中的图映射到高维甚至无穷维向量空间(特征空间)中去,使得   K (G1, G2) =   由于映射?的选取,如 ? (G)的分量可以是两图中某一公共子路径的条数等,核k:G×G→R可以看成是两个图G1和G2间的相似性度量。   核方法作为一种非线性方法可以解决这些问题。这将使得原来用于向量表示的标准算法也适合图,它可以把统计模式识别和结构模式识别有机地结合起来。   2 图核   一般常见的图核可分为三大类:基于路径的核方法如随机游走核、最短路径核;基于有限规模子图的核方法;基于树模式的核方法如树模式图核、快速子树核、Weisfeiler-Lehman图核等。本节重点深入研究快速子树核和Weisfeiler-Lehman图核及其在解决图匹配问题时的算法复杂程度。   定义2 (快速子树核)图G和图G’之间快速子树核   通过分析比较,两图之间的快速子树核的计算复杂度是[O(n2h4d)],其中包括n2个节点对的比较和在[O(4d)]范围之内,邻居节点的所有匹配次数。重复h次,其中h是一个多分类因子而不是指数。以k1为起是点,经过kh-1到kh递归地计算子树核。   定义3(Weisfeiler-Lehman图核)图G和图G’之间的WL图核定义为:   其中Si(v)为节点v在第i次迭代中的多分类标签集,f是一个映射标签压缩函数,对于所有的[i≠j],集合[f(si(v))|v∈V?V']和集合[f(sj(v))|v∈V?V']是不相交的。S0(v)是在标签图v和非标签图中的初始标签并且[f(s0(v))=s0(v)]。   3 实验论证   3.1 数据准备   实验数据集主要包括MUTAG, NCI1,NCI109,ENZYMES,D&D。其中MUTAG是一个根据是否对革兰氏阴性菌鼠伤寒沙门氏菌有突变作用的含有188个突变芳香和杂环硝基化合物。NCI1和NCI109分别代表两组平衡的化学混合物数据集,它们来自于非小细胞肺癌细胞和卵巢癌细胞系。ENZYMES 是一个具有三层结构的蛋白质数据集,它包含从酶蛋白质数据库中获取的600个蛋白质酶。这种情况下的主要任务是正确给每个蛋白质添加一个6层结构的类。D&D是一个包含有1178个蛋白质结构的数据集。每一个蛋白质可以看做一个图,图中的节点表示氨基酸,两个节点之间的边小于埃则可以用一条边连接。所有节点在数据集中是被标记的,预测的任务则是区分蛋白质结构中的酶与非酶。   数据集中节点数、边数和度数的分布表1所示。   3.2 仿真实验   图是一种特殊的结构化数据表达形式,许多经典的学习算法不能用于图形数据的分析。因此,本实验主要围绕对图形数据的分析展开寻找适合图形数据后续分析的向量表示方法,以扩大传统学习算法在图形数据中的应用。实验硬件环境是Intel Core 2 双核CPU 2.2GH,内存2G。软件环境是美国The Math Works公司推出的Matlab软件,其中支持向量机SVM的实现采用的是Libsvm工具箱。实验方法采用十倍交叉进行,其结果如图1所示。   4 结束语   本文针对模式识别中的图匹配问题,主要研究了通过核方法来解决现实世界中的模式识别与分类问题。接着对两种图核的实例快速子树和与Weisfeiler-Lehman图核进行深入深入研究和分析外,着重探讨了其在解决大规模、复杂、高维数据上所具有的优越性。从实验结果可以看出,这两种图核解决模式识别问题时具有的高效特点,且Weisfeiler-Lehman图核比快速子树具有更优的匹配精度和更少的运行时间。随着经济社会的高速发展,在生物、数据挖掘领域越来越多的图数据(如分子结构、蛋白质交叉网络)变得越来越多。核方法将会受到更多学者们的青睐,希望今后能构造出分类精度更高效果更好的图核来解决其他领域中的分类和识别问题。   参考文献:   [1] Shervashidze N, Borgwardt K. Fast subtree kernels on graphs. In Neural Information Processing Systems, 2009.   [2] John S T, Nello C. Kernel methods for pattern analysis[M]. China machine press,2005.   [3] Duchenne O, Bach F, Kweon I, Ponce J. A tensor-based algorithm for high-order graph matching [C].International Conference on Computer Vision and Pattern Recognition, 2006.   [4] Jones L.K. A simple lemma on greedy approximation in Hilbert space and convergence rates for projection pursuit regression and neural network training. The Annals of Statistics,1992(20): 608-613.


相关内容

  • 基于灰度相关的图像匹配算法的改进
  • 第28卷第5期2007年9月应用光学 JournalofAppliedOptics V01.28No.5 Sep.2007 文章编号:1002-2082(2007)05-0536-05 基于灰度相关的图像匹配算法的改进 刘 莹1'2,曹剑中1,许朝晖1,田雁1,付同堂1'2,王锋"2 (1 ...

  • 道路交通需求与通行能力匹配性判别方法研究
  • 2012年 第6期 物流工程与管理 交通运输 第34卷 总第216期 LOGISTICS ENGINEERING AND MANAGEMENT doi:10.3969/j.issn.1674-4993.2012.06.041 □ 夏 晶 道路交通需求与通行能力匹配性判别方法研究 (中交第二公路勘察设 ...

  • 创业过程模型的三因素匹配性研究
  • 创业过程模型的三因素匹配性研究 余绍忠 (浙江大学管理学院,杭州310058) 摘要:文章在回顾Timmons 创业过程模型三因素匹配性研究成果的基础上,运用目前世界较 流行的质量管理QFD (Quality Function Development )理论与方法,使用一系列质量屋(HOQ)把创业机 ...

  • 图像拼接调研报告
  • 图像拼接的调研报告 1. 图像拼接的意义和国内外研究现状 1.1 意义 图像拼接(image mosaic)技术是将一组相互间存在重叠部分的图像序列进行空间配准,经重采样融合后形成一幅包含各图像序列信息的宽视角场景的.完整的.高清晰的新图像的技术.图像拼接是数字图像处理领域的一个重要的研究方向,在摄 ...

  • 图像拼接原理及方法
  • 第一章 绪论 1.1 图像拼接技术的研究背景及研究意义 图像拼接(image mosaic)是一个日益流行的研究领域,他已经成为照相绘图学.计算机视觉.图像处理和计算机图形学研究中的热点.图像拼接解决的问题一般式,通过对齐一系列空间重叠的图像,构成一个无缝的.高清晰的图像,它具有比单个图像更高的分辨 ...

  • [最新修订版]基于模板匹配的目标跟踪技术研究与实现毕业论文
  • 目 录 第一章 绪论 ........................................................................................................................ 1 1.1研究背景与意义 ..... ...

  • 国外战略人力资源管理演进分析
  • 内蒙古财经学院学报2011年第1期 国外战略人力资源管理演进分析 万 (广东商学院 [摘 希 广州510320) 工商管理学院,广东 要]在战略管理兴起的背景下,人力资源管理被提到了战略的地位.本文从演化的视角对战略人力资源管理的文 献发展进行探讨,把近三十年的研究文献分为三个发展阶段.第一阶段,强 ...

  • RSTC不变矩图像特征点匹配新方法
  • 华南理工大学学报(自然科学版) 第36卷第8期2008年8月 Journal of Sou th C hina U n iversity of Technology (N atu ral Science Edition ) V ol . 36 N o . 8A ugust 2008 文章编号:100 ...

  • 基于图像匹配的定位分析
  • 信息传输与接入技术 基于图像匹配的定位分析 颜 洁,马 健 (中国电子科技集团公司第五十四研究所,河北石家庄050081) 摘 要:图像匹配是一种重要的图像处理技术,在导航.定位等领域有着广泛的应用.首先给出了图像匹配问题 的原理描述,分析了基于区域匹配算法的一般思路,研究了图像匹配算法的组成要素. ...