中国地质大学-模式识别实习报告

《模式识别》

上机实习报告

学 号:

班级序号:

姓 名:

指导老师: 2017年4月 中国地质大学(武汉)信息工程学院遥感系

一、用贝叶斯估计做二类分类

【问题描述】

利用贝叶斯估计将某地区的遥感图像数据做二类分类,将图像中的裸土和水田加以区分,并使用envi classic 的color mapping 工具将分类好的图像加以颜色。

【模型方法】

与分布有关的统计分类方法主要有最大似然/ 贝叶斯分类。最大似然分类是图像处理中最常用的一种监督分类方法, 它利用了遥感数据的统计特征, 假定各类的分布函数为正态分布, 在多变量空间中形成椭圆或椭球分布, 也就是和中个方向上散布情况不同, 按正态分布规律用最大似然判别规则进行判决, 得到较高准确率的分类结果。否则, 用平行六面体或最小距离分类效果会更好。

【方案设计】

(1)确定需要分类的地区和使用的波段和特征分类数, 检查所用各波段或特征分量是否相互已经位置配准;

(2)根据已掌握的典型地区的地面情况, 在图像上选择训练区;

(3)计算参数, 根据选出的各类训练区的图像数据, 计算和确定先验概率;

(4)分类, 将训练区以外的图像像元逐个逐类代入公式, 对于每个像元, 分几类就计算几次, 最后比较大小, 选择最大值得出类别;

(5)产生分类图, 给每一类别规定一个值, 如果分10 类, 就定每一类分别为1 ,2 ……10 , 分类后的像元值便用类别值代替, 最后得到的分类图像就是专题图像. 由于最大灰阶值等于类别数, 在监视器上显示时需要给各类加上不同的彩色;

(6)检验结果, 如果分类中错误较多, 需要重新选择训练区再作以上各步, 直到结果满意为止。

【结果讨论】

优点:

(1)生成式模型,通过计算概率来进行分类,可以用来处理多分类问题,

(2)对小规模的数据表现很好,适合多分类任务,适合增量式训练,算法也比较简单。

缺点:

(1)对输入数据的表达形式很敏感。

(2)需要计算先验概率,分类决策存在错误率。

局部区域:

精度评价步骤:

(1)首先需要将外部程序生成的分类文件转化为ENVI 可以识别的分类图,方法如下:

Envi 打开图像

->Tools->Color Mapping->Density Slice->Set default numer of ran ges(设置为聚类数

目)->Applydefault ranges->output ranges to class image

(2)对分类结果进行合并与命名

(3)从参考影像(高分辨率影像)上选取ROI 并命名,方法:

Envi 打开图像->Tools->Region of Interest->ROI Tools

(4)将ROI 文件与分类图像相关联,方法:

Basic Tools->Region of Interest->Reconcile ROIs Parameters->输入参考影像->输入分类影像

(5)

Classification->Post Classification->Confusion Matrix->Using Groun d Truth ROIs

二、用Fisher 估计做二类分类

【问题描述】

利用Fisher 估计将某地区的遥感图像数据做二类分类,将图像中的裸土和水田加以区分,并使用envi classic的color mapping工具将分类好的图像加以颜色。

【模型方法】

设计线性分类器首先要确定准则函数,然后再利用训练样本集确定该分类器的参数,以求使所确定的准则达到最佳。在使用线性分类器时,样本的分类由其判别函数值决定,而每个样本的判别函数值是其各分量的线性加权和再加上一阈值w0。如果我们只考虑各分量的线性加权和,则它是各样本向量与向量W 的向量点积。如果向量W 的幅度为单位长度,则线性加权和又可看作各样本向量在向量W 上的投影。显然样本集中向量投影的分布情况与所选择的W 向量有关,图

3.3表示了在一个二维空间两个类别样本在两个不同的向量w1与w2上投影分布的情况。其中用红点及蓝点分别表示不同类别的样本。显然对向量的投影能使这两类有明显可分开的区域,而对向量的投影,则使两类数据部分交迭在一起,无法找到一个能将它们截然分开的界面。Fisher 准则的基本原理,就是要找到一个最合适的投影轴,使两类样本在该轴上投影的交迭部分最少,从而使分类效果为最佳。

【方案设计】

(1)计算各类样本的均值向量mi ,Ni 是类ωi 的样本个数

(2)计算样本类内离散度矩阵Si 和总类内离散度矩阵Sw 。

(3)计算样本类间离散度矩阵Sb 。Sb=(m1−m2)(m1−m2)T 。

(4) 求向量w ∗ 。为此定义Fisher 准则函数

使得JF(W) 取的最大值的w ∗ 为:w ∗=S−1w(m1−m2) 。

(5)将训练集内所有样本进行投影。

y (=w *)X

(6)计算在投影空间上的分割阈值y0 。阈值的选取可以有不同的方案,比较常用的一种为

T

(7)对于给定的X ,计算它在w 上的投影点y 。 *

y (=w *

)X

(8)根据决策规则分类,有 T

【结果讨论】

优点:

(1)一般对于线性可分的样本,总能找到一个投影方向,使得降维后样本仍然线性可分,而且可分性更好即不同类别的样本之间的距离尽可能远,同一类别的样本尽可能集中分布。

(2)Fisher 方法可直接求解权向量

(3)Fisher 的线性判别式不仅适用于确定性模式分类器的训练,而且对于随机模式也是适用的,Fisher 还可以进一步推广到多类问题中去

缺点:

(1)对线性不可分的情况,Fisher 方法无法确定分类

局部区域:

精度评估:

三、用k-means 算法对图像进行分类

【问题描述】

利用k-means 算法对某地区的遥感图像数据进行分类,将图像中的裸土和水田加以区分,并使用envi classic 的color mapping 工具将分类好的图像加以颜色。

【模型方法】

K-Means 是聚类算法中的一种,其中K 表示类别数,Means 表示均值。顾名思义K-Means 是一种通过均值对数据点进行聚类的算法。K-Means 算法通过预先设定的K 值及每个类别的初始质心对相似的数据点进行划分。并通过划分后的均值迭代优化获得最优的聚类结果。K 值是聚类结果中类别的数量。简单的说就是我们希望将数据划分的类别数。K 值决定了初始质心的数量。K 值为几,就要有几个质心。选择最优K 值没有固定的公式或方法,需要人工来指定,建议根据实际的业务需求,或通过层次聚类的方法获得数据的类别数量作为选择K 值的参考。这里需要注意的是选择较大的K 值可以降低数据的误差,但会增加过拟合的风险。

【方案设计】

(1)未聚类的初始点集

(2)随机选取两个点作为聚类中心

(3)计算每个点到聚类中心的距离,并聚类到离该点最近的聚类中去

(4)计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心

(5)重复(3),计算每个点到聚类中心的距离,并聚类到离该点最近的聚类中去

(6)重复(4),计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心

【结果讨论】

优点:

原理简单,实现容易,聚类效果中上

缺点:

(1)无法确定K 的个数

(2)对离群点敏感 (容易导致中心点偏移)

(3)算法复杂度不易控制, 迭代次数可能较多

(4)局部最优解而不是全局优 (这个和初始点选谁有关)

(5)结果不稳定 (受输入顺序影响)

局部区域

精度评估:

实习心得

经过一个学期对《模式识别》的学习,我学习到了基本的理论知识,了解到了计算机处理图像的思想,了解到了神经网络,深度学习的原理,这些知识都为我的课程实践和进一步的学习打下了坚实的基础。在本次实习上机中,我体会颇多,学到了很多东西。我加强了对模式识别这门课程的认识,并且复习了自己以前学习到的知识。这些都使得我对计算机有了更深入的认识!总之,通过这次课程设计,我收获颇丰,相信会为自己以后的学习和工作带来很大的好处。

通过上机实习的训练,我进一步学习和掌握了对程序的设计和编写,从中体会到了各种算法的方便和巧妙。像k-means 算法就是一个原理很简单但分类效果很好的算法,这种借助计算机进行数据处理的思维,让我开阔了视野,也锻炼了我的动手能力。

由于时间的紧迫和对知识的了解不够广泛,造成了代码中还存在许多不足,对于图像处理的过程也仅仅使用了一个波段。以后我会继续努力,大胆创新,争取能编写出更全面的程序。这次课程设计让我充分认识到了自己的不足,认识到了动手能力的重要性。我会在以后的学习中更加努力锻炼自己,不断的提高自己!

最后,对于本次实习中给予我帮助的老师,助教以及同学,表达我由衷的感谢!

《模式识别》

上机实习报告

学 号:

班级序号:

姓 名:

指导老师: 2017年4月 中国地质大学(武汉)信息工程学院遥感系

一、用贝叶斯估计做二类分类

【问题描述】

利用贝叶斯估计将某地区的遥感图像数据做二类分类,将图像中的裸土和水田加以区分,并使用envi classic 的color mapping 工具将分类好的图像加以颜色。

【模型方法】

与分布有关的统计分类方法主要有最大似然/ 贝叶斯分类。最大似然分类是图像处理中最常用的一种监督分类方法, 它利用了遥感数据的统计特征, 假定各类的分布函数为正态分布, 在多变量空间中形成椭圆或椭球分布, 也就是和中个方向上散布情况不同, 按正态分布规律用最大似然判别规则进行判决, 得到较高准确率的分类结果。否则, 用平行六面体或最小距离分类效果会更好。

【方案设计】

(1)确定需要分类的地区和使用的波段和特征分类数, 检查所用各波段或特征分量是否相互已经位置配准;

(2)根据已掌握的典型地区的地面情况, 在图像上选择训练区;

(3)计算参数, 根据选出的各类训练区的图像数据, 计算和确定先验概率;

(4)分类, 将训练区以外的图像像元逐个逐类代入公式, 对于每个像元, 分几类就计算几次, 最后比较大小, 选择最大值得出类别;

(5)产生分类图, 给每一类别规定一个值, 如果分10 类, 就定每一类分别为1 ,2 ……10 , 分类后的像元值便用类别值代替, 最后得到的分类图像就是专题图像. 由于最大灰阶值等于类别数, 在监视器上显示时需要给各类加上不同的彩色;

(6)检验结果, 如果分类中错误较多, 需要重新选择训练区再作以上各步, 直到结果满意为止。

【结果讨论】

优点:

(1)生成式模型,通过计算概率来进行分类,可以用来处理多分类问题,

(2)对小规模的数据表现很好,适合多分类任务,适合增量式训练,算法也比较简单。

缺点:

(1)对输入数据的表达形式很敏感。

(2)需要计算先验概率,分类决策存在错误率。

局部区域:

精度评价步骤:

(1)首先需要将外部程序生成的分类文件转化为ENVI 可以识别的分类图,方法如下:

Envi 打开图像

->Tools->Color Mapping->Density Slice->Set default numer of ran ges(设置为聚类数

目)->Applydefault ranges->output ranges to class image

(2)对分类结果进行合并与命名

(3)从参考影像(高分辨率影像)上选取ROI 并命名,方法:

Envi 打开图像->Tools->Region of Interest->ROI Tools

(4)将ROI 文件与分类图像相关联,方法:

Basic Tools->Region of Interest->Reconcile ROIs Parameters->输入参考影像->输入分类影像

(5)

Classification->Post Classification->Confusion Matrix->Using Groun d Truth ROIs

二、用Fisher 估计做二类分类

【问题描述】

利用Fisher 估计将某地区的遥感图像数据做二类分类,将图像中的裸土和水田加以区分,并使用envi classic的color mapping工具将分类好的图像加以颜色。

【模型方法】

设计线性分类器首先要确定准则函数,然后再利用训练样本集确定该分类器的参数,以求使所确定的准则达到最佳。在使用线性分类器时,样本的分类由其判别函数值决定,而每个样本的判别函数值是其各分量的线性加权和再加上一阈值w0。如果我们只考虑各分量的线性加权和,则它是各样本向量与向量W 的向量点积。如果向量W 的幅度为单位长度,则线性加权和又可看作各样本向量在向量W 上的投影。显然样本集中向量投影的分布情况与所选择的W 向量有关,图

3.3表示了在一个二维空间两个类别样本在两个不同的向量w1与w2上投影分布的情况。其中用红点及蓝点分别表示不同类别的样本。显然对向量的投影能使这两类有明显可分开的区域,而对向量的投影,则使两类数据部分交迭在一起,无法找到一个能将它们截然分开的界面。Fisher 准则的基本原理,就是要找到一个最合适的投影轴,使两类样本在该轴上投影的交迭部分最少,从而使分类效果为最佳。

【方案设计】

(1)计算各类样本的均值向量mi ,Ni 是类ωi 的样本个数

(2)计算样本类内离散度矩阵Si 和总类内离散度矩阵Sw 。

(3)计算样本类间离散度矩阵Sb 。Sb=(m1−m2)(m1−m2)T 。

(4) 求向量w ∗ 。为此定义Fisher 准则函数

使得JF(W) 取的最大值的w ∗ 为:w ∗=S−1w(m1−m2) 。

(5)将训练集内所有样本进行投影。

y (=w *)X

(6)计算在投影空间上的分割阈值y0 。阈值的选取可以有不同的方案,比较常用的一种为

T

(7)对于给定的X ,计算它在w 上的投影点y 。 *

y (=w *

)X

(8)根据决策规则分类,有 T

【结果讨论】

优点:

(1)一般对于线性可分的样本,总能找到一个投影方向,使得降维后样本仍然线性可分,而且可分性更好即不同类别的样本之间的距离尽可能远,同一类别的样本尽可能集中分布。

(2)Fisher 方法可直接求解权向量

(3)Fisher 的线性判别式不仅适用于确定性模式分类器的训练,而且对于随机模式也是适用的,Fisher 还可以进一步推广到多类问题中去

缺点:

(1)对线性不可分的情况,Fisher 方法无法确定分类

局部区域:

精度评估:

三、用k-means 算法对图像进行分类

【问题描述】

利用k-means 算法对某地区的遥感图像数据进行分类,将图像中的裸土和水田加以区分,并使用envi classic 的color mapping 工具将分类好的图像加以颜色。

【模型方法】

K-Means 是聚类算法中的一种,其中K 表示类别数,Means 表示均值。顾名思义K-Means 是一种通过均值对数据点进行聚类的算法。K-Means 算法通过预先设定的K 值及每个类别的初始质心对相似的数据点进行划分。并通过划分后的均值迭代优化获得最优的聚类结果。K 值是聚类结果中类别的数量。简单的说就是我们希望将数据划分的类别数。K 值决定了初始质心的数量。K 值为几,就要有几个质心。选择最优K 值没有固定的公式或方法,需要人工来指定,建议根据实际的业务需求,或通过层次聚类的方法获得数据的类别数量作为选择K 值的参考。这里需要注意的是选择较大的K 值可以降低数据的误差,但会增加过拟合的风险。

【方案设计】

(1)未聚类的初始点集

(2)随机选取两个点作为聚类中心

(3)计算每个点到聚类中心的距离,并聚类到离该点最近的聚类中去

(4)计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心

(5)重复(3),计算每个点到聚类中心的距离,并聚类到离该点最近的聚类中去

(6)重复(4),计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心

【结果讨论】

优点:

原理简单,实现容易,聚类效果中上

缺点:

(1)无法确定K 的个数

(2)对离群点敏感 (容易导致中心点偏移)

(3)算法复杂度不易控制, 迭代次数可能较多

(4)局部最优解而不是全局优 (这个和初始点选谁有关)

(5)结果不稳定 (受输入顺序影响)

局部区域

精度评估:

实习心得

经过一个学期对《模式识别》的学习,我学习到了基本的理论知识,了解到了计算机处理图像的思想,了解到了神经网络,深度学习的原理,这些知识都为我的课程实践和进一步的学习打下了坚实的基础。在本次实习上机中,我体会颇多,学到了很多东西。我加强了对模式识别这门课程的认识,并且复习了自己以前学习到的知识。这些都使得我对计算机有了更深入的认识!总之,通过这次课程设计,我收获颇丰,相信会为自己以后的学习和工作带来很大的好处。

通过上机实习的训练,我进一步学习和掌握了对程序的设计和编写,从中体会到了各种算法的方便和巧妙。像k-means 算法就是一个原理很简单但分类效果很好的算法,这种借助计算机进行数据处理的思维,让我开阔了视野,也锻炼了我的动手能力。

由于时间的紧迫和对知识的了解不够广泛,造成了代码中还存在许多不足,对于图像处理的过程也仅仅使用了一个波段。以后我会继续努力,大胆创新,争取能编写出更全面的程序。这次课程设计让我充分认识到了自己的不足,认识到了动手能力的重要性。我会在以后的学习中更加努力锻炼自己,不断的提高自己!

最后,对于本次实习中给予我帮助的老师,助教以及同学,表达我由衷的感谢!


相关内容

  • 金融机构可疑交易监测分析的策略与方法研究
  • 摘 要:履行可疑交易报告制度是金融机构反洗钱工作的核心义务之一.可疑交易监测分析就是反洗钱义务主体在与客户开展金融交易过程中,按照反洗钱法律法规要求,识别和发现存有洗钱及相关犯罪嫌疑的异常交易的过程.本文从提高可疑交易报告质量的角度提出了保证与兼顾针对性.完备性和准确性是可疑资金监测及可疑交易线索分 ...

  • 中国人工智能行业研究分析研究报告
  • 中国市场调研在线 行业市场研究属于企业战略研究范畴,作为当前应用最为广泛的咨询服务,其研究成果以报告形式呈现,通常包含以下内容: 一份专业的行业研究报告,注重指导企业或投资者了解该行业整体发展态势及经济运行状况,旨在为企业或投资者提供方向性的思路和参考. 一份有价值的行业研究报告,可以完成对行业系统 ...

  • 测试手机测试模式参数详解
  • 测试手机测试模式参数详解 NOKIA测试手机的测试模式(BTS TEST),通常又称工程模式,有比普通专业测试手机更强的测试功能,它包含了大量的无线参数.GSM系统信息以及数十项手机内部测试功能的显示,比如SIM卡的详细信息.电池的电压.放电电流.温度以及详尽的充电情况.手机的测试模式对于资金不够充 ...

  • 智慧城市发展方向
  • 武汉工程大学 计算机科学与工程学院 综合设计报告 设计名称: 科研训练I 设计题目: 智慧城市的发展方向 学生学号: 专业班级: 学生姓名: 学生成绩: 指导教师(职称): 课题工作时间: 2013年9月2 至2013年9月6日 说明: 1.报告中的第一.二.三项由指导教师在综合设计开始前填写并发给 ...

  • 模式识别课程设计
  • 模式识别导论 课程设计 学号: 班级: 姓名: (2)分类器设计方法概述及选择依据分析:(10分) (3)感知器算法原理及算法步骤:(20分) (4)感知器算法流程设计:(20分) (5)感知器算法程序:(10分) (6)程序仿真及结果分析:(20分) (7)结论:(5分) (8)参考文献.(5分) ...

  • 物有所值评价报告教程
  • 物有所值评价报告教程 (指标架构模板) 金砖城市投资银行 2015年8月 目 录 一.物有所值评价的定义与基础要求 二.物有所值评价报告编制--项目基础信息 三.物有所值评价报告编制--项目定性分析 四.物有所值评价报告编制--项目定量分析 五.物有所值评价报告编制--评价结论 物有所值评价的定义与 ...

  • 金融机构大额交易报告标准
  •  第十章 客户身份识别  第一节 客户身份识别的重要性和基本要求  一.客户身份识别的法律依据  客户身份识别是我国反洗钱法律制度的强制性要求,是金融机 构及其工作人员必须履行的法律义务.<反洗钱法>.<金融机构反洗钱规定>.<金融机构客户身份识别和客户身份资料 ...

  • 沉积环境和相实习要求
  • <沉积环境和相>实习要求 一. 实习地点及时间安排: 实习地点:北京延庆世界地质公园硅化木园区 2015年4月26日(周日)7:00-18:00点,具体如下: 7:00:地质大学开水房前集合,出发,过时不候 9:30:延庆硅化木公园中心区集合 9:30-15:30: 延庆硅化木公园中心区 ...

  • 物联网技术与应用报告
  • 物联网技术与应用 结课论文 班级: 学号: RFID中间件技术在物联网中的应用及研究 一 摘要 物联网被誉为本世纪最有影响的技术革命和改变世界的技术,开展物联网的相关研究,具有重要的社会.经济意义和长远的战略意义.物联网中间件技术是物联网的核心关键技术,对该技术的研究受两方面的制约.一方面,受限于底 ...