中国地质大学-模式识别实习报告

《模式识别》

上机实习报告

学号：

班级序号：

姓名：

指导老师： 2017年4月中国地质大学（武汉）信息工程学院遥感系

一、用贝叶斯估计做二类分类

【问题描述】

利用贝叶斯估计将某地区的遥感图像数据做二类分类，将图像中的裸土和水田加以区分，并使用envi classic 的color mapping 工具将分类好的图像加以颜色。

【模型方法】

与分布有关的统计分类方法主要有最大似然/ 贝叶斯分类。最大似然分类是图像处理中最常用的一种监督分类方法, 它利用了遥感数据的统计特征, 假定各类的分布函数为正态分布, 在多变量空间中形成椭圆或椭球分布, 也就是和中个方向上散布情况不同, 按正态分布规律用最大似然判别规则进行判决, 得到较高准确率的分类结果。否则, 用平行六面体或最小距离分类效果会更好。

【方案设计】

（1）确定需要分类的地区和使用的波段和特征分类数, 检查所用各波段或特征分量是否相互已经位置配准；

（2）根据已掌握的典型地区的地面情况, 在图像上选择训练区；

（3）计算参数, 根据选出的各类训练区的图像数据, 计算和确定先验概率；

（4）分类, 将训练区以外的图像像元逐个逐类代入公式, 对于每个像元, 分几类就计算几次, 最后比较大小, 选择最大值得出类别；

（5）产生分类图, 给每一类别规定一个值, 如果分10 类, 就定每一类分别为1 ,2 ……10 , 分类后的像元值便用类别值代替, 最后得到的分类图像就是专题图像. 由于最大灰阶值等于类别数, 在监视器上显示时需要给各类加上不同的彩色；

（6）检验结果, 如果分类中错误较多, 需要重新选择训练区再作以上各步, 直到结果满意为止。

【结果讨论】

优点：

（1）生成式模型，通过计算概率来进行分类，可以用来处理多分类问题，

（2）对小规模的数据表现很好，适合多分类任务，适合增量式训练，算法也比较简单。

缺点：

（1）对输入数据的表达形式很敏感。

（2）需要计算先验概率，分类决策存在错误率。

局部区域：

精度评价步骤：

（1）首先需要将外部程序生成的分类文件转化为ENVI 可以识别的分类图，方法如下：

Envi 打开图像

->Tools->Color Mapping->Density Slice->Set default numer of ran ges(设置为聚类数

目)->Applydefault ranges->output ranges to class image

（2）对分类结果进行合并与命名

（3）从参考影像（高分辨率影像）上选取ROI 并命名，方法：

Envi 打开图像->Tools->Region of Interest->ROI Tools

（4）将ROI 文件与分类图像相关联，方法：

Basic Tools->Region of Interest->Reconcile ROIs Parameters->输入参考影像->输入分类影像

（5）

Classification->Post Classification->Confusion Matrix->Using Groun d Truth ROIs

二、用Fisher 估计做二类分类

【问题描述】

利用Fisher 估计将某地区的遥感图像数据做二类分类，将图像中的裸土和水田加以区分，并使用envi classic的color mapping工具将分类好的图像加以颜色。

【模型方法】

设计线性分类器首先要确定准则函数，然后再利用训练样本集确定该分类器的参数，以求使所确定的准则达到最佳。在使用线性分类器时，样本的分类由其判别函数值决定，而每个样本的判别函数值是其各分量的线性加权和再加上一阈值w0。如果我们只考虑各分量的线性加权和，则它是各样本向量与向量W 的向量点积。如果向量W 的幅度为单位长度，则线性加权和又可看作各样本向量在向量W 上的投影。显然样本集中向量投影的分布情况与所选择的W 向量有关，图

3.3表示了在一个二维空间两个类别样本在两个不同的向量w1与w2上投影分布的情况。其中用红点及蓝点分别表示不同类别的样本。显然对向量的投影能使这两类有明显可分开的区域，而对向量的投影，则使两类数据部分交迭在一起，无法找到一个能将它们截然分开的界面。Fisher 准则的基本原理，就是要找到一个最合适的投影轴，使两类样本在该轴上投影的交迭部分最少，从而使分类效果为最佳。

【方案设计】

（1）计算各类样本的均值向量mi ，Ni 是类ωi 的样本个数

（2）计算样本类内离散度矩阵Si 和总类内离散度矩阵Sw 。

（3）计算样本类间离散度矩阵Sb 。Sb=(m1−m2)(m1−m2)T 。

（4）求向量w ∗ 。为此定义Fisher 准则函数

使得JF(W) 取的最大值的w ∗ 为：w ∗=S−1w(m1−m2) 。

（5）将训练集内所有样本进行投影。

y （=w *）X

（6）计算在投影空间上的分割阈值y0 。阈值的选取可以有不同的方案，比较常用的一种为

（7）对于给定的X ，计算它在w 上的投影点y 。 *

y （=w *

）X

（8）根据决策规则分类，有 T

【结果讨论】

优点：

（1）一般对于线性可分的样本，总能找到一个投影方向，使得降维后样本仍然线性可分，而且可分性更好即不同类别的样本之间的距离尽可能远，同一类别的样本尽可能集中分布。

（2）Fisher 方法可直接求解权向量

（3）Fisher 的线性判别式不仅适用于确定性模式分类器的训练，而且对于随机模式也是适用的，Fisher 还可以进一步推广到多类问题中去

缺点：

（1）对线性不可分的情况，Fisher 方法无法确定分类

局部区域：

精度评估：

三、用k-means 算法对图像进行分类

【问题描述】

利用k-means 算法对某地区的遥感图像数据进行分类，将图像中的裸土和水田加以区分，并使用envi classic 的color mapping 工具将分类好的图像加以颜色。

【模型方法】

K-Means 是聚类算法中的一种，其中K 表示类别数，Means 表示均值。顾名思义K-Means 是一种通过均值对数据点进行聚类的算法。K-Means 算法通过预先设定的K 值及每个类别的初始质心对相似的数据点进行划分。并通过划分后的均值迭代优化获得最优的聚类结果。K 值是聚类结果中类别的数量。简单的说就是我们希望将数据划分的类别数。K 值决定了初始质心的数量。K 值为几，就要有几个质心。选择最优K 值没有固定的公式或方法，需要人工来指定，建议根据实际的业务需求，或通过层次聚类的方法获得数据的类别数量作为选择K 值的参考。这里需要注意的是选择较大的K 值可以降低数据的误差，但会增加过拟合的风险。

【方案设计】

(1)未聚类的初始点集

(2)随机选取两个点作为聚类中心

(3)计算每个点到聚类中心的距离，并聚类到离该点最近的聚类中去

(4)计算每个聚类中所有点的坐标平均值，并将这个平均值作为新的聚类中心

(5)重复(3),计算每个点到聚类中心的距离，并聚类到离该点最近的聚类中去

(6)重复(4),计算每个聚类中所有点的坐标平均值，并将这个平均值作为新的聚类中心

【结果讨论】

优点：

原理简单，实现容易，聚类效果中上

缺点：

（1）无法确定K 的个数

（2）对离群点敏感（容易导致中心点偏移）

（3）算法复杂度不易控制，迭代次数可能较多

（4）局部最优解而不是全局优（这个和初始点选谁有关）

（5）结果不稳定（受输入顺序影响）

局部区域

精度评估：

实习心得

经过一个学期对《模式识别》的学习，我学习到了基本的理论知识，了解到了计算机处理图像的思想，了解到了神经网络，深度学习的原理，这些知识都为我的课程实践和进一步的学习打下了坚实的基础。在本次实习上机中，我体会颇多，学到了很多东西。我加强了对模式识别这门课程的认识，并且复习了自己以前学习到的知识。这些都使得我对计算机有了更深入的认识！总之，通过这次课程设计，我收获颇丰，相信会为自己以后的学习和工作带来很大的好处。

通过上机实习的训练，我进一步学习和掌握了对程序的设计和编写，从中体会到了各种算法的方便和巧妙。像k-means 算法就是一个原理很简单但分类效果很好的算法，这种借助计算机进行数据处理的思维，让我开阔了视野，也锻炼了我的动手能力。

由于时间的紧迫和对知识的了解不够广泛，造成了代码中还存在许多不足，对于图像处理的过程也仅仅使用了一个波段。以后我会继续努力，大胆创新，争取能编写出更全面的程序。这次课程设计让我充分认识到了自己的不足，认识到了动手能力的重要性。我会在以后的学习中更加努力锻炼自己，不断的提高自己！

最后，对于本次实习中给予我帮助的老师，助教以及同学，表达我由衷的感谢！

《模式识别》

上机实习报告

学号：

班级序号：

姓名：

指导老师： 2017年4月中国地质大学（武汉）信息工程学院遥感系

一、用贝叶斯估计做二类分类

【问题描述】

利用贝叶斯估计将某地区的遥感图像数据做二类分类，将图像中的裸土和水田加以区分，并使用envi classic 的color mapping 工具将分类好的图像加以颜色。

【模型方法】

【方案设计】

（1）确定需要分类的地区和使用的波段和特征分类数, 检查所用各波段或特征分量是否相互已经位置配准；

（2）根据已掌握的典型地区的地面情况, 在图像上选择训练区；

（3）计算参数, 根据选出的各类训练区的图像数据, 计算和确定先验概率；

（4）分类, 将训练区以外的图像像元逐个逐类代入公式, 对于每个像元, 分几类就计算几次, 最后比较大小, 选择最大值得出类别；

（6）检验结果, 如果分类中错误较多, 需要重新选择训练区再作以上各步, 直到结果满意为止。

【结果讨论】

优点：

（1）生成式模型，通过计算概率来进行分类，可以用来处理多分类问题，

（2）对小规模的数据表现很好，适合多分类任务，适合增量式训练，算法也比较简单。

缺点：

（1）对输入数据的表达形式很敏感。

（2）需要计算先验概率，分类决策存在错误率。

局部区域：

精度评价步骤：

（1）首先需要将外部程序生成的分类文件转化为ENVI 可以识别的分类图，方法如下：

Envi 打开图像

->Tools->Color Mapping->Density Slice->Set default numer of ran ges(设置为聚类数

目)->Applydefault ranges->output ranges to class image

（2）对分类结果进行合并与命名

（3）从参考影像（高分辨率影像）上选取ROI 并命名，方法：

Envi 打开图像->Tools->Region of Interest->ROI Tools

（4）将ROI 文件与分类图像相关联，方法：

Basic Tools->Region of Interest->Reconcile ROIs Parameters->输入参考影像->输入分类影像

（5）

Classification->Post Classification->Confusion Matrix->Using Groun d Truth ROIs

二、用Fisher 估计做二类分类

【问题描述】

利用Fisher 估计将某地区的遥感图像数据做二类分类，将图像中的裸土和水田加以区分，并使用envi classic的color mapping工具将分类好的图像加以颜色。

【模型方法】

【方案设计】

（1）计算各类样本的均值向量mi ，Ni 是类ωi 的样本个数

（2）计算样本类内离散度矩阵Si 和总类内离散度矩阵Sw 。

（3）计算样本类间离散度矩阵Sb 。Sb=(m1−m2)(m1−m2)T 。

（4）求向量w ∗ 。为此定义Fisher 准则函数

使得JF(W) 取的最大值的w ∗ 为：w ∗=S−1w(m1−m2) 。

（5）将训练集内所有样本进行投影。

y （=w *）X

（6）计算在投影空间上的分割阈值y0 。阈值的选取可以有不同的方案，比较常用的一种为

（7）对于给定的X ，计算它在w 上的投影点y 。 *

y （=w *

）X

（8）根据决策规则分类，有 T

【结果讨论】

优点：

（2）Fisher 方法可直接求解权向量

（3）Fisher 的线性判别式不仅适用于确定性模式分类器的训练，而且对于随机模式也是适用的，Fisher 还可以进一步推广到多类问题中去

缺点：

（1）对线性不可分的情况，Fisher 方法无法确定分类

局部区域：

精度评估：

三、用k-means 算法对图像进行分类

【问题描述】

利用k-means 算法对某地区的遥感图像数据进行分类，将图像中的裸土和水田加以区分，并使用envi classic 的color mapping 工具将分类好的图像加以颜色。

【模型方法】

【方案设计】

(1)未聚类的初始点集

(2)随机选取两个点作为聚类中心

(3)计算每个点到聚类中心的距离，并聚类到离该点最近的聚类中去

(4)计算每个聚类中所有点的坐标平均值，并将这个平均值作为新的聚类中心

(5)重复(3),计算每个点到聚类中心的距离，并聚类到离该点最近的聚类中去

(6)重复(4),计算每个聚类中所有点的坐标平均值，并将这个平均值作为新的聚类中心

【结果讨论】

优点：

原理简单，实现容易，聚类效果中上

缺点：

（1）无法确定K 的个数

（2）对离群点敏感（容易导致中心点偏移）

（3）算法复杂度不易控制，迭代次数可能较多

（4）局部最优解而不是全局优（这个和初始点选谁有关）

（5）结果不稳定（受输入顺序影响）

局部区域

精度评估：

实习心得

最后，对于本次实习中给予我帮助的老师，助教以及同学，表达我由衷的感谢！

中国地质大学-模式识别实习报告

相关内容

热门内容

标签