《模式识别》
上机实习报告
学 号:
班级序号:
姓 名:
指导老师: 2017年4月 中国地质大学(武汉)信息工程学院遥感系
一、用贝叶斯估计做二类分类
【问题描述】
利用贝叶斯估计将某地区的遥感图像数据做二类分类,将图像中的裸土和水田加以区分,并使用envi classic 的color mapping 工具将分类好的图像加以颜色。
【模型方法】
与分布有关的统计分类方法主要有最大似然/ 贝叶斯分类。最大似然分类是图像处理中最常用的一种监督分类方法, 它利用了遥感数据的统计特征, 假定各类的分布函数为正态分布, 在多变量空间中形成椭圆或椭球分布, 也就是和中个方向上散布情况不同, 按正态分布规律用最大似然判别规则进行判决, 得到较高准确率的分类结果。否则, 用平行六面体或最小距离分类效果会更好。
【方案设计】
(1)确定需要分类的地区和使用的波段和特征分类数, 检查所用各波段或特征分量是否相互已经位置配准;
(2)根据已掌握的典型地区的地面情况, 在图像上选择训练区;
(3)计算参数, 根据选出的各类训练区的图像数据, 计算和确定先验概率;
(4)分类, 将训练区以外的图像像元逐个逐类代入公式, 对于每个像元, 分几类就计算几次, 最后比较大小, 选择最大值得出类别;
(5)产生分类图, 给每一类别规定一个值, 如果分10 类, 就定每一类分别为1 ,2 ……10 , 分类后的像元值便用类别值代替, 最后得到的分类图像就是专题图像. 由于最大灰阶值等于类别数, 在监视器上显示时需要给各类加上不同的彩色;
(6)检验结果, 如果分类中错误较多, 需要重新选择训练区再作以上各步, 直到结果满意为止。
【结果讨论】
优点:
(1)生成式模型,通过计算概率来进行分类,可以用来处理多分类问题,
(2)对小规模的数据表现很好,适合多分类任务,适合增量式训练,算法也比较简单。
缺点:
(1)对输入数据的表达形式很敏感。
(2)需要计算先验概率,分类决策存在错误率。
局部区域:
精度评价步骤:
(1)首先需要将外部程序生成的分类文件转化为ENVI 可以识别的分类图,方法如下:
Envi 打开图像
->Tools->Color Mapping->Density Slice->Set default numer of ran ges(设置为聚类数
目)->Applydefault ranges->output ranges to class image
(2)对分类结果进行合并与命名
(3)从参考影像(高分辨率影像)上选取ROI 并命名,方法:
Envi 打开图像->Tools->Region of Interest->ROI Tools
(4)将ROI 文件与分类图像相关联,方法:
Basic Tools->Region of Interest->Reconcile ROIs Parameters->输入参考影像->输入分类影像
(5)
Classification->Post Classification->Confusion Matrix->Using Groun d Truth ROIs
二、用Fisher 估计做二类分类
【问题描述】
利用Fisher 估计将某地区的遥感图像数据做二类分类,将图像中的裸土和水田加以区分,并使用envi classic的color mapping工具将分类好的图像加以颜色。
【模型方法】
设计线性分类器首先要确定准则函数,然后再利用训练样本集确定该分类器的参数,以求使所确定的准则达到最佳。在使用线性分类器时,样本的分类由其判别函数值决定,而每个样本的判别函数值是其各分量的线性加权和再加上一阈值w0。如果我们只考虑各分量的线性加权和,则它是各样本向量与向量W 的向量点积。如果向量W 的幅度为单位长度,则线性加权和又可看作各样本向量在向量W 上的投影。显然样本集中向量投影的分布情况与所选择的W 向量有关,图
3.3表示了在一个二维空间两个类别样本在两个不同的向量w1与w2上投影分布的情况。其中用红点及蓝点分别表示不同类别的样本。显然对向量的投影能使这两类有明显可分开的区域,而对向量的投影,则使两类数据部分交迭在一起,无法找到一个能将它们截然分开的界面。Fisher 准则的基本原理,就是要找到一个最合适的投影轴,使两类样本在该轴上投影的交迭部分最少,从而使分类效果为最佳。
【方案设计】
(1)计算各类样本的均值向量mi ,Ni 是类ωi 的样本个数
(2)计算样本类内离散度矩阵Si 和总类内离散度矩阵Sw 。
(3)计算样本类间离散度矩阵Sb 。Sb=(m1−m2)(m1−m2)T 。
(4) 求向量w ∗ 。为此定义Fisher 准则函数
使得JF(W) 取的最大值的w ∗ 为:w ∗=S−1w(m1−m2) 。
(5)将训练集内所有样本进行投影。
y (=w *)X
(6)计算在投影空间上的分割阈值y0 。阈值的选取可以有不同的方案,比较常用的一种为
T
(7)对于给定的X ,计算它在w 上的投影点y 。 *
y (=w *
)X
(8)根据决策规则分类,有 T
【结果讨论】
优点:
(1)一般对于线性可分的样本,总能找到一个投影方向,使得降维后样本仍然线性可分,而且可分性更好即不同类别的样本之间的距离尽可能远,同一类别的样本尽可能集中分布。
(2)Fisher 方法可直接求解权向量
(3)Fisher 的线性判别式不仅适用于确定性模式分类器的训练,而且对于随机模式也是适用的,Fisher 还可以进一步推广到多类问题中去
缺点:
(1)对线性不可分的情况,Fisher 方法无法确定分类
局部区域:
精度评估:
三、用k-means 算法对图像进行分类
【问题描述】
利用k-means 算法对某地区的遥感图像数据进行分类,将图像中的裸土和水田加以区分,并使用envi classic 的color mapping 工具将分类好的图像加以颜色。
【模型方法】
K-Means 是聚类算法中的一种,其中K 表示类别数,Means 表示均值。顾名思义K-Means 是一种通过均值对数据点进行聚类的算法。K-Means 算法通过预先设定的K 值及每个类别的初始质心对相似的数据点进行划分。并通过划分后的均值迭代优化获得最优的聚类结果。K 值是聚类结果中类别的数量。简单的说就是我们希望将数据划分的类别数。K 值决定了初始质心的数量。K 值为几,就要有几个质心。选择最优K 值没有固定的公式或方法,需要人工来指定,建议根据实际的业务需求,或通过层次聚类的方法获得数据的类别数量作为选择K 值的参考。这里需要注意的是选择较大的K 值可以降低数据的误差,但会增加过拟合的风险。
【方案设计】
(1)未聚类的初始点集
(2)随机选取两个点作为聚类中心
(3)计算每个点到聚类中心的距离,并聚类到离该点最近的聚类中去
(4)计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心
(5)重复(3),计算每个点到聚类中心的距离,并聚类到离该点最近的聚类中去
(6)重复(4),计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心
【结果讨论】
优点:
原理简单,实现容易,聚类效果中上
缺点:
(1)无法确定K 的个数
(2)对离群点敏感 (容易导致中心点偏移)
(3)算法复杂度不易控制, 迭代次数可能较多
(4)局部最优解而不是全局优 (这个和初始点选谁有关)
(5)结果不稳定 (受输入顺序影响)
局部区域
精度评估:
实习心得
经过一个学期对《模式识别》的学习,我学习到了基本的理论知识,了解到了计算机处理图像的思想,了解到了神经网络,深度学习的原理,这些知识都为我的课程实践和进一步的学习打下了坚实的基础。在本次实习上机中,我体会颇多,学到了很多东西。我加强了对模式识别这门课程的认识,并且复习了自己以前学习到的知识。这些都使得我对计算机有了更深入的认识!总之,通过这次课程设计,我收获颇丰,相信会为自己以后的学习和工作带来很大的好处。
通过上机实习的训练,我进一步学习和掌握了对程序的设计和编写,从中体会到了各种算法的方便和巧妙。像k-means 算法就是一个原理很简单但分类效果很好的算法,这种借助计算机进行数据处理的思维,让我开阔了视野,也锻炼了我的动手能力。
由于时间的紧迫和对知识的了解不够广泛,造成了代码中还存在许多不足,对于图像处理的过程也仅仅使用了一个波段。以后我会继续努力,大胆创新,争取能编写出更全面的程序。这次课程设计让我充分认识到了自己的不足,认识到了动手能力的重要性。我会在以后的学习中更加努力锻炼自己,不断的提高自己!
最后,对于本次实习中给予我帮助的老师,助教以及同学,表达我由衷的感谢!
《模式识别》
上机实习报告
学 号:
班级序号:
姓 名:
指导老师: 2017年4月 中国地质大学(武汉)信息工程学院遥感系
一、用贝叶斯估计做二类分类
【问题描述】
利用贝叶斯估计将某地区的遥感图像数据做二类分类,将图像中的裸土和水田加以区分,并使用envi classic 的color mapping 工具将分类好的图像加以颜色。
【模型方法】
与分布有关的统计分类方法主要有最大似然/ 贝叶斯分类。最大似然分类是图像处理中最常用的一种监督分类方法, 它利用了遥感数据的统计特征, 假定各类的分布函数为正态分布, 在多变量空间中形成椭圆或椭球分布, 也就是和中个方向上散布情况不同, 按正态分布规律用最大似然判别规则进行判决, 得到较高准确率的分类结果。否则, 用平行六面体或最小距离分类效果会更好。
【方案设计】
(1)确定需要分类的地区和使用的波段和特征分类数, 检查所用各波段或特征分量是否相互已经位置配准;
(2)根据已掌握的典型地区的地面情况, 在图像上选择训练区;
(3)计算参数, 根据选出的各类训练区的图像数据, 计算和确定先验概率;
(4)分类, 将训练区以外的图像像元逐个逐类代入公式, 对于每个像元, 分几类就计算几次, 最后比较大小, 选择最大值得出类别;
(5)产生分类图, 给每一类别规定一个值, 如果分10 类, 就定每一类分别为1 ,2 ……10 , 分类后的像元值便用类别值代替, 最后得到的分类图像就是专题图像. 由于最大灰阶值等于类别数, 在监视器上显示时需要给各类加上不同的彩色;
(6)检验结果, 如果分类中错误较多, 需要重新选择训练区再作以上各步, 直到结果满意为止。
【结果讨论】
优点:
(1)生成式模型,通过计算概率来进行分类,可以用来处理多分类问题,
(2)对小规模的数据表现很好,适合多分类任务,适合增量式训练,算法也比较简单。
缺点:
(1)对输入数据的表达形式很敏感。
(2)需要计算先验概率,分类决策存在错误率。
局部区域:
精度评价步骤:
(1)首先需要将外部程序生成的分类文件转化为ENVI 可以识别的分类图,方法如下:
Envi 打开图像
->Tools->Color Mapping->Density Slice->Set default numer of ran ges(设置为聚类数
目)->Applydefault ranges->output ranges to class image
(2)对分类结果进行合并与命名
(3)从参考影像(高分辨率影像)上选取ROI 并命名,方法:
Envi 打开图像->Tools->Region of Interest->ROI Tools
(4)将ROI 文件与分类图像相关联,方法:
Basic Tools->Region of Interest->Reconcile ROIs Parameters->输入参考影像->输入分类影像
(5)
Classification->Post Classification->Confusion Matrix->Using Groun d Truth ROIs
二、用Fisher 估计做二类分类
【问题描述】
利用Fisher 估计将某地区的遥感图像数据做二类分类,将图像中的裸土和水田加以区分,并使用envi classic的color mapping工具将分类好的图像加以颜色。
【模型方法】
设计线性分类器首先要确定准则函数,然后再利用训练样本集确定该分类器的参数,以求使所确定的准则达到最佳。在使用线性分类器时,样本的分类由其判别函数值决定,而每个样本的判别函数值是其各分量的线性加权和再加上一阈值w0。如果我们只考虑各分量的线性加权和,则它是各样本向量与向量W 的向量点积。如果向量W 的幅度为单位长度,则线性加权和又可看作各样本向量在向量W 上的投影。显然样本集中向量投影的分布情况与所选择的W 向量有关,图
3.3表示了在一个二维空间两个类别样本在两个不同的向量w1与w2上投影分布的情况。其中用红点及蓝点分别表示不同类别的样本。显然对向量的投影能使这两类有明显可分开的区域,而对向量的投影,则使两类数据部分交迭在一起,无法找到一个能将它们截然分开的界面。Fisher 准则的基本原理,就是要找到一个最合适的投影轴,使两类样本在该轴上投影的交迭部分最少,从而使分类效果为最佳。
【方案设计】
(1)计算各类样本的均值向量mi ,Ni 是类ωi 的样本个数
(2)计算样本类内离散度矩阵Si 和总类内离散度矩阵Sw 。
(3)计算样本类间离散度矩阵Sb 。Sb=(m1−m2)(m1−m2)T 。
(4) 求向量w ∗ 。为此定义Fisher 准则函数
使得JF(W) 取的最大值的w ∗ 为:w ∗=S−1w(m1−m2) 。
(5)将训练集内所有样本进行投影。
y (=w *)X
(6)计算在投影空间上的分割阈值y0 。阈值的选取可以有不同的方案,比较常用的一种为
T
(7)对于给定的X ,计算它在w 上的投影点y 。 *
y (=w *
)X
(8)根据决策规则分类,有 T
【结果讨论】
优点:
(1)一般对于线性可分的样本,总能找到一个投影方向,使得降维后样本仍然线性可分,而且可分性更好即不同类别的样本之间的距离尽可能远,同一类别的样本尽可能集中分布。
(2)Fisher 方法可直接求解权向量
(3)Fisher 的线性判别式不仅适用于确定性模式分类器的训练,而且对于随机模式也是适用的,Fisher 还可以进一步推广到多类问题中去
缺点:
(1)对线性不可分的情况,Fisher 方法无法确定分类
局部区域:
精度评估:
三、用k-means 算法对图像进行分类
【问题描述】
利用k-means 算法对某地区的遥感图像数据进行分类,将图像中的裸土和水田加以区分,并使用envi classic 的color mapping 工具将分类好的图像加以颜色。
【模型方法】
K-Means 是聚类算法中的一种,其中K 表示类别数,Means 表示均值。顾名思义K-Means 是一种通过均值对数据点进行聚类的算法。K-Means 算法通过预先设定的K 值及每个类别的初始质心对相似的数据点进行划分。并通过划分后的均值迭代优化获得最优的聚类结果。K 值是聚类结果中类别的数量。简单的说就是我们希望将数据划分的类别数。K 值决定了初始质心的数量。K 值为几,就要有几个质心。选择最优K 值没有固定的公式或方法,需要人工来指定,建议根据实际的业务需求,或通过层次聚类的方法获得数据的类别数量作为选择K 值的参考。这里需要注意的是选择较大的K 值可以降低数据的误差,但会增加过拟合的风险。
【方案设计】
(1)未聚类的初始点集
(2)随机选取两个点作为聚类中心
(3)计算每个点到聚类中心的距离,并聚类到离该点最近的聚类中去
(4)计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心
(5)重复(3),计算每个点到聚类中心的距离,并聚类到离该点最近的聚类中去
(6)重复(4),计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心
【结果讨论】
优点:
原理简单,实现容易,聚类效果中上
缺点:
(1)无法确定K 的个数
(2)对离群点敏感 (容易导致中心点偏移)
(3)算法复杂度不易控制, 迭代次数可能较多
(4)局部最优解而不是全局优 (这个和初始点选谁有关)
(5)结果不稳定 (受输入顺序影响)
局部区域
精度评估:
实习心得
经过一个学期对《模式识别》的学习,我学习到了基本的理论知识,了解到了计算机处理图像的思想,了解到了神经网络,深度学习的原理,这些知识都为我的课程实践和进一步的学习打下了坚实的基础。在本次实习上机中,我体会颇多,学到了很多东西。我加强了对模式识别这门课程的认识,并且复习了自己以前学习到的知识。这些都使得我对计算机有了更深入的认识!总之,通过这次课程设计,我收获颇丰,相信会为自己以后的学习和工作带来很大的好处。
通过上机实习的训练,我进一步学习和掌握了对程序的设计和编写,从中体会到了各种算法的方便和巧妙。像k-means 算法就是一个原理很简单但分类效果很好的算法,这种借助计算机进行数据处理的思维,让我开阔了视野,也锻炼了我的动手能力。
由于时间的紧迫和对知识的了解不够广泛,造成了代码中还存在许多不足,对于图像处理的过程也仅仅使用了一个波段。以后我会继续努力,大胆创新,争取能编写出更全面的程序。这次课程设计让我充分认识到了自己的不足,认识到了动手能力的重要性。我会在以后的学习中更加努力锻炼自己,不断的提高自己!
最后,对于本次实习中给予我帮助的老师,助教以及同学,表达我由衷的感谢!