Bayes分类器

模式识别实验

题目:

学 院 计算机科学与技术 专 业 计算机科学与技术 学 号 2012436034 姓 名 顾文远 指导教师 李凯

2015年 10 月14日

实验一 Bayes分类器设计

一、教学要求

理解基于Bayes 决策理论的随机模式分类的原理和方法,掌握基于最小错误率的贝叶斯决策和基于最小风险的贝叶斯决策,并能够对贝叶斯规则给出具体的实现。

二、知识点提示

知识点:错误率、风险、先验概率、概率密度函数、最小错误率贝叶斯决策规则、最小风险贝叶斯决策规则。

重点:最小错误率贝叶斯决策规则和最小风险贝叶斯决策规则的实现。 难点:最小风险贝叶斯决策规则的实现。

三、教学内容

Bayes 分类器的基本思想是依据类别先验概率和条件概率密度,按照某种准则使分类结果从统计上讲是最佳的。换言之,根据类别先验概率和条件概率密度将模式空间划分成若干个子空间,在此基础上形成模式分类的判决规则。准则函数不同,所导出的判决规则就不同,分类结果也不同;使用哪种准则或方法应根据具体问题来确定。

1.产生二维正态分布模式,并将产生的样本集随机地分为训练集和测试集;

2.分别设计最小错误率的Bayes 分类器和最小风险Bayes 分类器,并对测试集进行分类,观察代价函数的设置对分类结果的影响;

3.统计错分概率。

四、实验原理

以Bayes 公式为基础,利用测量到的对象特征配合必要的先验信息,求出各种可能决策情况(分类情况)的后验概率,选取后验概率最大的, 或者决策风险最小的决策方式(分类方式) 作为决策(分类)的结果。也就是说选取最有可能使得对象具有现在所测得特性的那种假设,作为判别的结果。

五、实验步骤

1、首先产生二维正态分布模式的数据,设定产生均值为2,标准差为0.5的100个随机数据和均值为-2,标准差为2的100个随机数据,其中一个产生的正态密度曲线图如下:

35

30

25

20

15

10

5

00.5

11.522.533.5

2、设计最小错误率的Bayes 分类器,将两类数据分别根据先验概率和类条件概率密度计算后验概率,选择后验概率大的为一类,得出测试集正确率和错误率为(其中worng1是将第一类错分到第二类的错误率,worng2是将第二类错分到第一类的错误率): rightRate1 =

0.9800

worng1 =

0.0200

rightRate2 =

0.9200

worng2 =

0.0800

3、设计最小风险Bayes 分类器,根据前面计算的后验概率,利用决策表计算出条件风险R ,决策选择风险小的,即对于第一类数据如果算出的R1风险小根据分类器设定选择第一类分类,则分类正确,对于第二类数据如果算出的R2风险小即选择第二类分类,分类正确,否则分类错误,根据这一标准计算分类决策的正确率和错误率。

决策表

这里worng3是最小风险Bayes 分类器将第一类错分到第二类的错误率,worng4是将第二类错分到第一类的错误率: rightRate3 =

0.9500

worng3 =

0.0500

rightRate4 =

0.9400

worng4 =

0.0600

当改变代价函数,分类结果也随之改变,这里仅仅将λ12的值和λ21的值互换,分类结果就不同了。λ21增大,即将第一类数据错分到第二类里面的风险就变大了,一些数据因为风险大了所以会分到第一个类别中去,相应的第一类的数据分类错误率减小,当然同时第二类的数据分类错误率增加了。 rightRate3 =

1

worng3 =

rightRate4 =

0.8700

worng4 =

0.1300

六、思考题

1. 如何获得类条件概率密度?

类条件概率是已知的,也就是这里是自己设定的,pw1=pw2=0.5.

2. 按照最小错误率的贝叶斯决策规则和最小风险的贝叶斯决策规则对测试集中的样本分类,结果一致吗?

不一致,最小错误率的贝叶斯决策规则关心的是让出现的错误最小,而最小风险的贝叶斯决策规则关心的是决策结果带来的损失最小。最小风险的贝叶斯决策的决策表是人为给定的,决策表不同导致的结果不同。当决策与状态相同时损失为0,不同时损失为1时最小风险等于最小错误率贝叶斯决策。

七、附录

clear

e1=2;a1=0.5; e2=-2;a2=2;

pw1=0.5;pw2=0.5;

%%%%最小错误率贝叶斯分类

s1=normrnd(e1,a1,1,100);%产生二维正态分布100个数据 histfit(s1);

s2=normrnd(e2,a2,1,100);%产生二维正态分布100个数据 p1=zeros(1,100); p2=zeros(1,100); p3=zeros(1,100); p4=zeros(1,100); right1=0;right2=0; %对第一类进行分类 for i=1:100

p1(i)=(pw1*normpdf(s1(i),e1,a1))/(pw1*normpdf(s1(i),e1,a1)+pw2*normpdf(s1(i),e2,a2)); p2(i)=(pw2*normpdf(s1(i),e2,a2))/(pw1*normpdf(s1(i),e1,a1)+pw2*normpdf(s1(i),e2,a2)); if p1(i)>p2(i)

right1=right1+1; end end

%对第二类进行分类 for i=1:100

p3(i)=(pw1*normpdf(s2(i),e1,a1))/(pw1*normpdf(s2(i),e1,a1)+pw2*normpdf(s2(i),e2,a2)); p4(i)=(pw2*normpdf(s2(i),e2,a2))/(pw1*normpdf(s2(i),e1,a1)+pw2*normpdf(s2(i),e2,a2)); if p3(i)

right2=right2+1; end end

%对第一类分类的正确率 rightRate1=right1/100 %对第一类分类的错误率 worng1=1-rightRate1

%对第二类分类的正确率 rightRate2=right2/100 %对第二类分类的错误率

worng2=1-rightRate2

%%%最小风险贝叶斯分类 R1=zeros(1,100); R2=zeros(1,100); right3=0;right4=0;

r11=0;r12=4;r21=2;r22=0; for i=1:100

R1(i)=r11*p1(i)+r12*p2(i); R2(i)=r21*p1(i)+r22*p2(i); if R1(i)

right3=right3+1; end end

for i=1:100

R1(i)=r11*p3(i)+r12*p4(i); R2(i)=r21*p3(i)+r22*p4(i); if R1(i)>R2(i)

right4=right4+1; end end

%对第一类分类的正确率 rightRate3=right3/100 %对第一类分类的错误率 worng3=1-rightRate3

%对第二类分类的正确率 rightRate4=right4/100 %对第二类分类的错误率 worng4=1-rightRate4

模式识别实验

题目:

学 院 计算机科学与技术 专 业 计算机科学与技术 学 号 2012436034 姓 名 顾文远 指导教师 李凯

2015年 10 月14日

实验一 Bayes分类器设计

一、教学要求

理解基于Bayes 决策理论的随机模式分类的原理和方法,掌握基于最小错误率的贝叶斯决策和基于最小风险的贝叶斯决策,并能够对贝叶斯规则给出具体的实现。

二、知识点提示

知识点:错误率、风险、先验概率、概率密度函数、最小错误率贝叶斯决策规则、最小风险贝叶斯决策规则。

重点:最小错误率贝叶斯决策规则和最小风险贝叶斯决策规则的实现。 难点:最小风险贝叶斯决策规则的实现。

三、教学内容

Bayes 分类器的基本思想是依据类别先验概率和条件概率密度,按照某种准则使分类结果从统计上讲是最佳的。换言之,根据类别先验概率和条件概率密度将模式空间划分成若干个子空间,在此基础上形成模式分类的判决规则。准则函数不同,所导出的判决规则就不同,分类结果也不同;使用哪种准则或方法应根据具体问题来确定。

1.产生二维正态分布模式,并将产生的样本集随机地分为训练集和测试集;

2.分别设计最小错误率的Bayes 分类器和最小风险Bayes 分类器,并对测试集进行分类,观察代价函数的设置对分类结果的影响;

3.统计错分概率。

四、实验原理

以Bayes 公式为基础,利用测量到的对象特征配合必要的先验信息,求出各种可能决策情况(分类情况)的后验概率,选取后验概率最大的, 或者决策风险最小的决策方式(分类方式) 作为决策(分类)的结果。也就是说选取最有可能使得对象具有现在所测得特性的那种假设,作为判别的结果。

五、实验步骤

1、首先产生二维正态分布模式的数据,设定产生均值为2,标准差为0.5的100个随机数据和均值为-2,标准差为2的100个随机数据,其中一个产生的正态密度曲线图如下:

35

30

25

20

15

10

5

00.5

11.522.533.5

2、设计最小错误率的Bayes 分类器,将两类数据分别根据先验概率和类条件概率密度计算后验概率,选择后验概率大的为一类,得出测试集正确率和错误率为(其中worng1是将第一类错分到第二类的错误率,worng2是将第二类错分到第一类的错误率): rightRate1 =

0.9800

worng1 =

0.0200

rightRate2 =

0.9200

worng2 =

0.0800

3、设计最小风险Bayes 分类器,根据前面计算的后验概率,利用决策表计算出条件风险R ,决策选择风险小的,即对于第一类数据如果算出的R1风险小根据分类器设定选择第一类分类,则分类正确,对于第二类数据如果算出的R2风险小即选择第二类分类,分类正确,否则分类错误,根据这一标准计算分类决策的正确率和错误率。

决策表

这里worng3是最小风险Bayes 分类器将第一类错分到第二类的错误率,worng4是将第二类错分到第一类的错误率: rightRate3 =

0.9500

worng3 =

0.0500

rightRate4 =

0.9400

worng4 =

0.0600

当改变代价函数,分类结果也随之改变,这里仅仅将λ12的值和λ21的值互换,分类结果就不同了。λ21增大,即将第一类数据错分到第二类里面的风险就变大了,一些数据因为风险大了所以会分到第一个类别中去,相应的第一类的数据分类错误率减小,当然同时第二类的数据分类错误率增加了。 rightRate3 =

1

worng3 =

rightRate4 =

0.8700

worng4 =

0.1300

六、思考题

1. 如何获得类条件概率密度?

类条件概率是已知的,也就是这里是自己设定的,pw1=pw2=0.5.

2. 按照最小错误率的贝叶斯决策规则和最小风险的贝叶斯决策规则对测试集中的样本分类,结果一致吗?

不一致,最小错误率的贝叶斯决策规则关心的是让出现的错误最小,而最小风险的贝叶斯决策规则关心的是决策结果带来的损失最小。最小风险的贝叶斯决策的决策表是人为给定的,决策表不同导致的结果不同。当决策与状态相同时损失为0,不同时损失为1时最小风险等于最小错误率贝叶斯决策。

七、附录

clear

e1=2;a1=0.5; e2=-2;a2=2;

pw1=0.5;pw2=0.5;

%%%%最小错误率贝叶斯分类

s1=normrnd(e1,a1,1,100);%产生二维正态分布100个数据 histfit(s1);

s2=normrnd(e2,a2,1,100);%产生二维正态分布100个数据 p1=zeros(1,100); p2=zeros(1,100); p3=zeros(1,100); p4=zeros(1,100); right1=0;right2=0; %对第一类进行分类 for i=1:100

p1(i)=(pw1*normpdf(s1(i),e1,a1))/(pw1*normpdf(s1(i),e1,a1)+pw2*normpdf(s1(i),e2,a2)); p2(i)=(pw2*normpdf(s1(i),e2,a2))/(pw1*normpdf(s1(i),e1,a1)+pw2*normpdf(s1(i),e2,a2)); if p1(i)>p2(i)

right1=right1+1; end end

%对第二类进行分类 for i=1:100

p3(i)=(pw1*normpdf(s2(i),e1,a1))/(pw1*normpdf(s2(i),e1,a1)+pw2*normpdf(s2(i),e2,a2)); p4(i)=(pw2*normpdf(s2(i),e2,a2))/(pw1*normpdf(s2(i),e1,a1)+pw2*normpdf(s2(i),e2,a2)); if p3(i)

right2=right2+1; end end

%对第一类分类的正确率 rightRate1=right1/100 %对第一类分类的错误率 worng1=1-rightRate1

%对第二类分类的正确率 rightRate2=right2/100 %对第二类分类的错误率

worng2=1-rightRate2

%%%最小风险贝叶斯分类 R1=zeros(1,100); R2=zeros(1,100); right3=0;right4=0;

r11=0;r12=4;r21=2;r22=0; for i=1:100

R1(i)=r11*p1(i)+r12*p2(i); R2(i)=r21*p1(i)+r22*p2(i); if R1(i)

right3=right3+1; end end

for i=1:100

R1(i)=r11*p3(i)+r12*p4(i); R2(i)=r21*p3(i)+r22*p4(i); if R1(i)>R2(i)

right4=right4+1; end end

%对第一类分类的正确率 rightRate3=right3/100 %对第一类分类的错误率 worng3=1-rightRate3

%对第二类分类的正确率 rightRate4=right4/100 %对第二类分类的错误率 worng4=1-rightRate4


相关内容

  • 截尾寿命试验中的Bayes估计
  • " " #年$月! ! 第! ) 卷第$期 重庆大学学报 %*+, '&-*./0*'3''356, 73812149 %&'(! " " #! :*-(! ) ! ; *($ #$" " " ! ? " ...

  • 遥感影像监督分类与非监督分类的比较
  • 第34卷第3期 2004 年9月河南大学学报(自然科学版)JournalofHenanUniversity(NaturalScience)Vol.34 No.3Sep.2004 遥感影像监督分类与非监督分类的比较 赵春霞,钱乐祥3 (河南大学环境与规划学院,河南开封475001) 摘 要:遥感影像的 ...

  • 距离判别法xin
  • 距离判别法 距离判别的思想是由训练样本得出每个分类的重心(中心)坐标, 然后对新样品求出它们离各个类别重心的距离远近,从而归入离的最近的分类,,最常用的距离是马氏距离. 距离判别的特点是直观.简单,适合于对自变量均为连续变量的情况进行分类,且它对变量的分布类型无严格要求,特别是并不严格要求总体协方差 ...

  • 数据挖掘技术实验报告
  • 数据挖掘技术实验报告 理学院 姓名: 学号: 联系电话: 专业班级: 评分:优□|良□|中□|及格□|不及格□ 24 | income > 43228.2: YES (5.0) Number of Leaves : 14 Size of the tree : 27 Time taken to ...

  • 大数据算法有哪些
  • 大数据算法有哪些? 若想在一个领域中站稳脚跟,就必须有超人的魄力和先进的知识:同样,你如果想在大数据行业拿到高薪,就必须有独特的技能,熟练的技巧.千锋教育大数据培训带来高薪必备的几个算法,助攻你的大数据行业. 一.推荐算法 CB 基于内容的算法-CB ,它根据用户过去喜欢的产品( item ),为用 ...

  • 高级人工智能试题
  • 中 国 矿 业 大 学 工程硕士专业课(课外考核)作业封面 学 号 GS14170031 姓 名 宗燕 工程领域 计算机技术 课程名称 任课教师 任课教师规定截止交作业时间:2015年10月31日 工程硕士研究生交作业时间:2015年 10月31日 研究生院培养管理办公室印制 中国矿业大学2015- ...

  • 基于颜色的皮肤检测综述
  • 第12卷 第3期2007年3月 中国图象图形学报JournalofImageandGraphics Vol.12,No.3 Mar.,2007 基于颜色的皮肤检测综述 徐战武 朱淼良 (浙江大学计算机学院,杭州 310027) 摘 要 在系统回顾和比较了基于颜色的皮肤检测的方法和技术(其中包括:颜色 ...

  • 充分统计量的证明及其相关结论
  • 第23卷第3期阜阳师范学院学报(自然科学版)VoI.23,No.32006年9月JQurnalofFuyangTeachersColIege(NaturaIScience)Sep2006 充分统计量的证明及其相关结论 何鹏光 (西华师范大学数学与信息学院,四川南无637002) 摘要:讨论了二种证明 ...

  • 信号检测与处理计算题
  • 信号检测与处理 1.设在某二元通信系统中,有通信信号和无通信信号的先验概率分别为:P(H1)=0.8,P(H0)=0.2.若对某观测值x 有条件概率分布f(x|H1)=0.25和f(x|H0)=0.45,试用最大后验概率准则对该观测样本x 进行分类. 2.在存在加性噪声的情况下,测量只能为2v 或0 ...