贝叶斯决策

时间:2023-05-01 00:57:10 资料 我要投稿
  • 相关推荐

贝叶斯决策

模式识别

第2章 贝叶斯决策理论与统计判别方法

武汉大学电子信息学院

1

贝叶斯决策理论

模式识别

学习指南

主要内容是说明分类识别中为什么会有错分类, 在何种情况下会出现错分类?错分类的可能性会 有多大?在理论上指明了怎样才能使错分类最少? 不同的错分类造成的危害是不同的,有的错分类 种类造成的危害更大,因此控制这种错分类则是 更重要的.为此引入了一种"风险"与"损失" 概念,希望做到使风险最小.要着重理解"风险" 与"损失"的概念,以及在引入"风险"概念后 的处理方法.

武汉大学电子信息学院

2

贝叶斯决策理论

模式识别

理解这一章的关键是要正确理解先验概率, 类概率密度函数,后验概率这三种概率, 对这三种概率的定义,相互关系要搞得清 清楚楚.Bayes公式正是体现这三者关系的 式子,要透彻掌握.

武汉大学电子信息学院

3

贝叶斯决策理论

模式识别

2.1 引 言

模式识别是一种分类(classify)问题,即根据 识别对象所呈现的观察值,将其分到某个 类别中去.统计决策理论是处理模式分类 问题的基本理论之一,对模式分析和分类 器(classifier)的设计起指导作用.贝叶斯决 策理论是统计模式识别中的一个基本方法, 我们先讨论这一决策理论,然后讨论涉及 统计判别方法的一些基本问题.

武汉大学电子信息学院

4

贝叶斯决策理论

模式识别

特征向量与特征空间

例:苹果的直径尺寸限定在7厘米到15厘米 之间,它们的重量在3两到8两之间变化. 如果直径长度x用厘米为单位,重量y以两 为单位.那么,由x值从7到15,y值从3到8 包围的二维空间就是对苹果进行度量的特 征空间.

总体概率分布已知 要决策分类的类别数一定

武汉大学电子信息学院

5

贝叶斯决策理论

模式识别

贝叶斯决策理论所要讨论的问题

各类别ωi=1,2,…,c的先验概率P(ωi)及类条 件概率密度函数p(x|ωi)已知的条件下,如 何对某一样本按其特征向量分类的问题. 几种常用的决策规则 正态分布时统计决策的问题以及错误概率 等问题

武汉大学电子信息学院

6

贝叶斯决策理论

模式识别

2.2 几种常用的决策规则

不同的决策规则反映了分类器设计者的不 同考虑,对决策结果有不同的影响.其中 最有代表性的是: 基于最小错误率的贝叶斯决策 基于最小风险的贝叶斯决策

武汉大学电子信息学院

7

贝叶斯决策理论

模式识别

2.2.1 基于最小错误率的贝叶斯决策

分类识别中为什么会有错分类,在何种情况下会出现 错分类?错分类的可能性会有多大? 当某一特征向量值X只为某一类物体所特有,即

对其作出决策是容易的,也不会出什么差错.问题在 于出现模棱两可的情况.此时,任何决策都存在

判错 的可能性. 条件概率 :P(*|#)是条件概率的通用符号,P(ωK|X) 是表示在X出现条件下,样本为ωK类的概率.

武汉大学电子信息学院

8

贝叶斯决策理论

模式识别

先验概率,后验概率,概率密度函数

先验概率 P(ω1) 及P(ω2)

由先验知识在识别前就得到的概率

后验概率 P(ω1|X) 概率密度函数 P(X|ω1) 及P(X|ω2) 联合概率 P(X, ωi)

武汉大学电子信息学院

9

贝叶斯决策理论

模式识别

先验概率,后验概率,概率密度函数

Bayes(贝叶斯)公式是根据联合概率这一概 念推出的 P(x,ωi)=P(x|ωi)P(ωi)=P(ωi|x)P(x)

贝叶斯公式实质上是通过观察x,把状态的 先验概率P(i)转化为后验概率P(i|x)

武汉大学电子信息学院

10

贝叶斯决策理论

模式识别

图2.1

武汉大学电子信息学院

11

贝叶斯决策理论

模式识别

图2.2

武汉大学电子信息学院

12

贝叶斯决策理论

模式识别

基于最小错误率的贝叶斯决策

基于最小错误概率的贝叶斯决策理论就是 按后验概率的大小作判决的 (1)后验概率: 如果 则

武汉大学电子信息学院

13

贝叶斯决策理论

模式识别

(2)如果 则 (3)似然比: 如果 则

否则

武汉大学电子信息学院

14

贝叶斯决策理论

模式识别

(4)似然比写成相应的负对数形式: 如果

则 否则

武汉大学电子信息学院

15

贝叶斯决策理论

模式识别

例2.1

假设在某地区切片细胞中正常(ω1)和异常 (ω2)两类的先验概率分别为P(ω1)=0.9, P(ω2)=0.1.现有一待识别细胞呈现出状态 x,由其类条件概率密度分布曲线查得 p(x|ω1)=0.2,p( x|ω2)=0.4,试对细胞x 进行分类. 解:利用贝叶斯公式,分别计算出状态为x 时ω1与ω2的后验概率

武汉大学电子信息学院

16

贝叶斯决策理论

模式识别

P(ω1|x)=0.818>P(ω2|x)=0.0182 因此判定该细胞为正常细胞比较合理.

武汉大学电子信息学院

17

贝叶斯决策理论

模式识别

基于最小错误率的贝叶斯决策的证明

平均错误率 :在观测值可能取值的整个范 围内错识率的均值

武汉大学电子信息学院

18

贝叶斯决策理论

模式识别

两类别情况:

当P(w2|x)>p(w1|x)时决策为w2,对观测 值x有P(w1|x)概率的错误率

R1:作出w1决策的所有观测值区域,条件错误概率为p(w2|x) R2: 条件错误概率为p(w1|x).因此平均错误率P(e)可表示成

武汉大学电子信息学院

19

贝叶斯决策理论

模式识别

在R1区内任一个x值都有P(w2|x)

(2-9)

武汉大学电子信息学院

20

模式识别

错误率为图中两个划线部分之和, 对应的错误率区域面积为最小.

武汉大学

电子信息学院

贝叶斯决策理论

21

贝叶斯决策理论

模式识别

C类别情况 :

最小错误率贝叶斯决策规则: 如果 则 X∈ω i (2-10) 用先验概率与类条件概率密度相联系的形 式,得 : 如果

武汉大学电子信息学院

22

(2-11)

贝叶斯决策理论

模式识别

计算平均正确分类概率P(c)即

(2-12)

平均错误率 :P(e)=1-P(c)

武汉大学电子信息学院

23

贝叶斯决策理论

模式识别

例: 应用贝叶斯决策的肤色提取

武汉大学电子信息学院

24

贝叶斯决策理论

模式识别

利用贝叶斯原理,可以建立简单的肤色模型,并 用来从图像中提取手部,脸部肤色,进而得到人 的身体姿势. 1.先在一副训练图象中手工描绘出肤色区域, 2.然后统计每种颜色点在肤色区域中出现的次数 和在区域外出现的次数的比值,作为这种颜色是 肤色的概率

武汉大学电子信息学院

25

贝叶斯决策理论

模式识别

3.这样就得到了一张查找表,表中的每个元 素是这个点是肤色的概率.我们就得到了一个 点是不是肤色的概率分布.以上的"颜色训练 结果窗口"就是这样一张表的直观显示.实际 表格是三维的(HSI颜色空间,32×32×8)把这 个条形区域分成八块以后,每一块是个32×32 的正方形,表示HS空间下的概率分布,颜色越 亮,说明这种颜色是肤色的概率越大. 4.再加上域值限制之后,认为只有概率大于 一定域值的才是肤色.

武汉大学电子信息学院

26

贝叶斯决策理论

模式识别

2.2.2基于最小风险的贝叶斯决策

使错误率最小并不一定是一个普遍适用的最佳选择. 一个与损失有关联的,更为广泛的概念——风险

(2-13) 观测样本X实属类别j,而被判为状态i时所造成的损失, Ri则表示了观测值X被判为i类时损失的均值 分类则依据Ri,(i=1,…,c)中的最小值,即最小风险来定.

武汉大学电子信息学院

27

贝叶斯决策理论

模式识别

例 :病理切片

ω1表示病理切片正常 ω2表示病理切片异常 P(ω1|X)与P(ω2|X)分别表示了两种可能性的大 小 : X确实是癌细胞(ω2),但被判作正常(ω1) 损失 : X确实是正常(ω1),却被判定为异常(ω2) 损失

武汉大学电子信息学院

28

贝叶斯决策理论

模式识别

定义:

自然状态 :指待识别对象的类别 A={ α1,α2,……αn} 状态空间:由所有自然状态所组成的空间 , Ω={ω1,ω2,…,ωc} 决策 :不仅包括根据观测值将样本划归哪 一类别(状态),还可包括其它决策,如"拒 绝"等 决策空间 :由所有决策组成的空间

武汉大学电子信息学院

29

贝叶斯决策理论

模式识别

损失函数λ(αi|ωj)(或写成λ(αi,ωj) ) 观测值X条件下的期望损失R(αi|X), i=1,2,…,a (2-14) Ri: 条件风险

武汉大学电子信息学院

30

贝叶斯决策理论

模式识别

最小风险贝

叶斯决策规则

如果 期望风险R 则α=αk

(2-15)

(2-16)

它表示对所有X取值所作的决策α(X)所带 来的平均风险

武汉大学电子信息学院

31

贝叶斯决策理论

模式识别

最小风险贝叶斯决策步骤

根据贝叶斯公式计算出后验概率 : j=1,…,x 利用计算出的后验概率及决策表,计算出 采取αi,i=1,…,a的条件风险

j=1,…,x

找出使条件风险最小的决策αk,即

武汉大学电子信息学院

32

贝叶斯决策理论

模式识别

例2.2

P(ω1)=0.9, P(ω2)=0.1 p(X|ω1)=0.2, p(X|ω2)=0.4 λ11=0, λ12=6, λ21=1, λ22=0 后验概率 P(ω1|X)=0.818, P(ω2|X)=0.182

武汉大学电子信息学院

33

贝叶斯决策理论

条件风险

模式识别

由于R(α1|X)>R(α2|X) 判待识别的细胞X为ω2类——异常细胞 比较例2.1 P(ω1|X)=0.818, P(ω2|X)=0.182 ,正常细胞

武汉大学电子信息学院

34

贝叶斯决策理论

模式识别

两种决策方法之间的关系

基于最小错误率的决策是基于最小风险决 策的一个特例 设损失函数为

式中假定对C类只有C个决策,即不考虑 "拒绝"等其它情况,(2-17)表明,当作出 正确决策(即i=j)时没有损失,而对于任何 错误决策,其损失均为1.这样定义的损失 函数称为0—1损失函数.

武汉大学电子信息学院

35

贝叶斯决策理论

模式识别

两种决策方法之间的关系

根据(2-14)式条件风险为

最小错误率贝叶斯决策就是在0—1损失函 数条件下的最小风险贝叶斯决策

武汉大学电子信息学院

36

贝叶斯决策理论

模式识别

图2.4

武汉大学电子信息学院

37

贝叶斯决策理论

模式识别

图2.3 与图2.4

武汉大学电子信息学院

38

贝叶斯决策理论

模式识别

2.2.4判别函数,决策面与分类器设计

决策域 :待识别的特征向量落在哪个决策 域,该样本就被判为哪一类. 决策面 :决策域的边界面 判别函数 :用于表达决策规则的某些函数

武汉大学电子信息学院

39

贝叶斯决策理论

模式识别

例 :两类别问题按最小错误率作决策

相应的判别函数: gi(X)=P(ωi|X), i=1,2 决策面方程 : g1(X)=g2(X) 决策规则 如果gi(X)>gj(X) i,j=1,2 且 i≠j 则X∈ωi

武汉大学电子信息学院

40

贝叶斯决策理论

模式识别

多类别情况决策规则:

如果 则将X归于ωi类 决策面 : 当ωi的决策域与ωj的决策域相邻时,以下 关系决定了相应的决策面 gi(X)=gj(X)

武汉大学电子信息学院

41

贝叶斯决策理论

模式识别

图2.5(a)表示了一个三类别问题用一维特征空 间时的所有决策边界,而图2.5(b)则表示了相 应的二维特征空间中的决策边界

武汉大学电子信息学院

42

贝叶斯决策理论

模式识别

两类别问题分类器的框图:

武汉大学电子信息学院

43

贝叶斯决策理论

模式识别

多类别分类器的结构框图:

武汉大学电子信息学院

44

贝叶斯决策理论

模式识别

§2.3 正态分布时的统计决策

具体的决策域划分与样本的概率分布有关. 下面结合正态分布概率密度函数进行讨论, 在讨论结束时我们会发现从中可以得到不 少启示.

武汉大学电子信息学院

45

贝叶斯决策理论

模式识别

2.3.1正态分布概率密度函数的定义与性质

单变量正态分布

正态分布是指一个随机实数度量值在整个实数域 上的分布规律,属于概率密度函数类

武汉大学电子信息学院

46

贝叶斯决策理论

模式识别

多元正态分布

多元正态分布的概率密度函数:

μ是X的均值向量,d维 μ=E{X}=[μ1,μ2,…,μd]T ∑是d×d维协方差矩阵,而∑-1是∑的逆 矩阵,|∑|是∑的行列式 ∑=E{(X-μ)(X-μ)T}

武汉大学电子信息学院

47

贝叶斯决策理论

模式识别

多元正态分布的重要的特性

多元正态分布的概率密度函数中的元就是 我们前面说得特征向量的分量数,也就是 维数 . 多维向量:每一个分量都是随机变量,服 从正态分布.http://http://www.unjs.coM/news/5587D97E021E5268.html但是一个二维随机向量不仅 要求考虑每个分量单独的分布,还要考虑 两个随机变量之间的关系 ——相关性

武汉大学电子信息学院

48

贝叶斯决策理论

模式识别

例:两个二元正态分布

武汉大学电子信息学院

49

贝叶斯决策理论

模式识别

协方差矩阵:

用 E[x1-μ1)(x2-μ2)]来衡量这种相关性,称 为协方差矩阵 非对角元素正表示了两个分量之间的相关 性 主对角元素则是各分量本身的方差 协方差矩阵的重要属性:正定的对称矩阵

武汉大学电子信息学院

50

贝叶斯决策理论

模式识别

多元正态分布的性质

参数μ与∑对分布具有决定性,记作p(X)~ N(μ,∑). 等密度点分布在超椭球面上. 等密度点对应: (x-μ)T∑-1(x-μ)=常数

武汉大学电子信息学院

51

贝叶斯决策理论

模式识别

向量X到向量μ的Mahalanobis距离的平方 r2=(x-μ)T∑-1(x-μ) 多元正态分布的离散程度由参数|∑|1/2决定, 这与单变量时由标准差σ决定是对应一致的. 不相关性等价于独立性. —不相关 :E[xixj]=E[xi]〃E[xj] —相关 :(xi,xj)=p(xi)p(xj),

武汉大学电子信息学院

52

贝叶斯决策理论

模式识别

边缘分布和条件分布的正态性 多元正态分布的边缘分布和条件分布仍然是 正态分布. 线性变换的正态性 Y=αTx,则Y的分布仍然是正态的.

武汉大学电子信息学院

53

模式识别 贝叶斯决策理论 2.3.2正态分布概率模型下的最小错误率贝叶斯决 策

如果 则X∈ωi 判别函数为 p(x| ωi) p(ωi) ,采用对数形 式

武汉大学电子信息学院

54

贝叶斯决策理论

模式识别

决策规则:

相应的决策面方程为

武汉大学电子信息学院

55

贝叶斯决策理论

模式识别

最小

距离分类器情况

定义:每个样本以它到每类样本均值的欧 氏距离的最小值确定其分类 . 如果 则 X∈ωi 样本分布满足以下正态分布条件时,最小 错误分类器与(2-39)表示的决策规则相当:

武汉大学电子信息学院

56

贝叶斯决策理论

模式识别

在这种条件下,由于|∑|=σ2d及 ∑i-1=σ2I ,代入(2-37)得

武汉大学电子信息学院

57

贝叶斯决策理论

模式识别

由于决策是根据各判别函数之间的大小,因而在 (2-48)中一些与类别无关的项可以忽略,再加上 先验概率相等这个条件,判别函数可简化成

最小距离分类器就可看作模板匹配.每个类有一 个典型样本(即均值向量),称为模板,而待分类 样本X只要按欧氏距离计算与哪个模板最相似(欧 氏距离最短)即可作决定.

武汉大学电子信息学院

58

贝叶斯决策理论

模式识别

线性分类器

∑i=σ2I i=1,…,c

其中

武汉大学电子信息学院

59

贝叶斯决策理论

模式识别

决策面方程

利用 以及 代入(2-46)并整理,可得 WT(X-X0)=0 (2-47) W=μi-μj

武汉大学电子信息学院

60

贝叶斯决策理论

模式识别

另一种简单情况

∑i=∑

表示在二维特征空间的情况

武汉大学电子信息学院

61

贝叶斯决策理论

模式识别

判别函数

如果c类先验概率都相等,

其中

武汉大学电子信息学院

62

贝叶斯决策理论

模式识别

决策面方程

gi(X)-gj(X)=0 即 其中

武汉大学电子信息学院

63

贝叶斯决策理论

模式识别

线性分类器总结

在正态分布条件下,基于最小错误率贝叶 斯决策只要能做到两类协方差矩阵是一样 的,那么无论先验概率相等不相等,都可 以用线性分界面实现. 小欧氏距离分类器则要求正态分布协方差 矩阵为单位阵,先验概率相等.

武汉大学电子信息学院

64

贝叶斯决策理论

模式识别

各类协方差矩阵不相等的情况

∑i≠∑j i,j=1,2,…,c

(d×d矩阵) (d维列向量)

武汉大学电子信息学院

65

贝叶斯决策理论

模式识别

决策面方程(当两个决策域毗邻)

根据gi(X)-gj(X)=0有

武汉大学电子信息学院

66

贝叶斯决策理论

模式识别

图2.10

武汉大学电子信息学院

67

贝叶斯决策理论

模式识别

讨论与分析

分析了在何种正态分布条件下,最小错误 率贝叶斯决策具有线性决策面. 最小距离分类器与统计上最小错误率决策 上一致的条件.

武汉大学电子信息学院

68

贝叶斯决策理论

模式识别

本章小结

主要的知识: 使用什么样的决策原则我们可以做到错误 率最小Bayes决策 错分类最小并不一定是一个识别系统最重 要的指标风险,损失 学习获得对样本概率分布的估计

武汉大学电子信息学院

69

贝叶斯决策理论

模式识别

贝叶斯决策理论是统计模式识别

的重要理论基础 理论上讲,贝叶斯决策方法是最优的(在最小错误 率或最小风险意义上) 应用中:需要首先得到先验概率和类条件概率密度 方法一: 先估计概率密度,后求解决策规则 方法二: 若已知或可假设概率密度为某种形式(比 如正态分布),可先求出判决函数形式,再从样本 估计其中的参数. 方法三: 直接选择或假设某种判决函数形式,用样 本确定其参数.

武汉大学电子信息学院

70

贝叶斯决策理论

模式识别

习题

1. 试简述先验概率,类条件概率密度函数和 后验概率等概念间的关系: 2. 试写出利用先验概率和分布密度函数计算 后验概率的公式 3. EX2.5 4. EX2.15 5. 写出最小错误率和最小风险决策规则相应 的判别函数(两类问题). 6. 用Matlab计算两类识别问题:根据血液中 白细胞的浓度来判断病人是否患血液病.

武汉大学电子信息学院

71

【贝叶斯决策】相关文章:

基于贝叶斯理论的指挥引导决策研究05-02

基于前景理论与贝叶斯决策模型的彩民动机研究04-30

基于参数的贝叶斯先验选择方法04-27

ARFIMA模型参数贝叶斯估计的渐近性质04-27

机匣包容性的贝叶斯评价方法04-27

基于贝叶斯动态模型的某器件性能预测05-01

基于贝叶斯网络的飞机易损性评估方法04-27

基于贝叶斯粗糙集模型的属性约简算法04-29

Behrens-Fisher问题的信赖与贝叶斯精确区间估计04-29

基于贝叶斯网络的人因可靠性评价04-26