朴素贝叶斯2021-09-13
朴素贝叶斯的学习方法
概念定义
设输入空间为维向量的集合,输出空间为类标记集合。输入为特征向量,输出为类标记。是定义在输入空间上的随机向量,是定义在输出空间上的随机变量。是和的联合概率分布。训练数据集由独立同分布产生:
学习方法
朴素贝叶斯法通过训练数据集学习联合概率分布。具体地,学习以下先验概率分布及条件概率分布。
先验概率分布
条件概率分布
于是,学习到联合概率分布:
朴素的含义
问题:条件概率分布的参数是指数级的,其估计实际不可实行。
解决方法:对上述条件概率做条件独立性假设,即在给定的条件下,随机变量的各分量独立。具体如下所示:
朴素贝叶斯实际上学习到生成数据的机制,所以属于生成模型。
如何做分类
朴素贝叶斯算法分类时,对给定的输入,通过学习到的模型计算后验概率分布,将后验概率最大的类作为的预测类别。根据贝叶斯定理:
其中, 后验概率的朴素解释:现在判断一封电子邮件是否为垃圾邮件,不看内容随机猜,50%的胜率,但是,如果能看到邮件内容,就是知道了特征,再去判断是否为垃圾邮件,就是所谓的后验概率。
贝叶斯分类器
朴素贝叶斯分类器可以表示为:
由于分母对所有都是相同的,因此,上式可以简化为:
后验概率最大化的含义
朴素贝叶斯法将实例预测为后验概率最大的类别,这等价于期望风险最小化。
假设选择0-1损失函数:
其中,是分类决策函数 那么期望风险代表的就是损失的平均值,期望是对联合分布取的,期望风险函数为:
令,中损失函数大于等于0,条件概率大于0,因此也大于0。同时也大于0,且当时,(先验概率)为常数,因此期望风险最小化可转换为条件期望最小化,即
为了使期望风险最小化,只需对数据集中每个逐个最小化即可,由此可得到:
其中,为模型预测的输出类别,为真是类别 公式解释:必然属于中的一个,假设为。那么剩下的的概率和必然为
这样一来,根据期望风险最小化准则就得到了后验概率最大化准则,即朴素贝叶斯采用的原理:
朴素贝叶斯的参数估计
极大似然估计
在朴素贝叶斯方法中,学习意味着估计:
因此,可以使用极大似然法估计相应的概率。
估计
先验概率的极大似然估计是:
估计
设第个特征可能取值的集合是,条件概率的极大似然估计是:
其中,是第个样本的第个特征,是第个特征可能取的第个值,为指示函数。
学习与分类算法
算法朴素贝叶斯算法
输入训练数据其中是第个样本的第个特征是第个特征可能取的第个值实例
输出:的分类
计算先验概率及条件概率
对于给定的实例,计算
预测实例的类别
贝叶斯估计
使用极大似然估计可能会出现所要估计的概率值为0的情况。这时会影响到后验概率的计算结果,使分类产生误差。解决这一问题的方法是使用贝叶斯估计。具体地,条件概率的贝叶斯估计是:
其中, 等价于在随机变量各个取值的频数上加上一个正数。当时就是极大似然估计。
常取,这时称为拉普拉斯平滑。显然,对于任何,,有:
说明公式确实为一种概率分布。
同样,先验概率的贝叶斯估计是: