感知机
2021-09-11

 

感知机模型简介

感知机(perceptron)是二分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取值为{+1,1}。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。

定义 (感知机) 假设输入空间(特征空间 ) 是 XRn, 输出空间是 Y={+1,1} 。 输入 xX 表示实例的特征向量, 对应于输入空间 (特征空间 ) 的点; 输出 yY 表示实例的类别。由输入空间到输出空间的如下函数称为感知机

(1)f(x)=sign(wx+b)

其中, wb 为感知机模型参数, wRn 叫作权值 ( weight ) 或权值向 量( weight vector ), bR 叫作偏置 ( bias ) , wx 表示 wx 的内积。 sign 是符号函数, 即

(2)sign(x)={+1,x01,x<0

感知机

 

 

感知机学习策略

空间Rn中任意一点x0到超平面S的距离:

(3)1w|wx0+b|wwL2

对误分类的数据(xi,yi)来说:

(4)yi(wx+b)>0

因此,误分类点xi到超平面S的距离是:

(5)1w|wxi+b|

假设超平面S的误分类点集合为M,那么所有误分类点到超平面S的总距离为:

(6)1wxiMyi(wxi+b)

根据以上推导,可得出感知机的损失函数

给定训练数据集 T={(x1,y1),(x2,y2),,(xN,yN)},其中,xiX=Rn,yiY={+1,1},i=1,2,,N。感知机sign(wx+b)学习的损失函数定义为:

(7)L(w,b)=xiMyi(wxi+b)M

感知机学习算法

原始形式

优化目标:

(8)minw,bL(w,b)=xiMyi(wxi+b)M

采用梯度下降法进行优化,损失函数的梯度为:

(9)wL(w,b)=xiMyixibL(w,b)=xiMyi

随机选取一个误分类点(xi,yi),对w,b进行更新:

(10)ww+ηyixibb+ηyiη(0<η1)

1.1

T={(x1,y1),(x2,y2),,(xN,yN)}xiXRnyiY={1,+1}i=1,2,,Nη(0<η1)

w,bf(x)=sign(wx+b)

(1)w0b0

(2)xi,yi

(3)yi(wxi+b)0:

ww+ηyixibb+ηyi

(4)(2)

 

对偶形式

基本想法是:将wb表示为实例xi和标记yi的线性组合的形式,通过求解其系数而求得wb。不失一般性,在1.1中可假设初始值w0,b0均为0。对分类点(xi,yi)通过

ww+ηyixibb+ηyi

逐步修改w,b

设修改n次,则w,b关于(xi,yi)的增量分别是αiyixiαiyi,这里αi=niη。从学习过程中不难看出,最后学习到的w,b可以分别表示为:

(11)w=i=1Nαiyixib=i=1Nαiyi

其中,αi0i=1,2,,N,当η=1时,αi表示第i个实例点由于误分类而进行更新的次数。

αiαi+1=η(ni+1)=ηni+η=αi+η

 

1.2

T={(x1,y1),(x2,y2),,(xN,yN)}xiXRnyiY={1,+1}i=1,2,,Nη(0<η1)

w,bf(x)=sign(j=1Nαjyjxjx+b)α=(α1,α2,,αN)T

(1)α0,b0

(2)xi,yi

(3)yi(j=1Nαjyjxjx+b)0:

αiαi+ηbb+ηyi

(4)(2)

 

对偶形式中训练实例仅以内积的形式出现。为了方便,可以预先将训练集中实例间的内积计算出来并以矩阵的形式存储,该矩阵称为Gram矩阵:

(12)G=[xixj]N×N