感知机2021-09-11

感知机模型简介

$\{+1,-1 \}$ 。感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型。

$\mathcal{X} \subseteq \mathbf{R}^{n}$ $\mathcal{Y}=\{+1,-1\}$ $x \in \mathcal{X}$ $y \in \mathcal{Y}$ 表示实例的类别。由输入空间到输出空间的如下函数称为感知机：

\begin{matrix} (1) & f (x) = sign (w \cdot x + b) \end{matrix}

$w$ $b$ $w \in \mathbf{R}^{n}$ $b \in \mathbf{R}$ $w \cdot x$ $w$ $x$ $\operatorname{sign}$ 是符号函数, 即

\begin{matrix} (2) & \begin{matrix} sign (x) = {\begin{cases} + 1, & x ⩾ 0 \\ - 1, & x < 0 \end{cases} \end{matrix} \end{matrix}

感知机

感知机学习策略

$\mathbf{R}^{n}$ $x_0$ $S$ 的距离：

\begin{matrix} (3) & \frac{1}{∥ w ∥} | w \cdot x_{0} + b | 其 中 ， ∥ w ∥ 是 w 的 L_{2} 范 数 \end{matrix}

$(x_i, y_i)$ 来说：

\begin{matrix} (4) & - y_{i} (w \cdot x + b) > 0 \end{matrix}

$x_i$ $S$ 的距离是：

\begin{matrix} (5) & - \frac{1}{∥ w ∥} | w \cdot x_{i} + b | \end{matrix}

$S$ $M$ $S$ 的总距离为：

\begin{matrix} (6) & - \frac{1}{∥ w ∥} \sum_{x_{i} \in M} y_{i} (w \cdot x_{i} + b) \end{matrix}

根据以上推导，可得出感知机的损失函数：

$T=\{(x_1,y_1), (x_2,y_2), \cdots , (x_N, y_N) \}$ $x_{i} \in \mathcal{X}=\mathbf{R}^{n}, y_{i} \in \mathcal{Y}=\{+1,-1\}, i=1,2, \cdots, N$ $\operatorname{sign}(w \cdot x+b)$ 学习的损失函数定义为：

\begin{matrix} (7) & L (w, b) = - \sum_{x_{i} \in M} y_{i} (w \cdot x_{i} + b) 其 中 ， M 为 误 分 类 点 的 集 合 \end{matrix}

感知机学习算法

原始形式

优化目标：

\begin{matrix} (8) & min_{w, b} L (w, b) = - \sum_{x_{i} \in M} y_{i} (w \cdot x_{i} + b) 其 中 ， M 为 误 分 类 点 的 集 合 \end{matrix}

采用梯度下降法进行优化，损失函数的梯度为：

\begin{matrix} (9) & \begin{matrix} \nabla_{w} L (w, b) = - \sum_{x_{i} \in M} y_{i} x_{i} \\ \nabla_{b} L (w, b) = - \sum_{x_{i} \in M} y_{i} \end{matrix} \end{matrix}

$(x_i, y_i)$ $w,b$ 进行更新：

\begin{matrix} (10) & \begin{matrix} w \leftarrow w + η y_{i} x_{i} \\ b \leftarrow b + η y_{i} \\ 其 中 ， η (0 < η \leq 1) 为 学 习 率 \end{matrix} \end{matrix}

$算法 1.1 （感知机学习的原始形式）$

$输入：训练数据集T=\{(x_1,y_1),(x_2,y_2),\cdots, (x_N,y_N) \}，其中，x_i \in \mathcal{X} \subseteq \mathbf{R}^{n}，y_i \in \mathcal{Y}=\{-1,+1 \}，i=1,2,\cdots,N；\\ \quad \quad \; 学习率\eta(0<\eta \leq 1)$

$输出：w, b；感知机模型 f(x)=\operatorname{sign}(w \cdot x+b)$

$(1) \; 选取初值 w_0， b_0$

$(2) \; 在训练集中选取数据（x_i,y_i）$

$(3) \; 如果 \; y_i(w \cdot x_i + b) \leq 0 \; :$

$w \leftarrow w+\eta y_{i} x_{i} \\ b \leftarrow b+\eta y_{i}$

$(4) \; 转至(2)，直至训练集中没有误分类点$

对偶形式

$w$ $b$ $x_i$ $y_i$ $w$ $b$ $算法 1.1$ $w_0,b_0$ $(x_i,y_i)$ 通过

$w \leftarrow w+\eta y_{i} x_{i} \\ b \leftarrow b+\eta y_{i}$

$w,b$ 。

$n$ $w,b$ $(x_i,y_i)$ $\alpha_i y_i x_i$ $\alpha_i y_i$ $\alpha_i = n_i \eta$ $w,b$ 可以分别表示为：

\begin{matrix} (11) & \begin{aligned} w & = \sum_{i = 1}^{N} α_{i} y_{i} x_{i} \\ b & = \sum_{i = 1}^{N} α_{i} y_{i} \end{aligned} \end{matrix}

$\alpha_i \geq 0，i=1,2,\cdots,N$ $\eta = 1$ $\alpha_i$ $i$ 个实例点由于误分类而进行更新的次数。

$由 \alpha_i定义可知，\alpha_{i+1} = \eta (n_i +1) = \eta n_i + \eta = \alpha_i + \eta$

$算法 1.2 （感知机学习的对偶形式）$

$输出：w, b；感知机模型 f(x)=\operatorname{sign}\left(\sum_{j=1}^{N} \alpha_{j} y_{j} x_{j} \cdot x+b\right)，其中， \alpha = (\alpha_1, \alpha_2, \cdots, \alpha_N)^T$ 。

$(1) \; \alpha \leftarrow 0, b \leftarrow 0$

$(2) \; 在训练集中选取数据（x_i,y_i）$

$(3) \; 如果 \; y_i \left(\sum_{j=1}^{N} \alpha_{j} y_{j} x_{j} \cdot x+b\right) \leq 0 \; :$

$\alpha_{i} \leftarrow \alpha_{i}+\eta \\ b \leftarrow b+\eta y_{i}$

$(4) \; 转至(2)，直至训练集中没有误分类点$

对偶形式中训练实例仅以内积的形式出现。为了方便，可以预先将训练集中实例间的内积计算出来并以矩阵的形式存储，该矩阵称为Gram矩阵：

\begin{matrix} (12) & G = {[x_{i} \cdot x_{j}]}_{N \times N} \end{matrix}