感知器和大间隔分类器(The perceptron and large margin classifiers)

最新推荐文章于 2022-03-25 14:58:58 发布

翻译最新推荐文章于 2022-03-25 14:58:58 发布 · 1.6k 阅读

标签

#感知器算法 #在线学习 #Novikoff定理

machine-learning 专栏收录该内容

34 篇文章

订阅专栏

本文探讨了在线学习的概念及其实现方式，并深入分析了感知器算法在在线学习中的应用。给出了感知器算法错误数的一个上界，并通过数学推导详细解释了这个上界是如何得出的。

在学习理论的最后一节我们会介绍一个与之前不同的机器学习模型。在前面的内容里我们讨论了太多批量学习的情形，即先在给定训练集上学习，将学习后的假设在另一个测试集上评估其表现。而在本节中，我们将关注在线学习这一情形，算法一边学习一边对输入进行预测。

在这种情景下，我们给学习算法一个有顺序的输入样本序列 $(x^{(1)},y^{(1)}), (x^{(2)},y^{(2)}), \ldots, (x^{(m)},y^{(m)})$ 。当碰到输入 $x^{(1)}$ 后，它就开始预测 $y^{(1)}$ 的值。当它结束预测后，我们就将 $y^{(1)}$ 的真实值反馈给它（它根据反馈值进行学习）。紧接着我们就将 $x^{(2)}$ ，然后它继续做出预测并接收反馈，依次循环直至 $(x^{(m)},y^{(m)})$ 。在线学习的情形中，我们对整个学习过程中算法出错的总次数感兴趣，因为它反映这种算法的效果。

我们会对感知器算法在在线学习中的犯错数给出一个上界。为了使后面的推到更简单，我们定义输出的类标签 $y \in \{ -1 , 1 \}$ ，权重 $\theta \in \Bbb{R}^{n+1}$ ，通过下列公式进行预测：

h θ (x) = g (θ T x) (1)

$h_\theta (x) = g(\theta^T x) \qquad \qquad (1)$
且：

g (z) = {1 - 1 if z \geq 0 if z < 0

$g(z) = \begin{cases} 1 \quad &\text{if} \ z \ge 0 \\ -1 \quad &\text{if} \ z \lt 0 \\ \end{cases}$

当给定一个训练样本 $(x,y)$ 后，感知器学习法这样更新权重：如果 $h_\theta (x) = y$ ，不做任何改变；否则：

θ : = θ + y x .

$\theta := \theta + yx.$

下面我们给出关于错误数上界的定理，需要注意的是，经此定理可知错误数的上界和样本数 $m$ 以及输入维数 $n$ 都没有关系。

定理（Block, 1962,and Novikoff, 1962） 对于给定训练集序列 $(x^{(1)},y^{(1)}), (x^{(2)},y^{(2)}), \ldots, (x^{(m)},y^{(m)})$ ，若输入的二范数满足 $\Vert x^{(i)} \Vert \le D$ 对于所有i成立，且存在单位向量 $u(\Vert u \Vert_2 =1)$ 使得 $y^{(i)} \cdot (u^T x^{(i)}) \ge \gamma$ 对所有样本均成立。那么感知器算法在这一序列中犯错的总数不会超过 $(D/ \gamma)^2$ 。

证明如下，若 $\theta^{(k)}$ 是算法第k次犯错时的权重值。那么 $\theta^{(1)} = \vec{0}$ （权重是从零开始的）且第k次犯错时的样本为 $(x^{(i)},y^{(i)})$ ，则有：

(x (i)) T θ (k) y (i) \leq 0 (2)

$(x^{(i)})^T \theta^{(k)} y^{(i)} \le 0 \qquad \qquad (2)$

另外由感知器学习法的性质可知 $\theta^{(k+1)} = \theta^{(k)} + y^{(i)}x^{(i)}$ ，我们可推得：

(θ (k + 1)) T u = (θ (k)) T u + y (i) (x (i)) T u \geq (θ (k)) T u + γ

$\begin{align} (\theta^{(k+1)})^T u &= (\theta^{(k)})^T u + y^{(i)} (x^{(i)})^T u \\ &\ge (\theta^{(k)})^T u + \gamma \\ \end{align}$

依次递推下去，可得：

(θ (k + 1)) T u \geq k γ . (3)

$(\theta^{(k+1)})^T u \ge k \gamma. \qquad \qquad (3)$

考察 $\theta^{(k+1)}$ 的2范数有：

∥ θ (k + 1) ∥ 2 = ∥ θ (k) + y (i) x (i) ∥ 2 = ∥ θ (k) ∥ 2 + ∥ x (i) ∥ 2 + 2 y (i) (x (i)) T θ (i) \leq ∥ θ (k) ∥ 2 + ∥ x (i) ∥ 2 \leq ∥ θ (k) ∥ 2 + D 2 (4)

$\begin{align} \Vert \theta^{(k+1)} \Vert^2 &= \Vert \theta^{(k)} + y^{(i)} x^{(i)} \Vert^2 \\ &= \Vert \theta^{(k)} \Vert^2 + \Vert x^{(i)} \Vert^2 + 2 y^{(i)} (x^{(i)})^T \theta^{(i)} \\ &\le \Vert \theta^{(k)} \Vert^2 + \Vert x^{(i)} \Vert^2 \\ &\le \Vert \theta^{(k)} \Vert^2 + D^2 \qquad \qquad \qquad \qquad \qquad \qquad (4)\\ \end{align}$

其中第三步的小于推导使用了方程(2)，我们将上式进一步递推则有：

∥ θ (k + 1) ∥ 2 = k D 2 . (5)

$\Vert \theta^{(k+1)} \Vert^2 = k D^2. \qquad \qquad \qquad (5)$

将不等式(3)和(5)结合起来可推得：

k \sqrt D \geq ∥ θ (k + 1) ∥ \geq (θ (k + 1)) T u \geq k γ

$\begin{align} \sqrt{k}D &\ge \Vert \theta^{(k+1)} \Vert \\ &\ge (\theta^{(k+1)})^Tu \\ &\ge k \gamma \\ \end{align}$

在第二步不等式的推导中使用了单位向量的性质( $\phi$ 表示z和u之间的夹角，有 $z^Tu = \Vert z \Vert \cdot \Vert u \Vert cos \phi \le \Vert z \Vert \cdot \Vert u \Vert$ )。最后可推得我们的结论 $k \le (D/ \gamma)^2$ 。