Kernels
相似度
我们在Andrew的Week4中说到,如果非线性分类用多项式组合,可以找的h非常之多Hsuan-Tien Lin第十二讲也分析,这样的组合的特征非常多。
有没有更好的方式来选特征呢?
我们利用核函数kernel来定义新的特征值。
Kernel是数据点的特征的内积。
可以理解为两个数据点xi,xj,比较它们在特征空间的相似度,就是kernel。
。
Kernel值比较大,二者比较相似。kernel通过比较数据点的相似性,把原来的特征映射到更高维的特征空间。
现在,我们给定几个地标点(landmarks):
现在给一个点x,我们用kernel来计算它的新特征。具体做法就是:
这里计算相似度用的是高斯核函数:
(长的特别像高斯分布)
所以,如果两个点很相似的话,相似度就接近1;如果很不像的话相似度就接近0。
这样,就能得出上面三个新特征的值了f1,f2,f3。说到这里,我们知道核函数的作用了,它是选一个函数,如上面的高斯核函数,然后将数据的原来的特征映射成新特征。
高斯核函数中,x和l都是知道的,σ是我们不知道的,看看它是如何影响我们的模型的。
上图中,水平坐标是x1和x2。可以看出,当x和l一样时,f为1。随着x和l的差异越来越大,f越来越向下。而下降的速率受σ控制。当σ比较大时,f扁平。
来看上面的例子,假设我们想将蓝色曲线圈起来的点,预测为1,圈外的点预测为0。模型要满足什么样的要求?
我们看到,
在圈内,
在圈外。所以,如果预测点为1,该点必须和
或

本文详细介绍了机器学习中的核函数概念,特别是高斯核函数的运用,探讨了如何通过核函数计算数据点的相似度并进行特征映射。此外,文章还讨论了模型训练过程,C和σ的选择对模型的影响,以及SVM与其他核函数的比较,同时提到了多类分类和逻辑回归与SVM的适用场景选择。

5385

被折叠的 条评论
为什么被折叠?



