统计学习算法——K近邻法

原创已于 2025-01-15 10:15:38 修改 · 1.1k 阅读

本内容遵循CC 4.0 BY-SA版权协议

标签

#机器学习 #算法 #人工智能

于 2025-01-13 17:47:41 首次发布

22 篇文章

订阅专栏

内容来自B站Up主：风中摇曳的小萝卜https://www.bilibili.com/video/BV1vA4y1o72F，仅为个人学习所用。

问题导入

有这样一个分类问题，有两类节点，三个属于A类，两个属于B类。现在有一个新的点橙色点，那么它属于A类还是B类?
在这里插入图片描述

很自然的想到，若橙色点更靠近A类，则该点属于A类，反之属于B类。

如果我们有这样的策略：

特征空间中两个实例点的距离是两个实例点相似程度的反映。

k 近邻法中常用的距离度量有欧氏距离、曼哈顿距离等。

设图中有两点A和B。
在这里插入图片描述
欧氏距离是最常见的距离度量方法，它是在 n 维空间中两点之间的直线距离；如图，表现为AB之间的直线距离（绿色线）。

曼哈顿距离是在网格状空间中两点之间的最短距离，也称为出租车距离；如图，表现为两点在南北方向上的距离加上在东西方向上的距离（红色线），即d(i,j)=|xi-xj|+|yi-yj|。

蓝色线与黄色线为等价的曼哈顿距离。

k 值的大小直接影响着模型的复杂度和泛化能力。

若k值较小，进行预测时，只考虑训练数据中离待预测实例最近的少数几个样本，模型会变得复杂，对训练数据的拟合程度高，但可能会过拟合，对新数据的泛化能力较差；

若k值较大，模型会变得简单，考虑的训练样本较多，平滑效果好，能减少估计误差，但近似误差可能会增大，即对训练数据的拟合不够准确。

k值一般取奇数，避免分类平局。在分类问题中，当 k 值为偶数时，可能会出现两类样本数量相同的情况，导致分类结果出现平局，难以确定最终的类别。而选择奇数的 k 值，可以避免这种平局情况的发生，使得分类结果更加明确

在领域内，待分类的点的分类按照哪一个的样本类别相对于其他的样本类别多，就分类为哪一个类别。

在这里插入图片描述

如图，以该7个点为例，需要知道7个点的二维坐标。
在这里插入图片描述

最后构建的kd树如图：
在这里插入图片描述
现在有个x样本如图：

从根节点出发，以x为标准，发现438<479，遍历左子树，到节点1。
以y为标准，发现681<721，遍历左子树，到叶节点2。
暂时认为节点2是距离x最近的节点，以节点x到节点2为半径画出查找范围（一个圆）
回溯kd树到节点1，节点1的平面（荧光部分，注意不要被节点1上画的横线给骗了）与该圆相交，计算节点1到x的距离，发现值更小，更新最小距离样本和查找范围。
更新后的查找范围中，节点1的另一个子节点节点3所在的平面和查找范围相交，故进入节点3。
遍历到节点3，计算节点3到x的距离，发现值更小，更新最小距离样本和查找范围。
回溯到节点4，计算节点4到x的距离，发现值较大，不更新查找范围。
根节点4的另一个子节点6所在的平面与查找范围相交，故进入节点6。计算节点6到x的距离，不需要更新最小距离样本和查找范围。
节点6的一个左子节点5所在的平面与该查找范围无关系，不需要进入节点5；而另一个子节点7所在的平面与该查找范围相交，进入节点7，计算节点7到x的距离，不需要更新最小距离样本和查找范围。