d2l Nadaraya-Waston核回归

最新推荐文章于 2025-04-16 20:08:02 发布

原创最新推荐文章于 2025-04-16 20:08:02 发布 · 566 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#回归 #机器学习 #人工智能

文件处理专栏收录该内容

25 篇文章

订阅专栏

文章介绍了如何使用注意力机制来拟合带有噪声的数据。通过对训练样本x_train和y_train（含噪声）的处理，构造了非参数注意力汇聚方法，利用softmax函数计算距离权重。在给定的测试样本x_test上，通过注意力权重与y_train加权求和得到y_hat，从而实现无噪声的y_truth的拟合。这种方法关注于与给定点距离更近的训练样本，权重随着距离增加而减小。

注意力机制里面的非参数注意力汇聚

1.目标任务

使用y_train(有噪声),拟合y_truth(没噪声)。给你所有的y_train，构造注意力权重生成拟合曲线。

2.数据生成

n_train = 50 # 训练样本数
x_train, _ = torch.sort(torch.rand(n_train) * 5) # 排序后的训练样本

其中：对于sort的返回值：

sort返回两个值，第一个是拍好了从小到大的顺序后的values，另一个是对应原数据的indices

2.1构造原始数值

噪声服从u=0;std=0.5的正态分布：

y_train为上述计算式，包含噪声；y_truth为上式不包含噪声

def f(x):
    return 2 * torch.sin(x) + x**0.8

y_train = f(x_train) + torch.normal(0.0, 0.5, (n_train,)) # 训练样本的输出
x_test = torch.arange(0, 5, 0.1) # 测试样本
y_truth = f(x_test) # 测试样本的真实输出
n_test = len(x_test) # 测试样本数
n_test

训练样本是有噪声的x_train与y_train;真实数据是不带噪声的y_truth

3.非参数注意力汇聚

# X_repeat的形状:(n_test,n_train),
# 每⼀⾏都包含着相同的测试输⼊（例如：同样的查询）
X_repeat = x_test.repeat_interleave(n_train).reshape((-1, n_train))
# x_train包含着键。attention_weights的形状：(n_test,n_train),
# 每⼀⾏都包含着要在给定的每个查询的值（y_train）之间分配的注意⼒权重
attention_weights = nn.functional.softmax(-(X_repeat - x_train)**2 / 2, dim=1)
# y_hat的每个元素都是值的加权平均值，其中的权重是注意⼒权重
y_hat = torch.matmul(attention_weights, y_train)
plot_kernel_reg(y_hat)

上块代码中：

repeat_interleave就是将原来的x_test中的每一个元素赋值n_train次，得到一个一维tensor，再使用reshape操作使复制的相同元素都在同一行中。