[cs224n cs231n]我关于求导的维度的理解

最新推荐文章于 2026-04-18 21:10:56 发布

原创最新推荐文章于 2026-04-18 21:10:56 发布 · 423 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

机器学习专栏收录该内容

27 篇文章

订阅专栏

本文探讨了在深度学习中，反向传播算法如何通过计算梯度来更新神经网络的参数。具体分析了输入数据（形状为(M,Dx)）、权重矩阵W（形状为(Dx,Dy)）和偏差b（形状为(M,Dy)）在反向传播过程中的作用，以及它们如何影响参数的更新。

例如：

$Z$ 形状为(M, Dy)， $x$ 为(M, Dx)，W为(Dx, Dy)，b为(M, Dy)

$Z = xW + b$

$Y$_{pred}$ = softmax(Z)$

反向传播更新参数的时候，需要ｘ＋ｄｘ，所以ｘ或ｄｘ的形状相同

$dz$ 由下游反向传播之后形状为 (M, Dy)

$dx = np.dot(dz, W.T)$ 形状为 (M, Dx)

$dW = np.dot(X.T, dz)$ 形状为(Dx, Dy)

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。