通俗易懂讲透梯度下降法（Gradient Descent）

最新推荐文章于 2026-05-09 07:00:00 发布

原创最新推荐文章于 2026-05-09 07:00:00 发布 · 1.4k 阅读

6 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能 #机器学习 #python #算法

【机器学习-深度学习】算法专栏收录该内容

112 篇文章

订阅专栏

通俗易懂讲透梯度下降法（Gradient Descent）｜本科生/研究生都能看懂

本文用大白话+下山比喻+公式拆解+完整代码+可视化，把梯度下降法从原理、流程、优缺点到实战讲得明明白白，适合机器学习/深度学习入门、面试复习、课程笔记。

一、先搞懂：梯度下降法到底是什么？

一句话总结：
梯度下降法 = 沿着“最陡下坡”一步一步走，直到找到山谷最低点的优化算法。

在机器学习里：

山 = 损失函数（越高表示模型误差越大）
你的位置 = 模型参数
下山 = 减小损失、优化模型
每一步的大小 = 学习率（步长）

二、最形象的例子：黑夜下山

你在黑夜的山上，想尽快下到谷底：

拿出手电筒照脚下 → 算梯度（看哪边最陡）
朝坡度最陡的下方走一步 → 更新参数
走一步看一步，重复下去 → 迭代直到谷底

这就是梯度下降。

三、3 个核心关键词（必须懂）

梯度（Gradient）
函数在当前点上升最快的方向。
我们要反方向走，才能最快下降。
学习率（Learning Rate）
每一步走多大。
- 太大：迈过谷底、来回震荡、甚至不收敛
- 太小：走得极慢，训练半天不动
收敛（Convergence）
损失不再明显下降，说明走到谷底了。

四、数学公式（超级简单版）

1. 梯度是什么？

对参数求偏导，组成一个向量：
$\nabla J(\theta) = \left[ \frac{\partial J}{\partial \theta_1},\ \frac{\partial J}{\partial \theta_2},\ \dots \right]$

2. 梯度下降更新公式（背会）

$\theta = \theta - \eta \cdot \nabla J(\theta)$

$θ\theta$ ：模型参数
$η\eta$ ：学习率
$∇J(θ)\nabla J(\theta)$ ：梯度
减号 = 朝梯度反方向走

五、标准梯度下降算法流程（4 步）

随机初始化参数 $θ\theta$
计算全部样本的损失与梯度
按公式更新参数
重复直到损失收敛

注意：标准梯度下降 = 批量梯度下降（BGD），每一步都用全部数据。

六、代码实战：梯度下降训练线性回归（房价预测）

直接复制可运行，包含：

数据生成
标准化
梯度下降实现
损失曲线 + 预测对比 + 残差分析

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# ===================== 1. 生成模拟房价数据 =====================
np.random.seed(42)
n_samples = 100000
X = np.random.rand(n_samples, 3) * 100  # 3个特征：面积、房龄、房间数
noise = np.random.randn(n_samples) * 10
y = X @ [3.5, 2.1, -1.8] + 5 + noise

# 标准化
scaler = StandardScaler()
X = scaler.fit_transform(X)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# ===================== 2. 损失函数 =====================
def compute_cost(X, y, theta):
    m = len(y)
    pred = X @ theta
    return np.mean((pred - y) ** 2) / 2

# ===================== 3. 梯度下降 =====================
def gradient_descent(X, y, lr, iters):
    m, n = X.shape
    theta = np.zeros(n)
    cost_history = []
    
    for i in range(iters):
        pred = X @ theta
        grad = X.T @ (pred - y) / m
        theta -= lr * grad
        cost_history.append(compute_cost(X, y, theta))
    return theta, cost_history

# ===================== 4. 训练 =====================
lr = 0.01
iters = 1000
theta, costs = gradient_descent(X_train, y_train, lr, iters)

# ===================== 5. 预测 =====================
y_pred = X_test @ theta

# ===================== 6. 可视化1：损失下降曲线 =====================
plt.figure(figsize=(10,5))
plt.plot(costs)
plt.title('损失函数下降过程')
plt.xlabel('迭代次数')
plt.ylabel('损失')
plt.grid()
plt.show()

# ===================== 7. 可视化2：预测 vs 真实 =====================
plt.figure(figsize=(10,5))
plt.scatter(y_test, y_pred, alpha=0.3)
plt.plot([y.min(), y.max()], [y.min(), y.max()], 'r-', linewidth=2)
plt.title('真实值 vs 预测值')
plt.grid()
plt.show()

# ===================== 8. 可视化3：残差分布 =====================
residuals = y_test - y_pred
plt.figure(figsize=(10,5))
sns.histplot(residuals, kde=True)
plt.title('残差分布')
plt.grid()
plt.show()

print("最优参数：", theta)