15-Large Scale Machine Learning

本文深入探讨了在面对大型数据集时,如何通过优化算法如随机梯度下降、小批量梯度下降等,实现模型训练效率与结果质量的提升。重点分析了这些算法的工作原理、特点及在实际应用中的收敛性考量,同时引入在线学习与MapReduce等技术,阐述了如何在多核计算机或计算集群环境下高效处理大数据量的学习任务。

开发板推荐:天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

1 - Learning With Large Datasets

由前面章节的知识可知,在模型属于 low bias & high variance 的时候,增大数据集是对结果大有好处的。
Andrew NG 给的示例:
big data set

2 - Stochastic [sto’kæstɪk] Gradient Descent 随机梯度下降

常见的 Linear Regression 的梯度下降算法:
linear gradient descent
它的特征是每次迭代都需要对所有的训练数据进行一次遍历,在数据集非常大的时候算法运行会比较慢。

改进后的 Stochastic gredient descent 算法:
stochastic gradient descent
每次迭代只使用一个训练数据,每个训练数据都对参数θ的改进有一些影响。这样在数据量较大的时候运行速度能明显提升。缺点是收敛过程可能是波动的。

3 - Mini-Batch Gradient Descent

Batch gradient descent 与 stochastic gradeint descent 的折中:

  • Batch gradient descent: Use **all m **examples in each iteration
  • Stochastic gradient descent: Use 1 example in each iteration
  • Mini-batch gradient descent: Use b examples in each iteration

mini-batch

4 - Stochastic Gradient Descent Convergence 随机梯度下降算法的收敛性

Checking for convergence:

  • Batch gradient descent:每迭代一次计算一次 J(θ),绘制出 J(θ)随迭代次数的变化情况。

  • Stochastic gradient descent:每1000次迭代绘制一次 cost(θ,(x(i),y(i)))

convergence

5- Online Learning 在线学习

训练数据不是一开始就有的,而是在不断地动态生成。
假设样例到来的先后顺序为 (x(1),y(1)),(x(2),y(2)),,(x(n),y(n)),X为样本特征,y为类别标签。我们的任务是到来一个样例x,给出其类别结果y的预测值,之后我们会看到y的真实值,然后根据真实值来重新调整模型参数,整个过程是重复迭代的过程,直到所有的样例完成.
online learning

6 - Map Reduce and Data Parallelism

算法思想:发挥计算机的硬件性能,在多核计算机或计算集群上进行大数据量的学习。

map reduce
map reduce
map reduce

哪些情况下可以使用 Map reduce 算法:

Many learning algorithms can be expressed as computing sums of functions over the training set.

算法步骤中出现了对训练数据的求和的情况,那么就可以将任务划分到堕胎计算机上进行处理。
例如:

e.g

开发板推荐:天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值