Stanford机器学习---第十讲. 数据降维

原创

于 2012-09-28 23:52:39 发布 · 6.4w 阅读

·

34

·

本文详细介绍了机器学习中降维的重要性和PCA（主成分分析）方法。PCA旨在找到低维表面投影数据，区别于线性回归。文章涵盖了PCA的目的、算法流程、如何决定降维数量以及PCA应用的建议，强调PCA应在训练数据上进行且不应仅用于解决过拟合问题。

本栏目（Machine learning）包括单参数的线性回归、多参数的线性回归、Octave Tutorial、Logistic Regression、Regularization、神经网络、机器学习系统设计、SVM（Support Vector Machines 支持向量机）、聚类、降维、异常检测、大规模机器学习等章节。内容大多来自Standford公开课machine learning中Andrew老师的讲解和其他书籍的借鉴。（https://class.coursera.org/ml/class/index）

PS: 盼望已久的十一长假就要到了~祝大家国庆快乐，玩的开心！(*^__^*)

第十讲. 降维——Dimensionality Reduction

===============================

（一）、为什么要降维?

（二）、主成分分析Principal Component Analysis (PCA)

（三）、PCA 算法流程

（四）、从压缩数据中恢复原数据

（五）、怎样决定降维个数/主成分个数

（六）、应用PCA进行降维的建议

本章主要讲述应用PCA算法进行数据降维的原理

=====================================

（一）、为什么要降维？

About data：

我们需要一组关于XXX的数据，定义就铺天盖地的来了，百万级个特征拿过来，我们怎么进行机器学习啊？！李航老师在他的博客《机器学习新动向：从人机交互中》中提到，学习精度越高，学习确信度越高，学习模型越复杂，所需要的样本也就越多。样本复杂度满足以下不等式

由此可见，feature太多会造成模型复杂，训练速度过慢，因此我们引入降维。

About Visualization：

多维数据很难进行可视化分析，因此我们需要降维分析。

最低0.47元/天解锁文章

评论 37

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。