如何找一份数据分析的工作?如何规划数据科学家之路?
再次偶然看到猴子的一系列文章,有所思。
认识数据(就像认识基本数字0-9一样)
|
分析数据(使用Excel、Python、SQL等工具)
|
理解数据(通过算法模型等得出结论)
之前一直关注编程工具,但是一直忽略两个重点:一是要认识甚至是记住一些具体案例中的数据,就像记得0-9这几个数字一样熟悉;而是业务理解,这一点很能够看出个人的综合能力。总而言之,练习熟练具体的案例十分重要!
下面,将以这个链接Analytics Vidhya为主,开始学习。
优秀连接
1、24个数据科学案例
1. 二十四个数据科学案例
目录:
-
- Beginner Level
Iris Data
Loan Prediction Data
Bigmart Sales Data
Boston Housing Data
Time Series Analysis Data
Wine Quality Data
Turkiye Student Evaluation Data
Heights and Weights Data -
- Intermediate Level
Black Friday Data
Human Activity Recognition Data
Siam Competition Data
Trip History Data
Million Song Data
Census Income Data
Movie Lens Data
Twitter Classification Data -
- Advanced Level
Identify your Digits
Urban Sound Classification
Vox Celebrity Data
ImageNet Data
Chicago Crime Data
Age Detection of Indian Actors Data
Recommendation Engine Data
VisualQA Data
2. 全面的面试题目总结:数据科学与统计问题
目录:
数据科学与统计问题
机器学习问题
深度学习问题
案例学习
智力题与猜估
特定的工具与语言问题
新手提示与诀窍
励志的故事
机器学习问题
Q1. You are given a train data set having 1000 columns and 1 million rows. The data set is based on a classification problem. Your manager has asked you to reduce the dimension of this data so that model computation time can be reduced. Your machine has memory constraints. What would you do? (You are free to make practical assumptions.)
答:
1.关闭其他应用程序,腾出内存;
2.随机采样;
3.去除相关变量:数值型变量使用相关系数,分类变量使用卡方检验;
4.使用PCA降维;
5.也可以使用在线的算法,比如Vowpal Wabbit;
6.构建使用随机梯度下降的线性模型;
Q2. Is rotation necessary in PCA? If yes, Why? What will happen if you don’t rotate the components?
(暂略)
Q3. You are given a data set. The data set has missing values which spread along 1 standard deviation from the median. What percentage of data would remain unaffected? Why?
答:32% (统计学的68–95–99.7原则)
Q4. You are given a data set on cancer detection. You’ve build a classification model and achieved an accuracy of 96%. Why shouldn’t you be happy with your model performance? What can you do about it?
答:
首先,癌症预测结果是一个不平衡的数据集,所以不应该使用准确率作为评价指标,而是应该是用灵敏度/Sensitivity (True Positive Rate)、特异度/Specificity (True Negative Rate)、F score等评价指标。详见。
如果数量少的标签类别的表现很差,那可以采取以下措施:
- 可以采取降采样、过采样或者SMOTE的方法让数据变得均衡
- 可以使用ROC曲线来找到一个合适的阈值
- 给数据量较少的类别样本更高的权重
- 使用功异常检测
Q5. Why is naive Bayes so ‘naive’ ?
答:
(以后待续…)
深度学习问题
案例学习
(1) 通过动态规划方式以 10 倍的速度解答面试中的案例
(2)数据分析能力面试的案例 —— 出租车调配问题
(3) 分析学面试中的一个案例
(4) 适合新手的案例:呼叫中心优化(难度中)
(5) 为某个线上商家优化产品价格(难度高)

案例和面试题&spm=1001.2101.3001.5002&articleId=106923637&d=1&t=3&u=676d96b8dddc47d99e72528cc737d40a)
3382

被折叠的 条评论
为什么被折叠?



