今天咱们聊聊数据分析岗位入职必备哪些工具,主要针对已经拿到offer的同学们,可以提前学习了解起来啦~
1. 岗位介绍和技能概览
1.1 岗位介绍
数据分析的岗位介绍我前面已经讲过了,想详细了解的同学欢迎爬楼翻看~
简单来说,数据分析师就是从一大堆数据中找出有用的信息。通常所说的数据分析岗位这个大类,细分的话还可以分为3个细类:
- 数据研发/大数据开发:专注于数据的清洗和预处理,为后续消费数据的服务(比如数据分析、应用算法等岗位),就像是把乱七八糟的房间整理得井井有条,对开发能力要求较高
- 数据分析/商业分析/BI:专注于从数据中挖掘出业务的发展情况并进行解读,为市场或者运营提供数据支撑,以帮助他们做出正确的商业决策,对商业敏感度要求较高
- 数据科学/AB实验:专注于通过AB实验机制科学准确地度量每个决策的效果,为应用算法、市场或者运营提供更精细化地数据解读,是把公司从领导说了算进步到数据说了算的核心岗位,对统计学理论基础要求较高
1.2 技能概览
我对常用工具按照工作流程角度进行了分类,列举了1个或者多个工具,并给出了从工作实用视角看学生具备相关能力的必要性,N颗星,星级越高必要性越大。

2. 必备工具清单
2.1 数据存储
HDFS(2颗星)
- 基本介绍
Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。HDFS 有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS 放宽了POSIX 的要求这样可以实现流的形式访问文件系统中的数据。
- 工具在工作中承担的角色
数据存储技术,是很底层的技术,一般是数据平台研发或者运维的岗位才会重点涉及。数据分析岗位同学涉及较少,但是为了知识面广需要了解到。
- 工具掌握要达到什么程度
-
- 做到基础知识和概念的知晓即可。
2.2 数据加工
SQL(5颗星)
- 基本介绍
SQL(Structured Query Language的缩写)是一种操作数据库的语言,包括创建数据库、删除数据库、查询记录、修改记录、添加字段等。SQL 虽然是一种被 ANSI 标准化的语言,但是它有很多不同的实现版本。SQL 是关系型数据库的标准语言,所有的关系型数据库管理系统,比如 MySQL、Oracle、SQL Server、MS Access、Sybase、Informix、Postgres 等,都将 SQL 作为其标准处理语言。
SQL是数据加工中最基础也是应用最广泛的工具(没有之一),即使是后续要介绍的Spark也提供SparkSQL以增加受众。SQL对于使用人员来说,优点是:语法简单、学习门槛很低、易于上手;但缺点是:灵活度差、和传统的面向过程或者面向对象的编程思维都不同。这就导致,对于复杂问题SQL的解决方式难度急剧增加。
- 工具在工作中承担的角色
数据加工在所有数据相关岗位日常工作中,都有非常大的比重(50%以上)。毕竟原始数据距离最终要得出结论,中间的所有过程几乎都离不开数据加工。数据分析同学要做出科学决策,首先要知晓这个迭代需要观测哪些指标,这就需要数据加工开发出这些指标,比如电商业务的点击PV、购买PV、GMV等等。其次要根据AB实验结果进行分析诸多指标的变化,这些都离不开数据加工。
- 工具掌握要达到什么程度
-
- 基本语法:group by、order by、聚合函数等
- 进阶语


2177

被折叠的 条评论
为什么被折叠?



