Python做数据分析需要注意的细节-20200403

本文介绍了Python进行数据分析的准备,包括明确分析目的、使用PEST框架进行宏观环境分析,详细阐述了数据分析的步骤,如数据收集、处理、分析和可视化。讨论了Python的便捷性,并提及了Pandas、NumPy、SciPy、Matplotlib等关键模块。此外,还推荐了PyCharm和Spyder等开发工具,以及项目管理和代码提示的实用技巧。

目录

1.数据分析要做的准备:

2.PEST分析框架:

3.数据分析的步骤:

4.Python为什么使用方便?

5.函数

6.模块

7.开发工具

8.项目管理

9.代码提示

10.相关说明


1.数据分析要做的准备:

  1. 明确分析目的
  2. 梳理分析思路
  3. 采用哪些分析指标
  4. 采用哪些分析方法
  5. 确保分析框架的体系化,确保数据分析维度的完整性、分析结果的有效性正确性

2.PEST分析框架:

  1. 政治——国家出台哪些政策、有何影响、制约还是促进;相关法律有哪些,有何影响
  2. 经济——GDP及增长率、进出口总额及增长率;消费价格指数、失业率、居民可支配收入
  3. 社会——人口规模、性别比例、年龄结构、生活方式、购买习惯、教育状况、网民、全国公民
  4. 技术——技术的发明、传播、更新、商品化的速度以及趋势;国家重点支持项目、国家投入的研发费用、专利申请量、专利授权量、专利转化量、转化金额

3.数据分析的步骤:

  1. 数据收集——公司业务数据库;公开出版物(《中国统计年鉴》、《中国社会统计年鉴》、《中国人口统计年鉴》、《世界经济年鉴》、《世界发展报告》);官方网站(国家及地方统计局网站、行业组织网站、政府机构网站、传播媒体网站、大型综合门户网站、网络爬虫抓取);市场调查(用户的想法与需求
  2. 数据处理
  3. 数据分析——对比分析、分组分析、结构分析、分布分析、交叉分析、矩阵分析、回归分析
  4. 数据可视化
  5. 报告撰写——起因、过程、结果、建议;分析框架化、结论明确化、建议业务化结构清晰、主次分明、图文并茂

4.Python为什么使用方便?

  • Python的底层是用C语言编写的,很多标准模块和第三方模块都是用C语言编写,运行速度非常快
  • Python和Java一样,都是面向对象的高级语言不需要考虑计算机内如何管理内存等底层的执行细节
  • Python程序中可以使用C或C++(可扩展),同时也可以把Python嵌入C或C++中(可嵌入

5.函数

函数名描述
printprint(value,...,sep=' ',end='\n',file=sys.stdout)
len数组长度
abs取绝对值
max取最大值
min取最小值
sum求和
powx的y次幂
round

 四舍五入

divmod取整求余

6.模块

  1. 把函数按功能进行分组,分别放到不同的文件里。在一个以.py为后缀的文件中,包含着多个函数,这样的一个文件称为一个模块。Python中的模块=Java中的包=C/C++中的库,都是对程序的封装
  2. 如何导入模块:import 模块名from 模块名 import 函数名或变量名。两种方法相比较,第一种会一次性地把模块下的所有函数和变量都导入到内存中,而后者可以更合理的运用内存,但可能会需要多次导入。
  3. Pandas模块用作金融数据分析,提供时间序列分析、类似表格的数据框DataFrame,是Python中最好的数据分析工具。
  4. NumPy存储和处理大型矩阵,底层是C语言实现的,用于数值计算。进行严格的数字处理:矩阵计算、矢量处理、精密计算等。Pandas也是用NumPy进行的数据处理。
  5. SciPy专门为科学和工程设计的,包括统计、优化、整合、线性代数、傅立叶变换、信号和图像处理、常微分方程求解器。
  6. Matplotlib可视化模块,API和Matlab相似,适合交互式地图绘制。
  7. NetworkX 社会网络分析及绘图
  8. Basemap 进行地图数据的可视化
  9. Scikit-Learn基于机器学习,分类、回归、聚类、数据降维、模型选择、数据预处理。用于自然语言处理的Nltk、网站数据抓取的Scrappy、网络挖掘的Pattern、深度学习的Theano。

7.开发工具

  • PyCharm适用于软件开发
  • Spyder适用于数据分析,多了一个变量窗口,包括变量名称、变量类型、变量长度、变量值,方便查看相关的变量信息,了解数据结构。且界面与Matlab、RStudio的界面比较相似

8.项目管理

  • 项目可以理解为一个文件夹,里面放着源代码、相关数据文件、文档
  • 使用项目进行代码管理,就像对代码加上备注一样,是一个良好的编程习惯,也是一种科学的代码管理方式,有利于日后编写代码能力的积累
  • Projects-->New Project-->选择路径-->输入代码-->保存文件
  • 以上的系列操作之后,就可以在项目管理窗口看到这个文件夹下的代码文件

9.代码提示

  • 输入"."或者是按下Tab键,就可以得到后续代码的备选提示

10.相关说明

  • 在程序关闭之前,保存在内存中的变量会一直存在,方便使用者对数据进行更加深入的分析
  • 查询帮助文档:View-->Panes-->Help
  • 如何提高帮助文档的查询效率:在Source的下拉菜单中选择Console选项,只搜索控制台导入的模块,同时在Object中输入要查找的对象名pandas.DataFrame
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值