Python数据分析 | 数据获取手段

本文介绍了Python在数据分析中的数据获取手段,包括数据仓库的概念及其特点、数据库与数据仓库的区别,以及抓取数据的方法(如urllib、requests、scrapy、PhantomJS等)。同时推荐了数据竞赛网站如Kaggle和阿里天池,以及数据集网站如ImageNet和OpenImages,供学习者参考。
Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

通过之前的推送,我们学习了Python语言环境的搭建以及一些基础语法。那我们在利用Python进行数据分析时,第一步是获取数据,这期小编将为大家介绍几种数据获取的手段以及数据学习网站,如果你也感兴趣的话,就跟着小编一起学习吧~

数据仓库

1.数据仓库的定义

数据仓库(Data Warehouse,DW),是为所有级别的决策制定过程、提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。

2.数据仓库的特点

(1)数据仓库记录了全部的事实,其记录是全面的、完备的、尽可能详细的。

(2)可以方便地以不同维度抽取和整理数据。

3.数据库与数据仓库的区别

(1)数据库面向业务存储,数据仓库面向主题存储(主题:较高层次上对分析对象数据的一个完整并且一致的描述)。

(2)数据库针对应用,数据仓库针对分析。

(3)数据库组织规范,而数据仓库可能存在冗余,相对变化大,数据量大。

监测与抓取

1.监测

监测是使用监测设备或算法直接获取数据。

2.抓取

抓取是用抓取工具直接获取网页内容进行解析与分析的过程。

3.抓取工具

(1)urllib:作为Python的标准库,基本上涵盖了基础的网络请求功能。

(2)urllib2:urllib2是urllib的增强。如果需要实现HTTP身份验证或cookie亦或编写扩展来处理自己的协议,urllib2可能是更好的选择。

(3)requests:requests有很大功能特性:支持HTTP连接保持和连接池;支持使用cookie保持会话;支持文件上传;支持自动确定响应内容的编码;支持国际化的URL和POST数据自动编码。

(4)scrapy:一套基于Twisted的异步处理框架,用户只需要定制开发几个模块就可以实现一个爬虫,用来抓取网页内容以及各种图片,非常方便。

(5)PhantomJS:是一个基于Webkit的“无界面”(headless)浏览器,它会把网站加载到内存并执行页面上的JavaScript,因为不会展示图形界面,所以运行起来比完整的浏览器要高效。

(6)Beautiful Soup:提供一些简单的、python式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据。

(7)XPath:XPath即XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。XPath 基于 XML 的树状结构,提供在数据结构树中找寻节点的能力。它一般和lxml库搭配使用。

其他获取手段

1.填写

填写就是需要用户填写的信息,最常见的就是用户在注册时需要填写的基本信息。

2.埋点

埋点是指在APP 或者网页应用中针对特定的流程收集一定的信息用来跟踪APP或网页服务被使用的情况。这样的信息收集大致分为两类:页面统计和统计操作行为。

3.日志

日志与数据仓库有共同的作用,日志的记录更加精简,一般以文件形式记录,为了分析一般会把日志汇总到数据仓库中进行统一分析。

4.计算

通过已有数据计算生成衍生数据。

数据学习网站

1.数据竞赛网站

(1)Kaggle 数据竞赛平台

Kaggle提出了一个平台,人们可以贡献数据集,其他社区成员可以投票并运行内核/脚本。平台总共有超过350个数据集,超过200个特征数据集。

(2)阿里天池

阿里巴巴旗下的大数据竞赛网站,提供了很多比赛数据集可以使用,对于国内用户比较友好。

2.数据集网站

(1)ImageNet

ImageNet是一个计算机视觉系统识别项目,是目前世界上图像识别最大的数据库,能够从图片中识别物体。

(2)Open Images

Open Images是Google Research在2016年推出的一个超大规模的目标检测数据集,到目前一共发布了6个版本(v1-v6)。

Open Images v6包含1,743,042(1.7M)张图片,验证集包含41,620(41K)张图片,测试集包含125,436(125K)张图片。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传


以上就是“Python数据分析 | 数据获取手段”的全部内容,希望对你有所帮助。

关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

二、Python必备开发工具

img

三、Python视频合集

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

img

四、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

img

五、Python练习题

检查学习结果。

img

六、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

img

最后祝大家天天进步!!

上面这份完整版的Python全套学习资料已经上传至CSDN官方,朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值