通过之前的推送,我们学习了Python语言环境的搭建以及一些基础语法。那我们在利用Python进行数据分析时,第一步是获取数据,这期小编将为大家介绍几种数据获取的手段以及数据学习网站,如果你也感兴趣的话,就跟着小编一起学习吧~
数据仓库
1.数据仓库的定义
数据仓库(Data Warehouse,DW),是为所有级别的决策制定过程、提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。
2.数据仓库的特点
(1)数据仓库记录了全部的事实,其记录是全面的、完备的、尽可能详细的。
(2)可以方便地以不同维度抽取和整理数据。
3.数据库与数据仓库的区别
(1)数据库面向业务存储,数据仓库面向主题存储(主题:较高层次上对分析对象数据的一个完整并且一致的描述)。
(2)数据库针对应用,数据仓库针对分析。
(3)数据库组织规范,而数据仓库可能存在冗余,相对变化大,数据量大。
监测与抓取
1.监测
监测是使用监测设备或算法直接获取数据。
2.抓取
抓取是用抓取工具直接获取网页内容进行解析与分析的过程。
3.抓取工具
(1)urllib:作为Python的标准库,基本上涵盖了基础的网络请求功能。
(2)urllib2:urllib2是urllib的增强。如果需要实现HTTP身份验证或cookie亦或编写扩展来处理自己的协议,urllib2可能是更好的选择。
(3)requests:requests有很大功能特性:支持HTTP连接保持和连接池;支持使用cookie保持会话;支持文件上传;支持自动确定响应内容的编码;支持国际化的URL和POST数据自动编码。
(4)scrapy:一套基于Twisted的异步处理框架,用户只需要定制开发几个模块就可以实现一个爬虫,用来抓取网页内容以及各种图片,非常方便。
(5)PhantomJS:是一个基于Webkit的“无界面”(headless)浏览器,它会把网站加载到内存并执行页面上的JavaScript,因为不会展示图形界面,所以运行起来比完整的浏览器要高效。
(6)Beautiful Soup:提供一些简单的、python式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据。
(7)XPath:XPath即XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。XPath 基于 XML 的树状结构,提供在数据结构树中找寻节点的能力。它一般和lxml库搭配使用。
其他获取手段
1.填写
填写就是需要用户填写的信息,最常见的就是用户在注册时需要填写的基本信息。
2.埋点
埋点是指在APP 或者网页应用中针对特定的流程收集一定的信息用来跟踪APP或网页服务被使用的情况。这样的信息收集大致分为两类:页面统计和统计操作行为。
3.日志
日志与数据仓库有共同的作用,日志的记录更加精简,一般以文件形式记录,为了分析一般会把日志汇总到数据仓库中进行统一分析。
4.计算
通过已有数据计算生成衍生数据。
数据学习网站
1.数据竞赛网站
(1)Kaggle 数据竞赛平台
Kaggle提出了一个平台,人们可以贡献数据集,其他社区成员可以投票并运行内核/脚本。平台总共有超过350个数据集,超过200个特征数据集。

(2)阿里天池
阿里巴巴旗下的大数据竞赛网站,提供了很多比赛数据集可以使用,对于国内用户比较友好。

2.数据集网站
(1)ImageNet
ImageNet是一个计算机视觉系统识别项目,是目前世界上图像识别最大的数据库,能够从图片中识别物体。

(2)Open Images
Open Images是Google Research在2016年推出的一个超大规模的目标检测数据集,到目前一共发布了6个版本(v1-v6)。
Open Images v6包含1,743,042(1.7M)张图片,验证集包含41,620(41K)张图片,测试集包含125,436(125K)张图片。


以上就是“Python数据分析 | 数据获取手段”的全部内容,希望对你有所帮助。
关于Python技术储备
学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
一、Python所有方向的学习路线
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、Python必备开发工具

三、Python视频合集
观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

四、实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

五、Python练习题
检查学习结果。

六、面试资料
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

最后祝大家天天进步!!
上面这份完整版的Python全套学习资料已经上传至CSDN官方,朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。

本文介绍了Python在数据分析中的数据获取手段,包括数据仓库的概念及其特点、数据库与数据仓库的区别,以及抓取数据的方法(如urllib、requests、scrapy、PhantomJS等)。同时推荐了数据竞赛网站如Kaggle和阿里天池,以及数据集网站如ImageNet和OpenImages,供学习者参考。

2498

被折叠的 条评论
为什么被折叠?



