爬虫初体验

作为一名马上毕业的大三狗,以前的两年似乎也没有学到什么。现在西安的菁英学习,这两天老师给我们讲了一些爬虫的东西,在学校的时候也听说过爬虫,那时候并不了解,也没有学习的兴趣。但是最近通过老师听老师的课,觉得真的很有意思。下面就讲讲这两天学习的感悟。
 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。通俗一点说就是爬取某个网站上的你想要的某些数据,然后保存起来。
 爬虫主要使用的就是Java和python语言,python相对于Java来说有很多优点,利用python写爬虫程序比较简洁,高效。python含有第三方库,一个最基本的库就是写爬虫最好的工具。学习爬虫必须要对python基础语法有一定的了解,对学习爬虫有很大的帮助。
 在学习爬虫之前老师讲了一些必须知道的基础知识:
 	1、爬虫分类:
 	(1)通用网络爬虫         百度、门户网站
 	(2)聚焦网络爬虫
 	(3)增量式网络爬虫
 	(4)深层页面爬虫
 2、常见爬虫框架
 MyBatis 数据库框架
 Scrapy 最流行
 Pyspider 国人编写
 cola 分布式爬虫框架
 3、http协议:超文本传输协议
 4、https:http协议的加密版本
 5、URL详解:统一资源定位符
 6、’http常用请求方法:
	post:向服务器发送数据、上传数据,对服务器产生影响
	get:只能从服务器获取数据,不会对服务器产生影响
7、web服务流程
	发出请求,请求包含三部分
	请求头部
	请求正文
	实体内容
	接受响应
8、http协议常见响应状态
	301:永久重定向
	302:临时重定向
以上就是我最近几天学习的基础爬虫内容,虽然很简单,但是也能爬一些网站,也算学到了一点东西,就先简单介绍这么多。以后有时间再分享。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值