爬虫初体验

最新推荐文章于 2023-01-13 10:27:37 发布

原创最新推荐文章于 2023-01-13 10:27:37 发布 · 置顶 · 246 阅读

本内容遵循CC 4.0 BY-SA版权协议

作为一名马上毕业的大三狗，以前的两年似乎也没有学到什么。现在西安的菁英学习，这两天老师给我们讲了一些爬虫的东西，在学校的时候也听说过爬虫，那时候并不了解，也没有学习的兴趣。但是最近通过老师听老师的课，觉得真的很有意思。下面就讲讲这两天学习的感悟。
 网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。通俗一点说就是爬取某个网站上的你想要的某些数据，然后保存起来。
 爬虫主要使用的就是Java和python语言，python相对于Java来说有很多优点，利用python写爬虫程序比较简洁，高效。python含有第三方库，一个最基本的库就是写爬虫最好的工具。学习爬虫必须要对python基础语法有一定的了解，对学习爬虫有很大的帮助。
 在学习爬虫之前老师讲了一些必须知道的基础知识：
 	1、爬虫分类：
 	（1）通用网络爬虫         百度、门户网站
 	（2）聚焦网络爬虫
 	（3）增量式网络爬虫
 	（4）深层页面爬虫
 2、常见爬虫框架
 MyBatis 数据库框架
 Scrapy 最流行
 Pyspider 国人编写
 cola 分布式爬虫框架
 3、http协议：超文本传输协议
 4、https:http协议的加密版本
 5、URL详解：统一资源定位符
 6、’http常用请求方法：
	post:向服务器发送数据、上传数据，对服务器产生影响
	get:只能从服务器获取数据，不会对服务器产生影响
7、web服务流程
	发出请求，请求包含三部分
	请求头部
	请求正文
	实体内容
	接受响应
8、http协议常见响应状态
	301：永久重定向
	302：临时重定向
以上就是我最近几天学习的基础爬虫内容，虽然很简单，但是也能爬一些网站，也算学到了一点东西，就先简单介绍这么多。以后有时间再分享。