作为一名马上毕业的大三狗,以前的两年似乎也没有学到什么。现在西安的菁英学习,这两天老师给我们讲了一些爬虫的东西,在学校的时候也听说过爬虫,那时候并不了解,也没有学习的兴趣。但是最近通过老师听老师的课,觉得真的很有意思。下面就讲讲这两天学习的感悟。
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。通俗一点说就是爬取某个网站上的你想要的某些数据,然后保存起来。
爬虫主要使用的就是Java和python语言,python相对于Java来说有很多优点,利用python写爬虫程序比较简洁,高效。python含有第三方库,一个最基本的库就是写爬虫最好的工具。学习爬虫必须要对python基础语法有一定的了解,对学习爬虫有很大的帮助。
在学习爬虫之前老师讲了一些必须知道的基础知识:
1、爬虫分类:
(1)通用网络爬虫 百度、门户网站
(2)聚焦网络爬虫
(3)增量式网络爬虫
(4)深层页面爬虫
2、常见爬虫框架
MyBatis 数据库框架
Scrapy 最流行
Pyspider 国人编写
cola 分布式爬虫框架
3、http协议:超文本传输协议
4、https:http协议的加密版本
5、URL详解:统一资源定位符
6、’http常用请求方法:
post:向服务器发送数据、上传数据,对服务器产生影响
get:只能从服务器获取数据,不会对服务器产生影响
7、web服务流程
发出请求,请求包含三部分
请求头部
请求正文
实体内容
接受响应
8、http协议常见响应状态
301:永久重定向
302:临时重定向
以上就是我最近几天学习的基础爬虫内容,虽然很简单,但是也能爬一些网站,也算学到了一点东西,就先简单介绍这么多。以后有时间再分享。
爬虫初体验
最新推荐文章于 2023-01-13 10:27:37 发布

840

被折叠的 条评论
为什么被折叠?



