爬虫实战八、爬虫程序防封策略配置

最新推荐文章于 2025-03-12 13:25:05 发布

原创

最新推荐文章于 2025-03-12 13:25:05 发布 · 2.3k 阅读

标签

#爬虫 #scrapy #pycharm

收录于

免责声明

本文所有内容，包括文字、图片、音频、视频、软件以及程序等，仅用于个人学习、研究或欣赏。本人不保证内容的正确性。通过参考本文内容随之而来的风险与本人无关。读者可将本文提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本人及相关权利人的合法权利。

本文撰写目的是个人学习、研究或欣赏，部分内容来源于互联网，如无意侵犯他人或网站合法权利，请联系本人，予以删除。

#前言

在前几天的爬虫实践中，由于防封措施做得不好，被豆 * 封了，必须登录才能打开豆 * 的网站，但是我又不想登录，所以今天做了一些防封的配置供大家参考。

搜狗截图20190226174918.png

#一、防封策略

根据scrapy官方文档里面的描述，要防止scrapy被ban，主要有以下几个策略。

设置延迟下载
禁用cookies
动态设置user agent
使用Google cache
使用IP地址池（Tor project、VPN和代理IP）
使用Crawlera

由于Google cache受国内网络的影响，使用不便，而Crawlera我会专门放到下一篇专题去讲，所以在本文暂时主要从设置延迟下载、禁用cookies、动态随机设置user agent和使用代理IP这几种策略出发，防止爬虫程序被封禁。

#二、防封配置
###2-1、设置延迟下载
在项目的settings.py文件中添加如下配置：

# 设置并发数量
CONCURRENT_REQUESTS = 1

# 设置延迟下载间隔，单位：秒
DOWNLOAD_DELAY = 5

两个属性的含义：

CONCURRENT_REQUESTS
默认： 16
Scrapy下载程序执行的并发（即同时）请求的

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Cehae

关注关注

33
点赞
踩
32

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

获取同程（艺龙）酒店数据

qq_44902227的博客

07-24

1327

到这里很多人看了以后，这不就是有手就行么，然后把请求头和对应的参数拿来，就发起请求，发现数据是重复的，那怎么办呢？我们再点击下一页看看，发现出来一个新的请求，然后对比了两个请求头，发现有一个参数值是动态变化的，没错，就是traceid，每一次都会变化，那怎么办呢？我们点击检索，然后按F12，点击下一页，通过抓包，我们发现是通过JSON格式数据返回的，并且一一对应。打上短点，点击下一页，然后下一步，在控制台输出一下，这不就是我们想要的的么。这里选择①，②，③三个设置，你们如果有其他需求可以相应的勾选。...

参与评论您还未登录，请先登录后发表或查看评论

Python 网络爬虫进阶教学全指南

安年的小小博客有大大的梦想

12-05

3901

本次博客将深入探究 Python 网络爬虫的核心知识与实用技巧，引领大家从入门迈向精通

如何防止爬虫被网站封禁？

2401_87849163的博客

02-10

1614

使用不同的User-Agent模拟不同的浏览器访问，避免被识别为爬虫。：保持会话状态，通过支持Cookies来模拟用户登录状态。：使用工具如Selenium模拟用户的鼠标移动、点击、滚动等操作。

记___美团爬虫

weiyan__的博客

08-02

1万+

上一次的淘宝，写到一半被叫去做美团。。。。。。。呵呵了我就直接，把我记录在wps文档的，记录分享出来了。莫怪文本最后是 githup 的代码地址美团美食抓取； 1:Mysql 遇到的一个问题就是 “self.encoding = charset_by_name(self.charset).encoding” 原因在于我把 python建立的mysql语句...

美团爬虫总结

憨豆婆的博客

03-29

5853

反扒：uuid token变动 ---请求头参数的封装动态网站 json模拟登录：cookies。

Python爬虫抓取数据时怎么防止ip被封

weixin_44617651的博客

10-10

3170

大数据公司在做数据分析的时候，对目标网站频繁访问很容易触发网站的反爬机制，因此如果想要突破限制只能使用动态ip频繁切换地址模拟真实客户访问网站才能起到防封效果。图1为使用动态ip的情况，图2是建ip池的代码，有没有必要需要ip池的，主要看自己项目需求，需求量大，是必须要使用大量ip的。我们常用有两种方法设置等待时间，一种是显性等待时间(强制停几秒)也就是所谓的等待间隔，一种是隐性等待时间(看具体情况，比如根据目标网站加载完成需要时间而等待)图1是显性等待时间设置，图2是隐性。

网络爬虫项目实战设计

热门推荐

编程知识分享

05-19

1万+

文章大纲一、网络爬虫基本介绍二、java常见爬虫框架介绍三、WebCollector实战四、项目源码下载五、参考文章一、网络爬虫基本介绍 1. 什么是网络爬虫网络爬虫（又被称为网页蜘蛛，网络机器人，在社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 2. ...

网络爬虫爬取时，被封的原因以及防止被封IP策略

ndyysheep的博客

08-29

5292

网络爬虫爬取时，被封的原因以及防止被封IP策略：策略一：建立IP池。策略二：使用延时爬取

Python爬虫实战爬取同城艺龙酒店信息

qq_45821420的博客

02-11

5643

二维无

Python爬虫防封杀方法集合

qiangw09的博客

10-08

2115

在爬取的过程中难免发生ip被封和403错误等等，这都是网站检测出你是爬虫而进行反爬措施，这里自己总结下如何避免。方法1：设置等待时间有一些网站的防范措施可能会因为你快速提交表单而把你当做机器人爬虫，比如说以非常人的速度下载图片，登录网站，爬取信息。常见的设置等待时间有两种，一种是显性等待时间(强制停几秒)，一种是隐性等待时间(看具体情况，比如根据元素加载完成需要时间而等待) 1.显性...

干货|爬虫被封的几个常见原因

li_zhi521的博客

11-09

4857

爬虫采集成为很多公司企业个人的需求，但正因为如此，反爬虫的技术也层出不穷，像时间限制、IP限制、验证码限制等等，都可能会导致爬虫无法进行，所以也出现了很多像代理IP、时间限制调整这样的方法去接触反爬虫限制，当然具体的操作方法需要你针对性的去研究。爬虫采集数据过程中经常会出现受限问题，那么具体哪些原因会导致爬虫被禁封呢？ 1、检查JavaScript 如果你从网络服务器收到的页面是空白的，缺少信息...

爬虫使用代理防封IP

weixin_43292981的博客

04-17

806

在我们使用爬虫进行数据爬取的时候，爬着爬着就经常会遇到这种情况出现“HTTP Error 403: Forbidden ”的提示，这是啥意思呢？其实他是一种http状态码，表示你在请求一个资源文件但是nginx不允许你查看。它不属于技术上的错误，但是需要技术解决问题。需要返回403状态码的是哪些场景？第一个场景特定的用户访问被禁止访问网站所有的内容，例如，某用户频繁的访问A网站，被A网站屏...

爬虫如何防网站封IP？防封有效措施

weixin_33774883的博客

02-28

593

在数据采集方面来说，爬虫想要采集数据，首先要能突破网站的反爬虫机制，然后还能预防网站封IP，这样才能高效的完成工作。那么爬虫如何防网站封IP？1.多线程采集采集数据，都想尽可能快的采集更多的数据，否则大量的工作还一条一条采集，太耗时间了。比如说，几秒采集一次，这样一分钟可以采集10次左右，一天能采集一万多的页面。如果是小型网站还好，但大型网站上千万的网页怎么办，按照这个速度采...

Python爬虫突破封禁的6种常见方法

u011250186的博客

12-18

6297

在互联网上进行自动数据采集（抓取）这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”，有时会把网络数据采集程序称为网络机器人（bots）。最常用的方法是写一个自动化程序向网络服务器请求数据（通常是用 HTML 表单或其他网页文件），然后对数据进行解析，提取需要的信息。本文假定读者已经了解如何用代码来抓取一个远程的 URL，并具备表单如何提交及 JavaScript 在浏览器如何运行的机制。想更多了解网络数据采集基础知识，可以参考文后的资料。在采集网站的时会遇..

python爬虫防止IP被封的一些措施

夏微凉秋微暖的博客

04-14

541

在编写爬虫爬取数据的时候，尤其是爬取大量数据的时候，因为很多网站都有反爬虫措施，所以很容易被封IP，就不能继续爬了。本文就如何解决这个问题总结出一些应对措施，这些措施可以单独使用，也可以同时使用，效果更好。伪造User-Agent在请求头中把User-Agent设置成浏览器中的User-Agent，来伪造浏览器访问。比如：headers = {'User-Agent':'Mozilla/5.0 (...

python爬虫（二）——反爬虫机制

一名数据分析师

02-09

3491

掌握爬虫遇到的五大类情况，精准对比遇到的反爬机制。