
爬虫实战八、爬虫程序防封策略配置
通俗来说, robots.txt 是遵循 Robot协议 的一个文件,它保存在网站的服务器中,它的作用是,告诉搜索引擎爬虫,本网站哪些目录下的网页不希望你进行爬取收录。本人不保证内容的正确性。读者可将本文提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本人及相关权利人的合法权利。在前几天的爬虫实践中,由于防封措施做得不好,被豆 * 封了,必须登录才能打开豆 * 的网站,但是我又不想登录,所以今天做了一些防封的配置供大家参考。














