爬虫
张小虾
殷勤昨夜三更雨 又得浮生一日闲
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
网站反爬虫分析
网站反爬虫主要手段 限制单一ip的访问量 服务器端nginx统计ip的一段时间内的访问量(eg:一分钟),如果访问量大于阀值,该ip将被禁止访问服务。简单有效。可以通过代理ip解决该问题。 User-Agent限制 在使用httpclient等工具访问网站时,如果没有设置user-Agent值,httpclient将会使用默认的user-Agent值。没啥用。 限制账户的访问量 如果经常超过访原创 2017-09-15 14:52:00 · 1227 阅读 · 0 评论 -
反-反爬虫
说明 在实际项目中,能用httpclient处理的网页,我们都不会选择selenium或者类似的方案。由于反爬的技术升级,没有处理js能力的httpclient显得力不从心。在使用selenium的过程中,遇到很多问题: phantomjs不需要图形化,它很省资源,但开发调试难度相对较高,而且具有致命缺点(它的运行特征太多) firefox不够稳。爬虫本来意外就多,谁不想稳一点。原创 2017-09-18 00:03:51 · 1220 阅读 · 0 评论 -
用Java实现网易云音乐爬虫(非selenium)
代码地址:https://git.oschina.net/bobozhangyx/java-crawler/tree/master/music163主要内容: 使用httpclient(非模拟浏览器) 使用网易云音乐api 采集:评论和用户最近听歌的统计 思路: 用一首歌的id作为入口,得到下面的所有评论 –> 取出用户id 通过用户id取出该用户最近听的歌 –> 得到歌的id原创 2017-09-18 21:30:17 · 2796 阅读 · 0 评论
分享