身边有个有想法的朋友也是一件好事。朋友说:我只想要一个能够比较价格的小程序,要求很简单。于是我埋头专研,多方查找资料,于是我放弃了帮他实现这个看似简单的想法的小程序实现。
其实比价网的原理很简单,就是爬取网站商品资源。于是我实验的爬取目标是京东和淘宝。
经此我发现
1. 淘宝的反爬虫能力做的太好了。
使用淘宝搜索地址遇到需要登录问题,登录问题往常可用selenium(python的自动化测试工具)模拟登录,不过淘宝的登录机制越发完善,需要通过滑块验证来登录,自动化工具是无法做到的,所以爬不了,硬要突破的话,是犯法的,放弃吧。
2.京东返回的页面商品有限
使用京东的搜索地址获取到搜索页面的html,但是获取到的html并不包含所有商品信息,使用javascript触发加载的商品信息无法获取到,爬取信息返回也比较少,实际使用意义不大
因此我还发现关于爬虫有趣的东西,作为日后代码的参考,以下内容摘自于知乎。
法律条文规定
未经授权爬取用户手机通讯录超过 50 条记录;未经授权抓取用户淘宝交易记录超过 500 条;未经授权读取用户运营商网站通话记录超过 500 条;未经授权读取用户公积金社保记录的超过 50000 条的。以上这些情况可以入刑
做爬虫的建议
1、爬虫访问频次要控制,别把对方服务器搞崩溃了
2、涉及到个人隐私的信息不能爬(如电话号,身份证号,家庭住址,工作单位,行踪轨迹)
3、突破网站的反爬措施,后果很严重
正规的网站都会在根目录下放置 robots.txt,这里就规定了哪些能爬,哪些不能爬,谁可以爬,比如知乎的robots.txt,不过呢,知乎并没有做特别严厉的反爬措施,这就是说,如果你偷偷的爬一点东西,不影响它的正常服务,它也懒得找你麻烦,但对于那种反爬特别严重的,例如淘宝,你最好别去爬,如果你真的利用你的高智商突破了淘宝的反爬措施,那么就违法了
4、 不要用爬取的数据做不正当竞争
比如你把大众点评的评论数据都爬下来了,然后自己搞了一个xx点评,这肯定不行,人家辛辛苦苦的积累的数据,你轻轻松松的弄下来,直接拿来主义,跟人家竞争,就是违法
5、 付费内容,不要抓
既然是付费内容,说明这东西价值很高,付费才能看,你弄下来了,想私自传播,就对网站造成了潜在损失。
6、突破网站反爬措施的代码,最好不要上传到网上
你技术很牛,能突破网站的反爬措施,把这些代码发布到网上,比如github,自己没做啥坏事,可是想做坏事的人利用了你的代码,入侵了网站,那么,这种情况下,你也是有责任的
不论是否能够实现,以我目前的技术而言,我是实现不了了,如有大神也欢迎探讨。虽然是一个没有成功的案例,但是查询资料的过程也是自我成长的过程,这样方能不断的给予自己能量,在这条路上越走越远。


被折叠的 条评论
为什么被折叠?



