论比价网小程序的可实施性(2020-9-11)

原创于 2020-09-11 10:09:23 发布 · 1k 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#小程序 #javascript #安全 #python

小程序专栏收录该内容

2 篇文章

订阅专栏

Python3.8

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

身边有个有想法的朋友也是一件好事。朋友说：我只想要一个能够比较价格的小程序，要求很简单。于是我埋头专研，多方查找资料，于是我放弃了帮他实现这个看似简单的想法的小程序实现。

其实比价网的原理很简单，就是爬取网站商品资源。于是我实验的爬取目标是京东和淘宝。

经此我发现

1. 淘宝的反爬虫能力做的太好了。

使用淘宝搜索地址遇到需要登录问题，登录问题往常可用selenium（python的自动化测试工具）模拟登录，不过淘宝的登录机制越发完善，需要通过滑块验证来登录，自动化工具是无法做到的，所以爬不了，硬要突破的话，是犯法的，放弃吧。

2.京东返回的页面商品有限

使用京东的搜索地址获取到搜索页面的html，但是获取到的html并不包含所有商品信息，使用javascript触发加载的商品信息无法获取到，爬取信息返回也比较少，实际使用意义不大

因此我还发现关于爬虫有趣的东西，作为日后代码的参考，以下内容摘自于知乎。

法律条文规定

未经授权爬取用户手机通讯录超过 50 条记录；未经授权抓取用户淘宝交易记录超过 500 条；未经授权读取用户运营商网站通话记录超过 500 条；未经授权读取用户公积金社保记录的超过 50000 条的。以上这些情况可以入刑

做爬虫的建议

1、爬虫访问频次要控制，别把对方服务器搞崩溃了

2、涉及到个人隐私的信息不能爬（如电话号，身份证号，家庭住址，工作单位，行踪轨迹）

3、突破网站的反爬措施，后果很严重

正规的网站都会在根目录下放置 robots.txt，这里就规定了哪些能爬，哪些不能爬，谁可以爬，比如知乎的robots.txt，不过呢，知乎并没有做特别严厉的反爬措施，这就是说，如果你偷偷的爬一点东西，不影响它的正常服务，它也懒得找你麻烦，但对于那种反爬特别严重的，例如淘宝，你最好别去爬，如果你真的利用你的高智商突破了淘宝的反爬措施，那么就违法了

4、不要用爬取的数据做不正当竞争

比如你把大众点评的评论数据都爬下来了，然后自己搞了一个xx点评，这肯定不行，人家辛辛苦苦的积累的数据，你轻轻松松的弄下来，直接拿来主义，跟人家竞争，就是违法

5、付费内容，不要抓

既然是付费内容，说明这东西价值很高，付费才能看，你弄下来了，想私自传播，就对网站造成了潜在损失。

6、突破网站反爬措施的代码，最好不要上传到网上

你技术很牛，能突破网站的反爬措施，把这些代码发布到网上，比如github，自己没做啥坏事，可是想做坏事的人利用了你的代码，入侵了网站，那么，这种情况下，你也是有责任的

不论是否能够实现，以我目前的技术而言，我是实现不了了，如有大神也欢迎探讨。虽然是一个没有成功的案例，但是查询资料的过程也是自我成长的过程，这样方能不断的给予自己能量，在这条路上越走越远。

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。