【python】爬虫

原创

已于 2025-02-23 00:44:53 修改 · 1k 阅读

标签

#python #爬虫 #开发语言

于 2024-10-29 22:39:24 首次发布

爬虫合法性
避免干扰到访问网站的正常运行
传播审查数据内容，如果涉及用户隐私、商业机密等要及时停止爬取和传播
使用场景分类

通用爬虫：抓去主要成分、一整张页面数据
聚焦爬虫：建立在通用爬虫基础上，抓取页面中特定的局部内容
增量式爬虫：检测网站数据更新，只抓取更新的数据

反爬机制
防止同行竞品爬取自家数据。
反反爬机制
尽可能爬到有用信息。
robots.txt协议
君子协议，规定哪些可以被爬，哪些不可以被爬。
url:xx.com/robots.txt

allow or disallow
碎碎念
Chrome-chrono插件 copy redirection的path
下载到服务器上Wget -c path
UA检测：HTTP请求协议中请求头有个UA（User-Agent），门户网站的服务器会检测这个身份标识是否是正常的浏览器访问还是爬虫，爬虫大概率会拒绝，所以要做UA伪装
代码转换网站转换成爬虫代码
AJAX能够实现页面的局部请求和刷新

XHR中的都是AJAX的数据包
当抓链接中的数据未得到想要的数据时，很可能是因为这部分数据是AJAX拿过来的

import requests
import json
if __name__='__main__':
	word=input()
	post_url='url'
	data={
   
   
		'kw':word
	}
	headers={
   
   
		'User-Agent':'Mozilla/5.0 (Macintsh; Inte Mac OS X 1_15_7)'
	}
	res=requests.post(url=post_url,data=data,headers=headers)
	dic_obj=res.json() #拿到json类型数据
	fp=open(f'./{
     
     word}.json','w',encoding='utf-8')
	json.dump(dic_obj,fp=fp,ensure_ascii=False)

下载与批量下载

掌握request =掌握爬虫50%

import requests
#第三方库，没有下载的下载一下 pip install requests

#爬虫下载图片
res=requests.get("url")
print(res.content)#二进制字节流

#content-type为text/plain的也是用res.text获取
print(res.text)#获取网页 字符串类型数据及html源码

#写文件
with open("beauty.jpg","wb")as f:
	f.write(res.content)

#批量下载短视频
headers={
   
   
	'User-Agent':'Mozilla/5.0 (Macintsh; Inte Mac OS X 1_15_7)'
}#UA伪装
#get->params
#post->data
params={
   
   
	'k':'v'
}
res=requests.get("url/post/",params=params,headers=headers)
print(res.json