工作中遇到大量ip需要查归属地和查看网页内容,选择写一个爬虫脚本来进行相关工作
技术很菜,忘记多线程,就写了一个单线程进行跑。
希望各位大佬指出缺点。
import random
import requests
import xlwt
import xlrd
import time
from lxml import etree
def response_url(url):
# 做一个url地址的访问
try:
# 拼接一个完整的url,这里选择站长之家的api(准确信高一点),百度的api好像有有反扒
urls = f'https://ip.tool.chinaz.com/{url}'
# 随机选择user-agent,预防系统有反扒
user_agent_list = [
{
'user-agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1'
}, {
'user-agent': 'Mozilla/5.0 (Linux; Android 8.0.0; SM-G955U Build/R16NW) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Mobile Safari/537.36'
}, {
'user-agent': 'Mozilla/5.0 (Linux; Android 10; SM-G981B) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Mobile Safari/537.36'

本文讲述了作者在工作中使用Python编写单线程爬虫抓取IP地址归属地和网页内容的过程,强调了多线程的重要性,并展示了如何通过使用不同用户代理和解析网页来获取信息。文章最后介绍了检查网页详情的功能。

1121

被折叠的 条评论
为什么被折叠?



