Python网络爬虫（Get、Post抓取方式）

最新推荐文章于 2026-05-01 09:19:26 发布

转载最新推荐文章于 2026-05-01 09:19:26 发布 · 1.7w 阅读

标签

#网络爬虫 #python

收录于

Python 专栏收录该内容

13 篇文章

订阅专栏

本文介绍了使用Python的urllib库进行网页数据抓取的基本方法，包括GET和POST请求方式，以及如何保存抓取的数据为本地文件。同时，文章还讨论了中文字符的处理和服务器端重定向的识别。

简单的抓取网页

import urllib.request   
url="http://google.cn/"  
response=urllib.request.urlopen(url)    #返回文件对象
page=response.read()

直接将URL保存为本地文件

import urllib.request  
url="http://www.xxxx.com/1.jpg"
urllib.request.urlretrieve(url,r"d:\temp\1.jpg")

POST方式

import urllib.parse  
import urllib.request  

url="http://liuxin-blog.appspot.com/messageboard/add" 

values={"content":"命令行发出网页请求测试"}  
data=urllib.parse.urlencode(values) 

#创建请求对象  
req=urllib.request.Request(url,data) 
#获得服务器返回的数据  
response=urllib.request.urlopen(req) 
#处理数据  
page=response.read()

GET方式

import urllib.parse  
import urllib.request  

url="http://www.google.cn/webhp" 

values={"rls":"ig"}  
data=urllib.parse.urlencode(values)  

theurl=url+"?"+data 
#创建请求对象  
req=urllib.request.Request(theurl) 
#获得服务器返回的数据  
response=urllib.request.urlopen(req) 
#处理数据  
page=response.read()

有2个常用的方法,geturl(),info()

geturl()的设置是为了辨别是否有服务器端的网址重定向,而info()则包含了一系列的信息。

中文问题的处理，会用到 encode()编码 dencode()解码

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

逆風的薔薇

关注关注

3
点赞
踩
16

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

使用Python进行HTTP请求：GET和POST方法的详细解释

ByteHackerX的博客

10-02

307

模块来进行HTTP请求，包括GET和POST方法。在本文中，我们将详细解释如何使用这些模块进行HTTP请求，并提供相应的源代码示例。在上面的代码中，我们首先指定了要请求的URL（同样以’http://example.com/api/data’为例）。在上面的代码中，我们首先指定了要请求的URL（这里以’http://example.com/api/data’为例）。无论是GET还是POST方法，这些模块提供了一种简单而强大的方式来与Web服务器进行通信。通过使用上述代码示例，我们可以轻松地使用。

1 条评论您还未登录，请先登录后发表或查看评论

Python爬虫 —— urllib库的使用（get/post请求+模拟超时/浏览器）

weixin_55154866的博客

09-09

3561

网络爬虫就是按照一定规则，自动抓取互联网信息的程序或脚本，由于互联网数据的多样性和资源的有限性，根据用户需求定向抓取相关网页并分析就是爬虫要做的工作为什么我们把它称为爬虫（Spider）嘞？互联网就像是一张大网，而每一个网页就是这张大网上的每一个结点，这些结点间的通信和跳转通过链接来实现，而这个链接就是互联网这张大网上结点之间的连线，爬虫到达一个结点就意味着可以爬取这个页面的信息，当爬虫顺着这些连线（链接）爬向不同的结点（网页）时，就可以爬取到整个网站的信息。

python中的post和get请求_Get请求和Post请求

weixin_32806343的博客

02-03

2370

使用 GET 方式抓取数据请求对象是www.cntour.cn，请求方式是GET(所有在源码中的数据请求方式都是GET)确定好请求对象和方式后，在 PyCharm 中输入以下代码：importrequests#导入requests包url='http://www.cntour.cn/'strhtml=requests.get(url)#Get方式获取网页数...

LLMFarm：本地大语言模型部署与应用开发框架解析

最新发布

weixin_30632883的博客

05-01

246

大语言模型（LLM）作为人工智能领域的前沿技术，其核心原理是基于Transformer架构的海量参数模型，通过自注意力机制处理序列数据。在工程实践中，LLM的价值在于能够理解和生成人类语言，实现智能对话、内容创作等任务。然而，模型部署常面临显存优化和推理速度的挑战，尤其是在资源受限的环境下。应用场景涵盖智能客服、文档分析、创意助手等多个领域。本文聚焦于LLMFarm这一轻量级框架，它通过模块化设计简化了开源大模型的本地部署流程，支持量化策略和vLLM后端集成，有效解决了显存不足与推理效率问题，帮助开发者快速

python爬取网页详细教程

xiangxueerfei的博客

09-29

8936

可以使用Python中的Pandas库，将数据存储到Excel或CSV文件中，或者使用Python自带的sqlite3库，将数据存储到SQLite数据库中。随着互联网的高速发展，网页上的信息也越来越丰富，而Python作为一门高效的编程语言，可以帮助我们快速地获取所需的信息。requests库是Python中最常用的HTTP库，可以帮助我们向目标网站发送GET或POST请求，并获取网页上的数据。BeautifulSoup库是Python中最常用的HTML解析库，可以帮助我们快速地获取网页中的各种信息。

Python爬虫中如何通过post发请求，浏览器控制台抓包教程，有道翻译爬虫程序，通过python伪装翻译（post案例）

ck784101777的博客

02-17

9385

目录一、浏览器控制台抓包 1.打开方式以及常用选项 2.控制台NetWrok 二、Python爬虫中如何通过post发请求 1.Post请求 2.Python中使用post请求三、有道翻译爬虫程序，通过python伪装翻译（post案例） 1.需求分析 2.post请求分析 3.js方法转python方法 4.程序设计一、浏览器控制台抓包在很多的工作中都是需要...

Python爬虫教程，从入门到成神

CSDN_224022的博客

11-14

1807

网络爬虫定义，又称Web Spider，网页蜘蛛，按照一定的规则，自动抓取网站信息的程序或者脚本。蜘蛛通过网页的链接地址来寻找网页，从网站某一个页面开始，读取网页的内容，找到网页中的其他链接地址，然后通过这些链接地址寻找下一个网页，直到把这个额昂展所有的网页都抓取完为止。

python-爬虫

dengjiyu8406的博客

11-29

109

概述 1.什么是爬虫爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由你来控制它咯。比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张网上来获取数据。这样，整个连在一起的大网对这之蜘蛛来说触手可及，分分钟爬下来不是事儿...

4.网络爬虫—Post请求(实战演示)

weixin_50804299的博客

03-19

3万+

POST请求和GET请求的区别（1）post请求更安全不会作为url的一部分，不会被缓存、保存在服务器日志、以及浏览器浏览记录中，get请求的是静态资源，则会缓存，如果是数据，则不会缓存（2）post请求发送的数据更大 get请求有url长度限制，http协议本身不限制，请求长度限制是由浏览器和web服务器决定和设置（3）post请求能发送更多的数据类型 get请求只能发送ASCII字符（4）传参方式不同 get请求参数通过url传递，post请求放在request body中传递

python爬虫入门篇：使用requests发送POST请求提交表单

热门推荐

code_space

02-10

4万+

post()方法将携带某些数据的POST请求发送到指定的URL

python request库的get方法详解

weixin_43085185的博客

08-14

2万+

request.get()@TOC request.get()方法详解声明：此贴为本人学习心得，中间很多内容来自其他老师的帖子，能力有限，代码等实例也是复制的，已尽量表明出处，方便理解学习，并非恶意盗取，特此声明。毕业十年，最近突然对爬虫感兴趣，略微有些乱七八糟的基础便想强行啃代码，结果啃一鼻子灰，这都是些什么鬼。今天啃到request.get（）方法时彻底蒙圈了，request库的get方法...

爬虫中的post请求

jerry的博客

01-28

7460

post请求和get请求都是客户端对浏览器发送的请求，但是post请求的特殊之处在于，它不会把参数直接放在url中，它的参数是隐藏起来的以百度翻译为例，首先找到执行翻译的post请求的url地址：此时在页面输入spider进行查询，下面的network会刷新很多信息，我们对其进行一一检查，首先过滤掉后缀为jpg和png的文件，它们是图片，肯定不能进行翻译。那么找到几个差不多的，点开看一下：在preview中可以看到查询结果是：蜘蛛那么headers中的url地址就是我们需要的url：可

post 爬虫request_爬虫初识和request使用

weixin_33622153的博客

01-28

3156

一.什么是爬虫爬虫的概念:通过编写程序,模拟浏览器上网,让其去互联网上爬取数据的过程.爬虫的工作流程:模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中爬虫的分类:通用爬虫:爬取全部的页面数据.聚焦爬虫: 抓取页面中局部的页面数据增量式爬虫:爬取网站中更新出的数据反爬机制门户网站会通过制定相关的技术手段阻止爬虫程序进行数据的爬取反反爬策略:robots...

python爬虫教程：基于Python的Post请求数据爬取的方法详解

python爬虫开发教程

03-19

8070

这篇文章主要介绍了基于Python的Post请求数据爬取的方法,需要的朋友可以参考下为什么做这个和同学聊天，他想爬取一个网站的post请求观察该网站的post请求参数有两种类型：（1）参数体放在了query中，即url拼接参数（2）body中要加入一个空的json对象，关于为什么要加入空的json对象，猜测原因为反爬虫。既有query参数又有空对象体的body参数是一件脑洞很大的事情。一...

python request.get

gtestcandle的博客

06-24

1万+

https://docs.python-requests.org/en/master/user/quickstart/ Requests库的七个主要方法方法说明 requests.request() 构造一个请求，支撑以下各方法的基础方法 requests.get() 获取HTML网页的主要方法，对应于HTTP的GET requests.head() 获取HTML网页的头信息的方法，对应于HTTP的HEAD requests.post() 向HTML网.

爬虫----POST 请求

weixin_45228198的博客

04-26

4550

POST请求场景案例分析三级目录场景需要使用Form表单提交数据的请求。 import requests headers = {"UserAgent":"xxx"} data = {"user":"lauf","pw":"123"} res = requests.post(url,headers=headers,data=data) 案例分析 https://fanyi.youdao.com/ 输入要翻译的中文，会返回英文 F12 开发者模式/右键-检查三级目录 ...

爬虫post请求

m0_55297736的博客

10-10

2747

爬虫的post请求基础

Python Request库的get()方法

qhdzj87的专栏

01-18

4543

Request库的get()方法：最通常的方法是通过r=request.get(url)构造一个向服务器请求资源的url对象。这个对象是Request库内部生成的。这时候的r返回的是一个包含服务器资源的Response对象。包含从服务器返回的所有的相关资源。 url是什么？ url是通过http协议存取资源的一个路径，它就像我们电脑里面的一个文件的路径一样。这个函数完整的使用方法有三个参数：其实也可以看它的源代码就可以发现其实它是通过调用request方法来实现的。也就是...