Python爬虫入门之get网页信息并作为文本输出

最新推荐文章于 2024-12-05 18:05:25 发布

原创最新推荐文章于 2024-12-05 18:05:25 发布 · 2.7k 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

收录于

Python菜鸟起飞之路专栏收录该内容

11 篇文章

订阅专栏

本文介绍了一种利用Python中的requests库抓取指定URL网页内容的方法。通过设置HTTP头部信息来模拟浏览器行为，并实现了异常处理确保程序稳定性。该文适用于初学者了解基本的网络爬虫实现方式。

import requests
import os

kv = {
		"User-agent":"Mozilla/5.0"#模拟浏览器
	}
		

def getHtmlText(url):
	try:
		r = requests.get(url,timeout = 30,headers = kv)
		r.raise_for_status()
		r.encoding = r.apparent_encoding
		return r.text
	except:
		return "ERROR"
		

url = input("Please input the URL!\n")
print(getHtmlText(url))
os.system("pause")