爬取步骤:
- 1.确定需求:
爬取的内容及内容来源- 2.发送请求:
请求url地址–>文章列表url
请求方式–get
请求参数字段添加“User-Agent”- 3.获取数据:
获取数据–响应体文本数据(网页源代码)- 4.解析数据
解析方法:re正则表达式/css选择器/xpath
解析提取内容:提取文章url- 5.发送请求
请求url地址–>文章url
请求方式–>get
请求参数字段添加“User-Agent”- 6.获取数据:
获取数据–>响应体文本数据(网页源代码)- 7.解析数据:
解析方法:re正则表达式/css选择器/xpath
解析提取内容:提取文章内容/文章标题- 8.保存数据:
需要先把获取的内容保存为html文件,然后将html转成PDF
需要用到htmltopdf(下载:https://www.xitongzhijia.net/soft/219178.html)
"""
爬取步骤:
1.确定需求:
爬取的内容及内容来源
2.发送请求:
请求url地址--文章列表url
请求方式--get
请求参数字段添加--User-Agent
3.获取数据:
获取数据--响应体文本数据(网页源代码)
4.解析数据
解析方法:re正则表达式/css选择器/xpath
解析提取内容--文章url
5.发送请求
请求url地址--文章url
请求方式--get
请求参数字段添加--User-Agent
6.获取数据:
获取数据--响应体文本数据(网页源代码)
7.解析数据:
解析方法:re正则表达式/css选择器/xpath
解析提取内容--提取文章内容/文章标题
8.保存数据:
需要先把获取的内容保存为html文件,然后使用htmltopdf将html转成PDF
re正则可以直接提取字符串数据--response.text就是html字符串数据
parsel 需要先把html字符串转成可解析的对象
"""
import time
import requests # 数据请求模块
import re # 正则表达式模块
import parsel # 数据解析模块
import os # 文件操作模块
import pdfkit # 转成pdf
html_str = """
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Document</title>
</head>
<body>
{article}
</body>
</html>
"""
html_filename = 'html\\' # 定义文件夹名称
# 判断该文件夹是否存在,不存在则创建
if not os


1144

被折叠的 条评论
为什么被折叠?



