python 爬取文章并保存为pdf

最新推荐文章于 2024-10-22 14:04:40 发布

原创

最新推荐文章于 2024-10-22 14:04:40 发布 · 3.1k 阅读

标签

#python #爬虫 #开发语言

爬取步骤：

1.确定需求：
爬取的内容及内容来源

2.发送请求：
请求url地址–>文章列表url
请求方式–get
请求参数字段添加“User-Agent”

3.获取数据：
获取数据–响应体文本数据（网页源代码）

4.解析数据
解析方法：re正则表达式/css选择器/xpath
解析提取内容：提取文章url

5.发送请求
请求url地址–>文章url
请求方式–>get
请求参数字段添加“User-Agent”

6.获取数据：
获取数据–>响应体文本数据（网页源代码）

7.解析数据：
解析方法：re正则表达式/css选择器/xpath
解析提取内容：提取文章内容/文章标题

8.保存数据：
需要先把获取的内容保存为html文件，然后将html转成PDF
需要用到htmltopdf（下载：https://www.xitongzhijia.net/soft/219178.html）

"""
爬取步骤：
1.确定需求：
    爬取的内容及内容来源
2.发送请求：
    请求url地址--文章列表url
    请求方式--get
    请求参数字段添加--User-Agent
3.获取数据：
    获取数据--响应体文本数据（网页源代码）
4.解析数据
    解析方法：re正则表达式/css选择器/xpath
    解析提取内容--文章url
5.发送请求
    请求url地址--文章url
    请求方式--get
    请求参数字段添加--User-Agent
6.获取数据：
    获取数据--响应体文本数据（网页源代码）
7.解析数据：
    解析方法：re正则表达式/css选择器/xpath
    解析提取内容--提取文章内容/文章标题
8.保存数据：
    需要先把获取的内容保存为html文件，然后使用htmltopdf将html转成PDF

re正则可以直接提取字符串数据--response.text就是html字符串数据
parsel 需要先把html字符串转成可解析的对象
"""
import time

import requests  # 数据请求模块
import re  # 正则表达式模块
import parsel  # 数据解析模块
import os  # 文件操作模块
import pdfkit  # 转成pdf

html_str = """
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Document</title>
</head>
<body>
{article}
</body>
</html>    
"""

html_filename = 'html\\'  # 定义文件夹名称
# 判断该文件夹是否存在，不存在则创建
if not os