python 爬取文章并保存为pdf

爬取步骤:

  • 1.确定需求:
    爬取的内容及内容来源
  • 2.发送请求:
    请求url地址–>文章列表url
    请求方式–get
    请求参数字段添加“User-Agent”
  • 3.获取数据:
    获取数据–响应体文本数据(网页源代码)
  • 4.解析数据
    解析方法:re正则表达式/css选择器/xpath
    解析提取内容:提取文章url
  • 5.发送请求
    请求url地址–>文章url
    请求方式–>get
    请求参数字段添加“User-Agent”
  • 6.获取数据:
    获取数据–>响应体文本数据(网页源代码)
  • 7.解析数据:
    解析方法:re正则表达式/css选择器/xpath
    解析提取内容:提取文章内容/文章标题
  • 8.保存数据:
    需要先把获取的内容保存为html文件,然后将html转成PDF
    需要用到htmltopdf(下载:https://www.xitongzhijia.net/soft/219178.html
"""
爬取步骤:
1.确定需求:
    爬取的内容及内容来源
2.发送请求:
    请求url地址--文章列表url
    请求方式--get
    请求参数字段添加--User-Agent
3.获取数据:
    获取数据--响应体文本数据(网页源代码)
4.解析数据
    解析方法:re正则表达式/css选择器/xpath
    解析提取内容--文章url
5.发送请求
    请求url地址--文章url
    请求方式--get
    请求参数字段添加--User-Agent
6.获取数据:
    获取数据--响应体文本数据(网页源代码)
7.解析数据:
    解析方法:re正则表达式/css选择器/xpath
    解析提取内容--提取文章内容/文章标题
8.保存数据:
    需要先把获取的内容保存为html文件,然后使用htmltopdf将html转成PDF

re正则可以直接提取字符串数据--response.text就是html字符串数据
parsel 需要先把html字符串转成可解析的对象
"""
import time

import requests  # 数据请求模块
import re  # 正则表达式模块
import parsel  # 数据解析模块
import os  # 文件操作模块
import pdfkit  # 转成pdf

html_str = """
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Document</title>
</head>
<body>
{article}
</body>
</html>    
"""

html_filename = 'html\\'  # 定义文件夹名称
# 判断该文件夹是否存在,不存在则创建
if not os
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

梦里逆天

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值