python实现csdn文章浏览量日志

原创已于 2024-10-11 10:20:36 修改 · 552 阅读

5 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#python #开发语言 #爬虫

于 2024-10-11 10:19:16 首次发布

python爬虫专栏收录该内容

19 篇文章

订阅专栏

昨天写了一篇python实现爬取某网站的内容

心血来潮想看看自己的文章有多少人看，毕竟之前有一篇文章爆火，有50k的观看

正好再试试刚学的xPath语法

按理来说是从自己的个人账号里面看比较好，不会对文章的数据产生干扰

但是我有点担心泄漏个人隐私

所以采用了浏览文章的形式，也就是各位你们现在看到的页面

这里依旧是对网页进行分析

思路整理

查看网站源代码的获取方式
得到是get请求
在pychram中使用requests模块
尝试只填写url—失败
尝试加上请求头headers----成功
导入etree模块
使用xPath语法获取数据
将数据写入文件，制作日志

为了更有观赏性，再引入datetime模块，获取当下的时间
把时间和浏览量一起写入文件

代码展示

import requests
import re
from lxml import etree

from datetime import datetime

# 获取当前的日期和时间
now = datetime.now()

url = 'https://blog.csdn.net/FZ51111/article/details/142831513'
header = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Edg/127.0.0.0'}
rt = requests.get(url=url,headers=header)
# print(rt.text)
html = etree.HTML(rt.text)
readers = html.xpath('//div[@class="read-count-box"]/span/text()')
data = re.findall('\\d+',str(readers))[0]
print(data,now)
with open(r'D:\Python\Python312\Lib\site-packages\PyInstaller\csdn-readers.txt',mode='a',encoding='utf-8') as f:
    f.write(f'{data}   {now}\n')