正常的url是有前缀 https://note.youdao.com 的,而有些a标签的url只有path路径,要实现自动拼接有两种办法:
1、需要先提取a标签中的部分url以后才能使用urljoin()

2、不需要提取a标签中的部分,LinkExtractor会自动提取并且补全url
from scrapy.linkextractors import LinkExtractor
获取某个a标签的url的时候正则到上一标签就可以了,不仅获取到url并且拼接好,还能获取到a标签text的内容。

爬虫 : url的自动补全
最新推荐文章于 2024-01-02 14:02:24 发布
本文介绍两种在Scrapy中实现URL自动拼接的方法:一是通过提取a标签中的部分URL使用urljoin();二是利用LinkExtractor自动补全URL。此外,还介绍了如何通过正则表达式获取a标签的完整URL及文本内容。

3312

被折叠的 条评论
为什么被折叠?



