网页源代码为:
<dl>
<dd><a href="/789654.html">第一章</a></dd><dd><a href="/234567.html">第二章</a></dd><dd><a href="/123456.html">第三章</a></dd>
</dl>
爬取代码为:
def parseLink(html):
doc = pq(html)
items = doc("dl")
for item in items.items():
print(item)
yield {
'page': item.find('a').attr('href')
}
此时获得的内容为单个’href’.
多数情况是因为item的标签全部连在一块,需要分离标签.
即修改为:
for item in items.items('dd'):
本文介绍了一种从特定网页结构中爬取章节链接的方法,通过解析HTML代码并使用Python的PyQuery库来定位和抓取指定的链接。具体地,文章展示了如何针对嵌套在'dl'标签内的'dd'标签进行操作,从而更准确地获取每个章节的URL。

3万+

被折叠的 条评论
为什么被折叠?



