网页爬取只获得单个标签的信息

最新推荐文章于 2022-03-08 15:05:40 发布

原创最新推荐文章于 2022-03-08 15:05:40 发布 · 412 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#python

收录于

本文介绍了一种从特定网页结构中爬取章节链接的方法，通过解析HTML代码并使用Python的PyQuery库来定位和抓取指定的链接。具体地，文章展示了如何针对嵌套在'dl'标签内的'dd'标签进行操作，从而更准确地获取每个章节的URL。

网页源代码为:

<dl>
	<dd><a href="/789654.html">第一章</a></dd><dd><a href="/234567.html">第二章</a></dd><dd><a href="/123456.html">第三章</a></dd>
</dl>

爬取代码为:

def parseLink(html):
    doc = pq(html)
    items = doc("dl")
    for item in items.items():
        print(item)
        yield {
            'page': item.find('a').attr('href')
        }

此时获得的内容为单个’href’.
多数情况是因为item的标签全部连在一块,需要分离标签.
即修改为:

for item in items.items('dd'):

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Nonino

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

使用BeautifulSoup爬取想要的标签（《python网络爬虫权威指南》笔记）

12-21

使用BeautifulSoup爬取想要的标签精确爬取标签BeautifulSoup中的find()和find_all()方法BeautifulSoup中的对象兄弟、子、父、后代标签的处理抓取子标签和其他后代标签抓取兄弟标签抓取父标签正则表达式正则表达式和BeautifulSoup获取属性Lambda表达式（匿名函数）精确爬取标签我们可以使用标签的CSS属性爬取择我们想要的一个或者多个标签，如class（类）属性、id属性、src属性等。为了方便演示标签的选择，我们使用书中作者特别准备好的爬虫演示网站为例（http://www.pythonscraping.com/pages/warand

参与评论您还未登录，请先登录后发表或查看评论

urlCroll：一个简单的python脚本，可抓取网页中的所有锚点标签

02-17

urlCroll.py 一个简单的python脚本，可抓取网页中的所有锚点标签。我将其用于脱机CTF凭证（易受攻击的VM），因为其他高级工具需要更长的时间才能完成扫描。用法： $ python urlCroll.py < url> 例子： $ python urlCroll.py https://google.com https://https://www.google.co.in/imghp ? hl=en & tab=wi https://https://maps.google.co.in/maps ? hl=en & tab=wl https://https://play.google.com/ ? hl=en & tab=w8 https://https://www.youtube.com/ ? gl=IN & tab=w1 https://https://ne

python3 爬虫面对如此多重复的标签，应该怎么爬才能爬到自己需要的信息

热门推荐

妖白的奇幻漂流世界

11-09

3万+

我们知道利用BeautifulSoup解析网页可以根据树以及各个标签来爬去，但是有个问题我们不能忽略，比如 1 BeautifulSoup 只要目标信息的旁边或者附近有标签就可以调用，，不用管是几层标签（父辈后代辈的都可以）。 Soup.html.body.h1 Soup.body.h1 Soup.html.h1 Soup.h1

dd爬虫学习

weixin_42307828的博客

05-30

288

终端中输入 scrapy startproject name,和 scrapy genspider -t basic filename dominename编译器中打开文件，在items中输入对应 name = scrapy.Field()设定爬虫文件中，导入所需要的库from ***.items import ***Item设定item = ***Item()，之后一次设定所对应的title.c...

爬取分页的标题

mwmoo的博客

05-09

818

还是跟着极客学院学习爬虫。今天学习单线程爬虫，老师让爬一个众筹项目网站 https://www.crowdfunder.com。可是由于视频是去年的，视频里老师讲的这个网站的requests method是post，但是今天我查看网站看到的是get（或许我没看对）。无所谓了，我就看着老师的（反正不是能看懂），自己用最笨的方法搞了个，自动爬取分页码的标题。又由于没有登陆，所以只能爬去部分。

【python】爬虫笔记-用xpath提取网页内容总是重复提取的解决

wangcles的博客

10-13

2289

提取网页中的每个标题，成功执行，但所有内容都是一样的 tree = etree.HTML(page_text) fp = open('58.txt','w',encoding='utf-8') li_list = tree.xpath('//section[@data-bottom="250"]/ul/li[@class="item-wrap"]') for li in li_list： title = li.xpath('//div[@class="tit

Python爬虫自学笔记（一）爬虫基础知识

qq_41597915的博客

08-06

844

浏览器工作原理

requests+bs4爬取网页内容——以爬取网页文章信息为例

lyq_wtnl的博客

08-17

9274

一、引言目标网址：https://gary666.com/learn 爬取方式：requests+bs4 难度：易基本爬取的内容：输出：页面中所有的文章的标题、内容、作者、文章分类、时间对应上图（标题为win10python安装配置selenium 、作者是Gary、文章分类python、时间2020-7-9）选做内容：数据存储：txt、excel、数据库（mysql、sqlite等）翻页：https://gary666.com/learn?page=2，url

爬虫入门（简单网页信息爬取）

weixin_54089068的博客

11-16

7882

动态网页信息爬取

weixin_38394761的博客

11-09

2320

第一篇博客，以爬虫开头，虽然以前也学过爬虫，但是时间比较久，现在又重新捡起，今天谈谈动态网页信息的爬取。首先介绍一下爬取网页信息的基本思路：1.使用爬虫请求网页，获取网页的源代码 2.解析源代码，在源代码中找到自己想要的信息；3.若还有url地址，再次请求，重复1和2两个步骤。找到我们所要信息的url，而有些url并不是我们所要信息的真实url，查看源代码时不能找到所要的数据，这是因为这部分信...

Python爬虫练习笔记——爬取单个网页里的所有图片（入门）

sinat_34937826的博客

04-14

2万+

最近闲着，想学一下爬虫先从简单的练习开始吧~ 爬取单个网页里的所有图片，这个没有什么难点，因为不需要翻页哈哈哈哈我很喜欢一些文章中的配图，比如这篇，里面就会有很多电影中的经典截图第一步：分析网页 1.首先我们要了解要爬取网站的页面，查看网页源代码。 2.其次要想好代码的步骤和思路。 #获取主页面源代码 #获取章节超链接 #获取小说内容 #下载小说 import requests impor...

python爬不是网页_用python爬网站数据，为什么只爬到标签，爬不到标签内容呢

weixin_39624360的博客

12-05

298

问题我想爬电影票房的数据，网站是http://www.cbooo.cn/movieweek，我要爬网页最下面的【票房日期：2016-11-14至2016-11-20 单周票房：57271万单周场次：1463995场单周人次：1781万】这些数据，代码如下：from bs4 import BeautifulSoupimport urllib.requestz = input("请输入网址：")...

python--只爬取网页中的文字或特定标签

Swallow_shangtou的博客

12-18

9136

from bs4 import BeautifulSoup html_sample=''' <div class="zg_head_box"> \ <div class="zg_head_bann clearfix"> <div class="zg_head_bann_left"> <ul class="zg_top_nav cl

Python 爬取网页标签内数据

Dragon

03-08

9645

1、先看运行效果，左边为运行后的结果，右边为爬取的网页内容 2、先展示代码 import requests from lxml import etree #爬取的网址 url = 'https://sh.fang.anjuke.com/?from=navigation' #请求头 header={"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chr..

爬虫介绍02：爬取第一个站点

DaoDao的博客

05-23

5226

这篇文章讲了如果编写一个爬虫，以及编写爬虫过程总用到的外部工具和模块。通过文章，我们可以了解关于网站、User Agent、Sitemap、爬取延迟和其它的爬取策略等内容。

爬虫---获取指定标签内的文本

落神的博客

08-04

2万+

学习爬虫主要是为了从网站上获取我们想要的数据，但是工作以后，我们爬去的数据是多种多样的，所以这就要求我们掌握多种查找数据的方式。今天以查找文本为例给大家介绍我常用的四种查找数据的方式。以在scrapy框架抓取百度贴吧为例，介绍四种抓取文本的方式。 1. 获取最外层标签，遍历内部所有的子标签“/text()”，获取标签文本 class XiaoshuoSpider(scrapy.Spide...

python爬取并列标题（相同的标签，不同内容）的方法

学无止境

05-06

1万+

如下图，我需要爬取选框中的英文标题内容，但是它和中文标题的标签是一样的，这时候我们该如何获取呢？我们也许会通过“div”->class_='hd'->a->span的标签层级来获取框选内容，但是这样也会得到中文的titile，而我们使用 “div”->class_='hd'->a.contents则会定位到a标签下所有的子标签内容（包括换行符‘\n’），再...

爬虫只爬取网页部分内容的问题

槑的学习专栏

10-23

7258

在爬虫爬取网页的时候只爬取到部分内容，后来查到原因是因为爬取的html文件是不规范的html，导致不同的html parser的分析结果不一样。把原来的soup = BeautifulSoup(wb_data, 'lxml')替换成soup = BeautifulSoup(wb_data, 'html.parser')就可以正常读取内容了。通常 BeautifulSoup 的 html pars

Python爬虫实战--（二）解析网页中的元素

晴空里的夏日雨

01-23

1万+

使用requests发送请求自己写selector 根据属性值筛选指定内容一对多关系的筛选爬取分页模拟手机端访问来抓取图片总结上一篇我们解析了本地的网页，而这一篇我们去解析真实的网络环境中的网页。目标：用Request + Beautifulsoup库爬取Tripadvisor网站的内容。 Tripadvisor的网址：https://www.tripadvisor.c