from bs4 import BeautifulSoup
import requests
html = requests.get(url=url)
#格式化处理返回soup对象
soup = BeautifulSoup(html.text,'lxml')
#查找div标签,返回一个标签list
Tags = soup.find_all('div')
具体Tag的属性可以自行百度。
这里说俩:Tag.string(bs4.element.NavigableString类型)和Tag.text(str类型)
前者返回的字符串包括了子标签的内容,而后者仅返回当前标签的内容。
本文介绍如何利用Python的Requests库获取网页内容,并通过BeautifulSoup进行解析,重点关注div标签的提取及其属性的使用,如Tag.string和Tag.text的区别。
&spm=1001.2101.3001.5002&articleId=98763269&d=1&t=3&u=949ae43493654685af65b4c19c85a089)
726

被折叠的 条评论
为什么被折叠?



