基于BeautifulSoup的网页文本提取(1)

本文介绍了BeautifulSoup库的基本用法和在Windows下的安装步骤,包括从官方下载、解压、安装以及验证安装是否成功的过程。通过示例展示了如何打开文件、读取内容并使用BeautifulSoup进行处理。在实际操作中遇到了一些报错问题,作者尝试了安装htmlparser,但问题未完全解决,推测可能是Python版本与BeautifulSoup版本之间的兼容性问题。

一.先安装python
二.Windows平台安装Beautiful Soup
Beautiful Soup是一个Python的一个库,主要为一些短周期项目比如屏幕抓取而设计。有三个特性使得它非常强大:
1.Beautiful Soup提供了一些简单的方法和Python术语,用于检索和修改语法树:一个用于解析文档并提取相关信息的工具包。这样你写一个应用不需要写很多代码。
2.Beautiful Soup自动将输入文档转换为Unicode编码,并将输出文档转化为UTF-8编码。你不需要考虑编码,除非输入文档没有指出其编码并且Beautiful Soup无法自动检测到,这时你需要指出原来的编码方式。
3.Beautiful Soup位于一些流行的Python解析器比如lxml和html5lib的上层,这允许你使用不同的解析策略或者牺牲速度来换取灵活性。
Beautiful Soup解析你提哦那个的任何东西,并且替你完成树的便利。你可以告诉它“查找所有的链接” 或者“查找类externalLink的所有链接”或者“查找所有url地址匹配foo.com的链接”或者“查找使用粗体的表头,返回那些粗体的文本”。
在一些设计不良的网站上很难获取的宝贵的数据,使用Beautiful Soup便可以获得。 原先需要运行几个小时工程,使用Beautiful Soup仅需要几分钟而已。
下面说一下在Windows下面如何安装Beautiful Soup:
1.到http://www.crummy.com/software/BeautifulSoup/网站上上下载,最新版本是4.1.3。
2.下载完成之后需要解压缩,假设放到D:/python下。
3.运行cmd,切换到D:/python/beautifulsoup4-4.1.3/目录下(根据自己解压缩后的目录和下载的版本号修改),
cd /d D:/python//beautifulsoup4-4.1.3
4.运行命令:
setup.py build
setup.py install
5.在IDE下from bs4 import BeautifulSoup,没有报错说明安装成功。
三.执行代码
这里写图片描述
fh=open(‘Y:\Downloads\TRECCS-00709126-329’)//打开文件
print fh.read()//文件输出
fh.close()//关闭文件流
soup = BeautifulSoup(fh.read())// 从文件里读取的内容交给 BS处理

四.遇到的问题
soup = BeautifulSoup(fh.read()) 这句话会报错
这里写图片描述
为了解决这个问题 装了一个htmlparser(http://blog.csdn.net/marising/article/details/5821090
但是问题还是没解决 还存在报错 但是错误内容变成了这个
这里写图片描述

然后开始怀疑BeautifulSoup是不是装错了 用以下代码验证
这里写图片描述

可以运行 说明安装是正确的,所以还在找bug
怀疑是不是python2.7.2和Beautiful Soup4.2.0 有的不兼容 ,打算明天安装Beautiful Soup 3.0.7的试试

四.相关资源
Beautiful Soup 4.2.0 文档
http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值