python 自然语言处理第三章

这篇博客介绍了Python在自然语言处理中的文件访问技巧,包括本地文件和网络文件的读取。接着讲解了如何进行分词操作,使用nltk的word_tokenize函数。还涉及了使用unicode进行文件处理,讨论了不同的字符编码格式。最后,文章探讨了正则表达式的应用,包括常用的元字符和函数,并展示了如何在文本处理中使用它们。
1.访问文件:


A.本地文件
import os
file=open(path)----指针
file.read()----得到字符串
for line in file ----遍历文件的每一行
B.网络文件
from urllib import urlopen
file=urlopen(url)
file.read()


2.分词:


tokens=nltk.word_tokenize(string)----对字符串进行分词,得到list类型
**分词函数word_tokenize 的参数string中必须要有空格或其他标点才能分词
type(tokens) ----list类型




3.使用unicode 进行文件处理
模块:codecs
import codecs
file=codes.open(path,encoding="latin2")
for line in file:
line=line.encode("unicode_escape")----编码格式unicode_escape,将所有的非ASCII码的字符转换成“\uXXXX”的形式,但是在128到256之间的字符,转换成“\xXX”格式。


字符编码格式:
utf-8 ----用1-4个字节来表示字符
utf-16 ----2字节
utf-32 -----4字节
gbk ----不论中英文,都是两个字节
latin


编码字符:unicode,ASCII




4.正则表达式的应用
模块:re
import re


使用的元字符:
^:代表以什么开头 如:r^"ad"
$:以什么结尾
.:任意单个字符
?:前面的字符可选
[abc]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Albert_YuHan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值