python 自然语言处理第三章

最新推荐文章于 2023-09-19 21:15:43 发布

原创

最新推荐文章于 2023-09-19 21:15:43 发布 · 872 阅读

标签

#python #自然语言处理

收录于

这篇博客介绍了Python在自然语言处理中的文件访问技巧，包括本地文件和网络文件的读取。接着讲解了如何进行分词操作，使用nltk的word_tokenize函数。还涉及了使用unicode进行文件处理，讨论了不同的字符编码格式。最后，文章探讨了正则表达式的应用，包括常用的元字符和函数，并展示了如何在文本处理中使用它们。

1.访问文件：

A.本地文件
import os
file=open(path)----指针
file.read()----得到字符串
for line in file ----遍历文件的每一行
B.网络文件
from urllib import urlopen
file=urlopen(url)
file.read()

2.分词：

tokens=nltk.word_tokenize(string)----对字符串进行分词，得到list类型
**分词函数word_tokenize 的参数string中必须要有空格或其他标点才能分词
type(tokens) ----list类型

3.使用unicode 进行文件处理
模块：codecs
import codecs
file=codes.open(path,encoding="latin2")
for line in file:
line=line.encode("unicode_escape")----编码格式unicode_escape，将所有的非ASCII码的字符转换成“\uXXXX”的形式，但是在128到256之间的字符，转换成“\xXX”格式。

字符编码格式：
utf-8 ----用1-4个字节来表示字符
utf-16 ----2字节
utf-32 -----4字节
gbk ----不论中英文，都是两个字节
latin

编码字符：unicode,ASCII

4.正则表达式的应用
模块：re
import re

使用的元字符：
^:代表以什么开头如:r^"ad"
$:以什么结尾
.:任意单个字符
？：前面的字符可选
[abc]