1.访问文件:
A.本地文件
import os
file=open(path)----指针
file.read()----得到字符串
for line in file ----遍历文件的每一行
B.网络文件
from urllib import urlopen
file=urlopen(url)
file.read()
2.分词:
tokens=nltk.word_tokenize(string)----对字符串进行分词,得到list类型
**分词函数word_tokenize 的参数string中必须要有空格或其他标点才能分词
type(tokens) ----list类型
3.使用unicode 进行文件处理
模块:codecs
import codecs
file=codes.open(path,encoding="latin2")
for line in file:
line=line.encode("unicode_escape")----编码格式unicode_escape,将所有的非ASCII码的字符转换成“\uXXXX”的形式,但是在128到256之间的字符,转换成“\xXX”格式。
字符编码格式:
utf-8 ----用1-4个字节来表示字符
utf-16 ----2字节
utf-32 -----4字节
gbk ----不论中英文,都是两个字节
latin
编码字符:unicode,ASCII
4.正则表达式的应用
模块:re
import re
使用的元字符:
^:代表以什么开头 如:r^"ad"
$:以什么结尾
.:任意单个字符
?:前面的字符可选
[abc]
A.本地文件
import os
file=open(path)----指针
file.read()----得到字符串
for line in file ----遍历文件的每一行
B.网络文件
from urllib import urlopen
file=urlopen(url)
file.read()
2.分词:
tokens=nltk.word_tokenize(string)----对字符串进行分词,得到list类型
**分词函数word_tokenize 的参数string中必须要有空格或其他标点才能分词
type(tokens) ----list类型
3.使用unicode 进行文件处理
模块:codecs
import codecs
file=codes.open(path,encoding="latin2")
for line in file:
line=line.encode("unicode_escape")----编码格式unicode_escape,将所有的非ASCII码的字符转换成“\uXXXX”的形式,但是在128到256之间的字符,转换成“\xXX”格式。
字符编码格式:
utf-8 ----用1-4个字节来表示字符
utf-16 ----2字节
utf-32 -----4字节
gbk ----不论中英文,都是两个字节
latin
编码字符:unicode,ASCII
4.正则表达式的应用
模块:re
import re
使用的元字符:
^:代表以什么开头 如:r^"ad"
$:以什么结尾
.:任意单个字符
?:前面的字符可选
[abc]

这篇博客介绍了Python在自然语言处理中的文件访问技巧,包括本地文件和网络文件的读取。接着讲解了如何进行分词操作,使用nltk的word_tokenize函数。还涉及了使用unicode进行文件处理,讨论了不同的字符编码格式。最后,文章探讨了正则表达式的应用,包括常用的元字符和函数,并展示了如何在文本处理中使用它们。

1269

被折叠的 条评论
为什么被折叠?



