1. nltk.word_tokenize ( text ) : 直接的分词,比如:“ isn't ” 被分割为 " is " 和 “ n't ”

2. WordPunctTokenizer ( ) : 单词标点分割,比如:“ isn't ”被分割为" isn ", " ' " 和 " t "
注意WordPunctTokenizer ( )的用法。

3. TreebankWordTokenizer ( 宾夕法尼亚州立大学 Treebank 单词分割器):比如:" isn't "被分割为" is " 和 " n't "

4. WhitespaceTokenizer() : 空格符号分割,就是split(' ')最简单的一个整体,没有被分割

5. PunktWordTokenizer() :
这个有问题,emmmm,还没解决,先留个坑吧



本文深入探讨了NLTK库中五种不同的分词技术,包括直接分词、单词标点分割、Treebank单词分割、空格符号分割及PunktWordTokenizer的使用,对自然语言处理初学者和从业者理解文本预处理提供了实用指导。

592

被折叠的 条评论
为什么被折叠?



