最全的停用词表整理
| 词表名 | 词表文件 |
|---|---|
| 中文停用词表 | cn_stopwords.txt |
| 哈工大停用词表 | hit_stopwords.txt |
| 百度停用词表 | baidu_stopwords.txt |
| 机器智能实验室停用词库 | scu_stopwords.txt |
以上停用词表链接:https://github.com/goto456/stopwords
以下是我常用的1893个停用词,可直接复制
!
"
#
$
%
&
'
(
)
*
+
,
-
--
.
..
...
......
...........

本文探讨了停用词表在信息抽取过程中的作用,列举了多种常见的中文停用词表,包括哈工大、百度、机器智能实验室等版本,并分享了一个包含1893个常用停用词的列表。通过对停用词的过滤,可以提高文本处理效率和信息提取的准确性。此外,还简要介绍了信息抽取的基本步骤和关键技术,强调了停用词表在文本预处理阶段的重要性。
&spm=1001.2101.3001.5002&articleId=117885706&d=1&t=3&u=553dfba32a0e4b66bf93cde715d8d19b)
226

被折叠的 条评论
为什么被折叠?



