NLP：高频词提取

最新推荐文章于 2026-04-11 11:25:28 发布

原创

最新推荐文章于 2026-04-11 11:25:28 发布 · 1.5k 阅读

收录于

import glob
import jieba


def get_content(path):
    with open(path,'r',encoding='gbk',errors='ignore') as f:
        content=''
        for l in f:
            l=l.strip()
            content+=l
        return content
def get_TF(words,topK=10):
    tf_dic ={}
    for w in words:
        tf_dic[w]=tf_dic.get(w,0)+1
    return sorted(tf_dic.items(),key=lambda x:x[1],reverse=True)[:topK]

def stop_word(path):
    with open(path) as f:
        return [l.strip() for l in f]

if __name__ == '__main__':
    files=glob.glob('./data/*.txt')
    corpus=[get_content(x) for x in files]
    index =1
    split_words =[x for x in jieba.cut(corpus[index]) if x not in stop_word('stop_words.txt')]
    print('content:'+corpus[index])
    print('分词效果：' +'/'.join(split_words))
    print('样本的top10:'+str(get_TF(split_words)))

结果：

/Users/dongyang/AI/anaconda3/python.app/Contents/MacOS/python /Users/dongyang/PycharmProjects/high_freq_word_ex

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Chelseady

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

中文分词工具jieba使用-高频热词提取

djx1085213329的博客

11-09

7748

目录一、概念二、使用1.基本2.实战-高频热词提取一、概念近年来，随着NLP技术的日益成熟，开源实现的分词工具越来越多，如Ansj、盘古分词等。本文选择的是更易上手的Jieba做简单介绍。原理： Jieba分词结合了基于规则和基于统计这两类方法。首先基于前缀词典进行词图扫描，前缀词典是指词典中的词按照前缀包含的顺序排列，例如词典中出现了“上”，之后以“上”开头的词都会出现在这一部分，例如“上海”，进而会出现“上海市”，从而形成一种层级包含结构。如果将词看作节点，词和词之间的分词符看作边，那么一种分词方

参与评论您还未登录，请先登录后发表或查看评论

自然语言处理的基本预处理（分词，停用词记载，获得高频词语）

qq_37258523的博客

06-13

1051

记录小白学习之路 自然语言处理的基本预处理（分词，停用词记载，获得高频词语） -- coding: utf-8 -- #jieba分词示例 #strip() 方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。 #对文本进行预处理停用词记载分词词性标注以及统计高频词汇 # -*- coding: utf-8 -*- #jieba分词示例 #strip() 方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。 #对文本进行预处理停用词记载分词词性标注以及统计高频词汇

高频词提取

weixin_39890933的博客

03-03

2536

高频词一般指的是在文章中出现频率较高的且有意义的一些词语，一定程度上代表了文档的焦点所在。所以也可以将其当做关键词。本文的分词工具使用了jieba分词。首先，引入要用的包并且读取待处理的文档数据： import glob import random import jieba def get_content(path): with open(path,'r',encoding='gbk'...

【自然语言处理】利用 TextRank 算法提取关键词

Code · Cloud · Think · Repeat

11-27

7205

TextRank 是一种基于 PageRank 的算法，常用于关键词提取和文本摘要。在本文中，我将通过一个关键字提取示例帮助您了解 TextRank 如何工作，并展示 Python 的实现。

Chapter 2.1 高频词和关键词提取（一）

Yif18的博客

01-17

2763

知识点2.1.1 高频词和关键词的区别知识点2.1.2 基于numpy和pandas的高频词提取知识点2.1.3 基于nltk的高频词提取知识点2.1.4 高频词的词云图展示

jieba分词器（应用及字典的补充）及文档高频词提取实战

二哥为啥不像程序员？

04-15

5229

jieba分词器是Python中最好的中文分词组件，本文讲解一下jieba分词器及其应用。 1、jieba分词器的分词模式 jieba分词器提供了三种常用的分词模式 1、精确模式：将句子按照最精确的方法进行切分，适合用于进行文本分析； 2、全模式：将句子当中所有可以成词的词语都扫描出来，分词速度很快但容易产生歧义； 3、搜索引擎模式：在精确模式分词的基础上，将长的句子再次进行切分，...

用std::string快速构建文本分析原型

BlackironPanther23的博客

12-12

720

基于高频词，可以进一步实现简单的摘要功能。比如提取包含高频词的句子，或者根据词频权重拼接关键信息。这里可以结合字符串的查找(

实战指南：基于Python NLP的电商评论情感追踪与高频词洞察

最新发布

weixin_28725407的博客

04-11

347

本文详细介绍了如何利用Python NLP技术进行电商评论情感分析与高频词挖掘，帮助商家快速洞察用户反馈。通过情感分析和关键词挖掘技术，可以自动识别用户情绪和核心关注点，优化产品设计和营销策略。文章包含从环境搭建到实战应用的完整流程，适合电商数据分析师和Python开发者参考。

开源项目&免费接口:高频词提取挖掘文本核心价值

03-19

1121

可以本地化部署，也可以云端SaaS调用，微信扫码即可登录。1. 功能核心高频词提取功能专门设计用于从大量文本数据中自动识别和提取出现频率最高的词汇，帮助用户迅速把握文本的关键信息和主题趋势。2. 应用场景。

items.sort(key=lambda x:x[1],reverse=True)

weixin_44769957的博客

11-03

3万+

items=list(counts.items())#[('a',1),('b',2)...] items.sort(key=lambda x:x[1],reverse=True)#降序使用python对列表（list）进行排序 python3排序 sorted(key=lambda) key=lambda 元素: 元素[字段索引] 　　例如：想对元素第二个字段排序，则 key=lambda y: y[1] 备注：这里y可以是任意字母，等同key=lambda x: x[1] 看几个简单的例子。 li

【NLP学习笔记】用jieba实现高频词提取

Alexbyy的博客

12-07

5303

高频词 高频词提取（TF，Term Frequency）,高频词指在文档中出现频率较高并且有用的词，关键点有两个:出现频率高、有用。第一步定义获取语料的函数 def getContent(path,encoding='gbk): with open(path, r, encoding=encoding, errors='ignore') as f: content ...

学习NLP的第10天——文章关键词提取：词频统计

长行

03-06

6491

关键词提取是词语颗粒度的信息抽取的一种重要的需求，即提取文章中重要的词语。关键词提取的常用方法包括词频统计、TF-IDF和TextRank等。其中，词频和TextRank属于单文档算法，即只需一篇文章即可提取出其中的关键词；而TF-IDF则属于多文档宣发，需要其他文档的辅助来提取当前文章的关键词。词频统计的Python实现词频统计的逻辑是：在一篇文章中，越重要的关键词往往会在文章中...

Jieba：高频词提取

jiaojiaolou的博客

03-23

5791

1、高频词定义 高频词是指文档中出现频率较高且非无用的词语，其一定程度上代表了文档的焦点所在。针对单篇文档可以作为一种关键词来看。对于如新闻这样的多篇文档，可以将其作为热词，发现舆论热点。 高频词提取的干扰项： 1）标点符号 2）停用词：类似“的”，“是”，“了”等无意义的词。 ...

python使用tkinter库实现自定义的词云图和top10词频统计

dhjabc_1的专栏

04-08

3401

这篇博文，我打算和大家分享一下当前比较火的额词云效果以及实现top10的统计功能，通过良好的、友善的可视化界面能提高感知和实用度，因此我这里继续使用tkinter库作为前端的展示开发库，在这里，我将使用ttk的Progressbar实现在统计过程中的等待交互窗口、使用notebook进行分TAB页显示，使用treeview实现词频统计的列表展现，然后使用LABEL加载词云图，也使用toplevel实现子窗口展现。因此，这篇博文还是非常值得大家花点时间参观一下的。

NLPChina_ansj_seg JAVA 实现热词及分词统计

qq_37857921的博客

10-06

2337

前言：笔者最近遇到一个需求：将文章输入后输出文章中的高频词，这是个简短的需求，但细分下便会出现许多细节重点。笔者细化需求后确定了这几个步骤：1. 文章分词（包括中英文混词）——> 2. 分词统计——>3. 推荐热词。根据上述的简单需求，我就想用原生JAVA通过某些数据结构实现，由于知识面有限且笔者目前是名在校的学生，实现了英文下的分词、中文下的分词。但是遇到中英文混排的怎么也合并不了。经过两天的各种思考各种分析结果以失败告终。在查阅资料的时候发现了阿帕奇的OpenNLP 工具，然后仔细的

Python——jieba优秀的中文分词库（基础知识+实例）