统计pdf文章单词出现频率

最新推荐文章于 2026-06-17 10:40:45 发布

原创

最新推荐文章于 2026-06-17 10:40:45 发布 · 1.8k 阅读

标签

#java

收录于

本文介绍了一种使用Java和Apache PDFBox库读取英文PDF文档的方法，通过解析PDF内容，提取并统计单词出现频率，最后将出现频率较高的单词输出到TXT文件中。文章详细展示了如何设置依赖、读取PDF、处理文本以及排序和输出结果。

一：引入读取pdf工具的jar

<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox-app</artifactId>
    <version>1.8.10</version>
</dependency>

二、代码

package book;

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFTextStripper;

import java.io.*;
import java.util.*;

/**
 * @Description: 读取英文pdf并输出
 * @Author: ada
 * @Date: 2020/4/25 23:16
 * @Vervion: 1.0
 */
public class PdfUtil {
    public static void main(String[] args) throws IOException {
        getWordsFromPdf("e:/Thinking In Java（英文版 第四版）.pdf","e:/2.txt",15);
    }
    /*
    * @Desciption: 从英文pdf中读取出现频率最高的单词，并输出到txt中
    * @param readPath   pdf文件位置
    * @param outPath    输出位置
    * @param p  出现次数
    * @Return: void
    * @Author: ada
    * @Date: 2020/4/26 0:51
    * @Version: 1.0
    */
    public static void getWordsFromPdf(String readPath,String o