一:引入读取pdf工具的jar
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox-app</artifactId>
<version>1.8.10</version>
</dependency>
二、代码
package book;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFTextStripper;
import java.io.*;
import java.util.*;
/**
* @Description: 读取英文pdf并输出
* @Author: ada
* @Date: 2020/4/25 23:16
* @Vervion: 1.0
*/
public class PdfUtil {
public static void main(String[] args) throws IOException {
getWordsFromPdf("e:/Thinking In Java(英文版 第四版).pdf","e:/2.txt",15);
}
/*
* @Desciption: 从英文pdf中读取出现频率最高的单词,并输出到txt中
* @param readPath pdf文件位置
* @param outPath 输出位置
* @param p 出现次数
* @Return: void
* @Author: ada
* @Date: 2020/4/26 0:51
* @Version: 1.0
*/
public static void getWordsFromPdf(String readPath,String o

本文介绍了一种使用Java和Apache PDFBox库读取英文PDF文档的方法,通过解析PDF内容,提取并统计单词出现频率,最后将出现频率较高的单词输出到TXT文件中。文章详细展示了如何设置依赖、读取PDF、处理文本以及排序和输出结果。

687

被折叠的 条评论
为什么被折叠?



