用java将html网页中的文本信息存入txt文件？

最新推荐文章于 2022-06-22 16:16:57 发布

原创最新推荐文章于 2022-06-22 16:16:57 发布 · 1.5k 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#Java #HTML #URL #文件转换 #信息提取

问题同时被 2 个专栏收录

3 篇文章

订阅专栏

java

1 篇文章

订阅专栏

该博客介绍了如何使用Java从HTML网页中提取文本信息并将其存储为TXT文件。通过创建URL对象，读取网页内容，并进行特定字符截取来实现文本提取。然而，代码中存在一个问题：当`while(i<tem.length()-6)`改为`while(i<tem.length())`时，程序无法生成TXT文件。博主探讨了这一现象的原因，并提出了代码改进的建议。

public static String getContent(String strUrl,String fileOutPath,String fileName) {

        try {
            URL url = new URL(strUrl);
            BufferedReader br = new BufferedReader(new InputStreamReader(url.openStream(),"gb2312"));
            String s = "";
            StringBuffer sb = new StringBuffer("");
            while ((s = br.readLine()) != null) {
               sb.append(s);
           }
             br.close();
             String tem=sb.toString();
             StringBuilder sbu = new StringBuilder("");
             int i=1;
             int begin;
             int end;
            do{
             begin=tem.indexOf(">",i);
             end=tem.indexOf("<",begin);
             sbu.append(tem.substring(begin+1, end)+"\r\n");
             i=end+1;
             }while(i<tem.length()-6);
             String outputFile= fileOutPath+fileName+".txt";
             FileOutputStream fos=new FileOutputStream(outputFile);
            fos.write(sbu.toString().getBytes("gb2312"));
            fos.close();
           return sbu.toString();
        } catch (Exception e) {
            return "error open url:" + strUrl;

        }

    }