java 过滤HTML代码中的标签

最新推荐文章于 2024-11-22 17:50:03 发布

原创最新推荐文章于 2024-11-22 17:50:03 发布 · 736 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#java #正则表达式

收录于

java 专栏收录该内容

93 篇文章

订阅专栏

java 过滤HTML代码中的标签，获取文本内容

/**
     * 去除html代码中含有的标签
     * @param htmlStr
     * @return
     */
    public static String delHtmlTags(String htmlStr) {
        //定义script的正则表达式，去除js可以防止注入
        String scriptRegex="<script[^>]*?>[\\s\\S]*?<\\/script>";
        //定义style的正则表达式，去除style样式，防止css代码过多时只截取到css样式代码
        String styleRegex="<style[^>]*?>[\\s\\S]*?<\\/style>";
        //定义HTML标签的正则表达式，去除标签，只提取文字内容
        String htmlRegex="<[^>]+>";
        //定义空格,回车,换行符,制表符
        String spaceRegex = "\\s*|\t|\r|\n";
 
        // 过滤script标签
        htmlStr = htmlStr.replaceAll(scriptRegex, "");
        // 过滤style标签
        htmlStr = htmlStr.replaceAll(styleRegex, "");
        // 过滤html标签
        htmlStr = htmlStr.replaceAll(htmlRegex, "");
        // 过滤空格等
        htmlStr = htmlStr.replaceAll(spaceRegex, "");
        // 过滤&nbsp;
        htmlStr = htmlStr.replaceAll("&nbsp;", "");
        // 过滤所有的空格
        htmlStr = htmlStr.replaceAll(" ", "");
        
        return htmlStr.trim(); // 返回文本字符串
    }