java从字符串中删除HTML标签

一、概述

有什么好方法可以从Java字符串中删除HTML?一个简单的正则表达式

replaceAll("\\<.*?>", "") 

会起作用,但是&不会正确转换,并且两个尖括号之间的非HTML也会被删除(即.*?,正则表达式中的将会消失)。

二、详解

使用HTML解析器代替正则表达式。对于Jsoup来说,这很简单

public static String html2text(String html) {
    return Jsoup.parse(html).text();
}

Jsoup还支持对可定制的白名单,如果你希望只允许例如这是非常有用的去除HTML标签

如若转载,请注明出处:https://www.javaidea.cn/article/8260.html

(0)
上一篇 2022年2月7日 上午10:03
下一篇 2022年2月7日 上午10:03

相关推荐

发表评论

您的电子邮箱地址不会被公开。