Jsoup 采集回来的信息出现乱码

最新推荐文章于 2025-12-25 16:07:45 发布

原创最新推荐文章于 2025-12-25 16:07:45 发布 · 1.6k 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#乱码 #Jsoup

收录于

java 专栏收录该内容

14 篇文章

订阅专栏

本文主要探讨了使用JSoup抓取网页内容时遇到的编码不匹配问题，详细介绍了如何通过调整编码设置来解决这一常见问题。

一般出现这个情况是由于url指向的页面，实际编码与html中描述的编码不符导致。如：开发时用的GBK编码编写，但html中却写UTF-8。典型的就是在中文Windows下用记事本，写一个UTF-8的html就会出现这个问题。
你可以不用jsoup.connect，这个会从html描述中识别。
你可以用Jsoup.parse(InputStream in, String charsetName, String baseUri) 的方式从一个流中读取，charsetName选择合适的编码。
如：
String url = "http://xxxxxxx";
Document document = Jsoup.parse(new URL(url).openStream(), "GBK", url);
//你可以试试GBK或UTF-8
p.s.
编码问题： new String(docStr.getBytes("ISO8859-1"), "UTF-8");  方式绝对不是正确解决之道