在使用Jsoup抓取CSDN博客数据时候报http403错误,这是由于CSDN博客服务器设置了访问权限
如果是服务器端禁止抓取,那么这个你可以通过设置User-Agent来欺骗服务器
connection.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
利用这个原理,Jsoup代码稍作调整即可:
Connection connection =
Jsoup.connect(url);
connection.userAgent("Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
Document doc = connection.get();

本文介绍了解决使用Jsoup抓取CSDN博客数据时遇到的HTTP 403错误的方法,主要通过设置User-Agent来绕过服务器的访问限制。

2160

被折叠的 条评论
为什么被折叠?



