在maven项目里添加所需的开源包,这里我使用2.23版本
<dependency>
<groupId>net.sourceforge.htmlunit</groupId>
<artifactId>htmlunit</artifactId>
<version>2.23</version>
</dependency>
htmlunit的基本设置,实现百度高级搜索:
public static String Baidu(String keyword)throws Exception{
WebClient webclient = new WebClient();
//ssl认证
//webclient.getOptions().setUseInsecureSSL(true);
//由于有的网页js书写不规范htmlunit会报错,所以去除这种错误让程序执行完全(不影响结果)
webclient.getOptions().setThrowExceptionOnScriptError(false);
webclient.getOptions().setThrowExceptionOnFailingStatusCode(false);
//不加载css
webclient.getOptions().set

本文介绍如何在Java项目中使用HtmlUnit库来爬取百度搜索的信息。首先,通过Maven添加HtmlUnit的2.23版本依赖。接着,配置并执行高级搜索操作,解析对应的网页源码以获取所需数据。

1万+

被折叠的 条评论
为什么被折叠?



