java使用htmlunit爬取百度搜索信息

最新推荐文章于 2023-07-26 11:49:53 发布

原创

最新推荐文章于 2023-07-26 11:49:53 发布 · 3.1k 阅读

标签

#htmlunit #java

收录于

本文介绍如何在Java项目中使用HtmlUnit库来爬取百度搜索的信息。首先，通过Maven添加HtmlUnit的2.23版本依赖。接着，配置并执行高级搜索操作，解析对应的网页源码以获取所需数据。

在maven项目里添加所需的开源包，这里我使用2.23版本

<dependency>   
        <groupId>net.sourceforge.htmlunit</groupId>  
        <artifactId>htmlunit</artifactId>  
        <version>2.23</version>  
</dependency>

htmlunit的基本设置，实现百度高级搜索：

public static String Baidu(String keyword)throws Exception{
    WebClient webclient = new WebClient()；
       //ssl认证
    //webclient.getOptions().setUseInsecureSSL(true);
       //由于有的网页js书写不规范htmlunit会报错，所以去除这种错误让程序执行完全（不影响结果）
    webclient.getOptions().setThrowExceptionOnScriptError(false);
    webclient.getOptions().setThrowExceptionOnFailingStatusCode(false);
       //不加载css
    webclient.getOptions().set