开源JAVA爬虫crawler4j源码分析 - 2 开始使用crawler4j

原创

于 2013-12-19 17:56:11 发布 · 1w 阅读

标签

#爬虫 #crawler4j #JAVA爬虫

本文将介绍如何使用开源JAVA爬虫crawler4j，从运行Example到爬取指定网站、输出信息、遵循规则抓取及设定爬取深度。通过实例代码详细解析每个步骤，让你轻松上手。

使用crawler4j非常简单，源码中已经包涵了很多的例子，并且是直接就可以运行的。

首先运行pom.xml，或者是直接下载依赖库：

https://code.google.com/p/crawler4j/downloads/detail?name=crawler4j-3.5-dependencies.zip&can=2&q=

1. 运行Example

打开edu.uci.ics.crawler4j.examples.basic下的BasicCrawlController，就一个main方法，注释掉前3行，改下目录和线程数：

/*if (args.length != 2) {
 System.out.println("Needed parameters: ");
System.out.println("\t rootFolder (it will contain intermediate crawl data)");
System.out.println("\t numberOfCralwers (number of concurrent threads)");
return;
}*/
/* * 爬取时数据临时存放目录. */
String crawlStorageFolder = "./tmp";
/* * 爬取线程数，即同时有多少个爬虫工作. */
int numberOfCrawlers = 5;

保存，运行，程序就开始输出爬取出来的