使用crawler4j非常简单,源码中已经包涵了很多的例子,并且是直接就可以运行的。
首先运行pom.xml,或者是直接下载依赖库:
https://code.google.com/p/crawler4j/downloads/detail?name=crawler4j-3.5-dependencies.zip&can=2&q=
1. 运行Example
打开edu.uci.ics.crawler4j.examples.basic下的BasicCrawlController,就一个main方法,注释掉前3行,改下目录和线程数:
/*if (args.length != 2) {
System.out.println("Needed parameters: ");
System.out.println("\t rootFolder (it will contain intermediate crawl data)");
System.out.println("\t numberOfCralwers (number of concurrent threads)");
return;
}*/
/* * 爬取时数据临时存放目录. */
String crawlStorageFolder = "./tmp";
/* * 爬取线程数,即同时有多少个爬虫工作. */
int numberOfCrawlers = 5;
保存,运行,程序就开始输出爬取出来的

本文将介绍如何使用开源JAVA爬虫crawler4j,从运行Example到爬取指定网站、输出信息、遵循规则抓取及设定爬取深度。通过实例代码详细解析每个步骤,让你轻松上手。


被折叠的 条评论
为什么被折叠?



