heritrix是sourceforge下的一个开源爬行工具,这个工具只是在linux下测试过,没有进行过在windows下的测试。heritrix的文档中也没有在windows下的安装和测试的内容。
下面我就总结一下这段时间来在windows命令行下的两种可行的的安装运行方式。
正确安装java虚拟机是必须的,而且要是1.5以上的版本才行!
一,安装都一样
下载完整的heritrix开发包,解压到本地的一个目录下,比如E:/!之后配置系统环境变量"HERITRIX_HOME"到该解压目录。(对于下面的第一种方法,不配置这个环境变量一样可以)。
二,运行前的配置工作,下面就两种方法分别介绍!
方法一:在%HERITRIX_HOME%/目录下有一个conf目录,在conf下有个重要的heritrix.properties。在这个文件中配置了大量与Heritrix运行息息相关的参数,这些参数主要是配置了Heritrix运行时的一些默认工具类、WebUI的启动参数,以及Heritrix的日志格式等。当第一次运行Heritrix时,只需要修改该文件,为其加入WebUI的登录名和密码,和修改监听端口。
heritrix.cmdline.admin = admin:admin
heritrix.cmdline.port = 8080
其中,用户名和密码是以一个冒号进行分隔,使用者可以指定任何的字符串做为用户名密码,监听端口如果不修改的话,默认是8080。下面需要调用Heritrix的主类org.archive.crawler.Heritrix来启动heritrix。当然,在运行它的时候,需要为其加上lib目录下的所有jar包,例如(这是在一行上的):
java -Xmx512m-Dheritrix.home=e://heritrix -cp
"E://heritrix//lib//commons-codec-1.3.jar;E://heritrix//lib//commons-collections-3.1.jar;E://heritrix//lib//dnsjava-1.6.2.jar;E://heritrix//lib//poi-scratchpad-2.0-RC1-200

本文档详细介绍了如何在Windows系统下安装和运行开源爬虫工具Heritrix,包括配置Java虚拟机、设置环境变量、启动Heritrix的两种方法,以及在WebUI中创建和配置爬行任务的步骤。

5492

被折叠的 条评论
为什么被折叠?



