Heritrix的介绍与使用

最新推荐文章于 2025-11-15 17:58:27 发布

原创最新推荐文章于 2025-11-15 17:58:27 发布 · 806 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#开源框架 #网络爬虫

网络爬虫专栏收录该内容

5 篇文章

订阅专栏

本文详细介绍了如何使用Heritrix网络爬虫框架进行网页抓取，包括基本使用、拓展抓取逻辑及配置文件修改等步骤，旨在帮助开发者高效地实现网页数据收集。

强大的网络爬虫框架--Heritrix：基于多线程的高效率的网络爬虫框架。

第一部分：介绍Heritrix的基本使用（首先需要从Heritrix的官网上下载相应的项目）

1.导入jar包需要注意在项目根目录下添加lib文件夹，然后将相关联的jar包添加进去
2.拷贝源代码 src-java con/org/st运行Heritrix所必需的核心代码，拷贝到项目MyHeritrix目录下
src\resources\org\archive\util util-tids-alpha-domain.txt顶级域名列表拷贝到MyHeritrix\src\org\archive\util中
src-conf文件夹运行Heritrix运行所需的配置文件，拷贝到MyHeritrix根目录下
src-webapps文件夹提供servlet引擎的，包含了Heritrix的Web UI文件，拷贝到MyHeritrix根目录下
如果想使用帮助，可以将heritrix-1.14.4.zip/docs中的articles文件夹拷贝到MyHeritrix\webapps\admin\docs(需新建docs文件夹）下。
3.修改配置文件（heritrix.properties）
heritrix.cmdline.admin = admin:admin设置用户名/密码
heritrix.version = 1.14.4设置版本参数
4.运行配置文件（配置运行的工程）
5启动MyHeritrix服务启动入口程序：MyHeritrix.java
6.进入登录界面 http://localhost:8080
7.进入Heritrix控制台
创建抓取任务 job(http://www.bjfu.edu.cn/为入口）（Queue/ExtractLink/FileDownloader)
Modules 设置处理模块
设置Settings
启动任务（Start-启动任务）

第二部分：拓展自己的网页抓取逻辑
1.介绍Heritrix架构和URL处力链
2拓展FrontierScheduler 重写schedule()
3.在modules文件夹中的Processor.options中添加一行“org.archive.crawler.postprocessor.FrontierSchedulerForBjfu|FrontierSchedulerForBjfu”
4.在WebUI中选择拓展的org.archive.crawler.postprocessor.FrontierSchedulerForBjfu选项