自动关键词提取与近似 VLDC 模式匹配技术解析
1. 自动关键词提取实验
1.1 数据划分
将文档集分为两部分:99 篇文本用于寻找假设,其余 29 篇用于测试。这种划分仅考虑主题多样性,具有一定随机性,导致两组中正负例比例略有差异。具体数据详情如下表所示:
| | 正例数量 | 正例百分比 | 负例数量 | 负例百分比 | 总数 |
| — | — | — | — | — | — |
| 训练集 | - | - | - | - | 99 |
| 测试集 | - | - | - | - | 29 |
| 全集 | - | - | - | - | 128 |
1.2 方法:Virtual Predict 系统
- 系统基础 :基于机器学习领域的最新发展,特别是归纳逻辑编程,可视为标准决策树和规则归纳系统的升级。
- 特点 :
- 能生成更具表现力的假设,并在归纳过程中融入更丰富的背景知识(逻辑程序)。
- 可根据需要模拟低表现力但计算成本低的标准技术。
- 融入了 Boosting 技术(AdaBoost),通过调整训练示例的概率分布,使学习算法聚焦于之前分类错误的示例。
- 允许对不同类别的实例赋予不同权重,在数据集不平衡时非常有用。
- 训练阶段 :仅关注与每个单词相关的特征值,不考虑上下文数据,如单词在文档中的
超级会员免费看
订阅专栏 解锁全文

4933

被折叠的 条评论
为什么被折叠?



