57、自动关键词提取与近似 VLDC 模式匹配技术解析

自动关键词提取与近似 VLDC 模式匹配技术解析

1. 自动关键词提取实验

1.1 数据划分

将文档集分为两部分:99 篇文本用于寻找假设,其余 29 篇用于测试。这种划分仅考虑主题多样性,具有一定随机性,导致两组中正负例比例略有差异。具体数据详情如下表所示:
| | 正例数量 | 正例百分比 | 负例数量 | 负例百分比 | 总数 |
| — | — | — | — | — | — |
| 训练集 | - | - | - | - | 99 |
| 测试集 | - | - | - | - | 29 |
| 全集 | - | - | - | - | 128 |

1.2 方法:Virtual Predict 系统

  • 系统基础 :基于机器学习领域的最新发展,特别是归纳逻辑编程,可视为标准决策树和规则归纳系统的升级。
  • 特点
    • 能生成更具表现力的假设,并在归纳过程中融入更丰富的背景知识(逻辑程序)。
    • 可根据需要模拟低表现力但计算成本低的标准技术。
    • 融入了 Boosting 技术(AdaBoost),通过调整训练示例的概率分布,使学习算法聚焦于之前分类错误的示例。
    • 允许对不同类别的实例赋予不同权重,在数据集不平衡时非常有用。
  • 训练阶段 :仅关注与每个单词相关的特征值,不考虑上下文数据,如单词在文档中的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值