语音半端到端嵌套命名实体识别技术解析
1. 数据集与模型基础
在语音嵌套命名实体识别(Nested Named Entity Recognition,NER)领域,CNERTA 数据集是重要的研究基础。它是大规模人工标注的中文多模态嵌套 NER 数据集,包含 42,987 条标注句子以及 71 小时的语音数据。该数据集基于 AISHELL - 1 数据集构建,涵盖“金融”“科技”“体育”“娱乐”和“新闻”五个领域。
| 数据划分 | 音频时长 | 平均句子长度 | 最大句子长度 | 嵌套命名实体比例 | 实例数量 | 实体数量 | ORG 数量 | PER 数量 | LOC 数量 |
|---|---|---|---|---|---|---|---|---|---|
| 训练集 | 56.68 h | 19.69 | 39 | 31.25% | 34,102 | 23,805 | 7,066 | 5,846 | 10,893 |
| 开发集 | 7.50 h | 19.77 | 44 |
超级会员免费看
订阅专栏 解锁全文

1672

被折叠的 条评论
为什么被折叠?



