基于词典的句子对齐与词法语义分类学研究
1. 基于词典的多语言句子对齐
在进行双语句子完全对齐时,会从源/目标词对(S, W)集合中选择双语词典条目,选择依据如下:
- 条件一:S 和 W 的出现频率必须超过一个阈值(当前为 1)。
- 条件二:比率 RS,W = Freq(S,W )/(Min(FreqS, FreqW ) + 1) 超过一个阈值(当前为 0.5),其中 FreqX 是 X 的出现频率。例如,若 S 出现 2 次,T 出现 3 次,且它们共同出现 2 次,那么 RS,W = 2/3.1。
这个过程会在同一双语语料上多次使用,每次丰富词典的迭代通常都会提高后续对齐的质量。
与其他方法相比,本获取过程有两个主要差异:
- 本方法从对齐的句子对中获取词典条目,而其他方法考虑候选句子集中的词对。
- 其他方法在确定是否将一个词对添加到双语词典时会同时考虑 FreqS 和 FreqW,而本方法只考虑 Min(FreqS, FreqW)。
1.1 西班牙语/英语微软帮助文本实验
- 数据准备 :手动对齐了微软 Excel 双语语料的一个子集,其中包括 1341 行西班牙语文本和 1350 行英语文本作为训练数据,之后又手动对齐了 181 行西班牙语文本和 184 行英语文本用于测试。
- 运行时间 :在特定配置的 Quantex PC 上,使用 1 对 1 算法处理训练数据需要 2 分 49 秒(实际时间,即 0.125 秒/句子),使用 2 对 1 算法需要 6 分 18 秒(即 0.
超级会员免费看
订阅专栏 解锁全文

2775

被折叠的 条评论
为什么被折叠?



