25、基于词典的句子对齐与词法语义分类学研究

最新推荐文章于 2025-10-31 05:55:31 发布

原创最新推荐文章于 2025-10-31 05:55:31 发布 · 92 阅读

·

0

·

标签

#基于词典的句子对齐 # 词法语义分类学 # MRD

《机器翻译与信息大杂烩》精华专栏收录该内容

64 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于词典的句子对齐与词法语义分类学研究

1. 基于词典的多语言句子对齐

在进行双语句子完全对齐时，会从源/目标词对（S, W）集合中选择双语词典条目，选择依据如下：
- 条件一：S 和 W 的出现频率必须超过一个阈值（当前为 1）。
- 条件二：比率 RS,W = Freq(S,W )/(Min(FreqS, FreqW ) + 1) 超过一个阈值（当前为 0.5），其中 FreqX 是 X 的出现频率。例如，若 S 出现 2 次，T 出现 3 次，且它们共同出现 2 次，那么 RS,W = 2/3.1。

这个过程会在同一双语语料上多次使用，每次丰富词典的迭代通常都会提高后续对齐的质量。

与其他方法相比，本获取过程有两个主要差异：
- 本方法从对齐的句子对中获取词典条目，而其他方法考虑候选句子集中的词对。
- 其他方法在确定是否将一个词对添加到双语词典时会同时考虑 FreqS 和 FreqW，而本方法只考虑 Min(FreqS, FreqW)。

1.1 西班牙语/英语微软帮助文本实验

数据准备 ：手动对齐了微软 Excel 双语语料的一个子集，其中包括 1341 行西班牙语文本和 1350 行英语文本作为训练数据，之后又手动对齐了 181 行西班牙语文本和 184 行英语文本用于测试。
运行时间 ：在特定配置的 Quantex PC 上，使用 1 对 1 算法处理训练数据需要 2 分 49 秒（实际时间，即 0.125 秒/句子），使用 2 对 1 算法需要 6 分 18 秒（即 0.

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。