低资源美洲原住民语言的自然语言处理进展
1. 因纽纳克通语的无监督形态分割
1.1 研究背景
自然语言处理(NLP)在处理孤立语、屈折语或黏着语等语言类型时取得了显著成就,但美洲原住民的多式综合语在NLP任务和应用中仍面临诸多挑战,如形态分析和机器翻译。这主要是由于这些语言的复杂语言学特性以及语言资源和可靠工具的稀缺。本文聚焦于因纽纳克通语(Inuinnaqtun),这是加拿大北部因纽特语族的一种多式综合语,预计在不到两代人的时间内就会灭绝。
1.2 相关工作
- Morfessor :Creutz和Lagus(2007)提出了Morfessor,用于无监督地发现词素。该工作基于隐马尔可夫模型学习无监督形态分割,并利用词素的层次结构。Morfessor 2.0(Virpioja等人,2013)成为无监督形态分析的基准。
- Adaptor Grammars(AG) :Johnson(2008)提出的AG方法在无监督形态分割方面取得了成功。该方法使用非参数贝叶斯模型推广概率上下文无关文法(PCFG),能够在词素层面进行分割。此后,该方法在多个研究中得到扩展,用于学习非连接形态或对未见语言进行无监督形态分割。Eskander等人(2019)将AG方法应用于低资源多式综合语的无监督形态分割,在F1分数上比监督方法有显著提高。
1.3 研究方法
受Eskander等人(2019)工作的启发,我们采用基于AG的无监督形态分割方法对因纽纳克通语进行实证研究。主要过程包括:
1.
超级会员免费看
订阅专栏 解锁全文

411

被折叠的 条评论
为什么被折叠?



