研发笔记（六续）从词性标注到DNA序列元件

原创已于 2025-12-22 13:01:28 修改 · 222 阅读

·

3

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#笔记

于 2025-12-22 12:54:00 首次发布

研发学习记录同时被 2 个专栏收录

8 篇文章

订阅专栏

新技术快读，旧知拾遗与联系

3 篇文章

订阅专栏

NLP分词中，除了上文介绍的前向或后向的动态规划算法之外，现在更多采用的是通过标注BMSE四种词性，来使用维特比算法得到最佳分词。

B : 某个分词的第一个字 M: 某个分词中间的字 E: 某个分词最后一个字 S: 这个字单独作为一个分词

例如：'我喜欢蔬菜' --正确词性标注为------> SBEBE 则分词为 '我/喜欢/蔬菜'

'维特比算法是针对一种特殊的有向图' ----->BMEBESBESSBESBME 分词为：‘维特比/算法/是/针对/一/种/特殊/的/有向图’

当然实际如何分词是正确的是根据词库得到的，是可以调整的。

这个特殊的有向图就是lattice图，找到从第一个字到最后一个字的概率最大路径即可以找到最佳分词，与上篇文章相同的原理，概率最大可以转化为负对数相加，即路径最短，如果穷举路径则计算上不可接受。

实际每个点走向下一个节点的路径有4×4=16种（Start有4条，实际一般只有BS两条），这里仅给出一条路径。维特比算法就是找到一条从start到最后W_N的BMSE的最短路径。其原理为：

定义i-1 到i节点的加权距离 d(Tᵢ₋₁,Tᵢ)= -logP(Tᵢ|Tᵢ₋₁)·P(Wᵢ|Tᵢ)

维特比算法如下：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

尖端科技---产学研 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。