书上的分析和解法,其实是如何在一个序列中寻找另一组关键词数组。解法二好像是记录了下次扫描的开始地址。但有个问题是,“微软亚洲研究院”如果分词会成为“微软/亚洲/研究院”,这样W数组中的词是分过的,而Q数组里面的是没有分词过的,如何匹配呢。其中提出的最短长度也没有搞清楚是什么。感觉有点迷糊,先把问题留下,以后再考虑吧。
读书笔记之编程之美 - 3.5 最短摘要的生成
最新推荐文章于 2014-03-12 14:04:14 发布
本文探讨了在一个序列中查找另一组关键词的问题。特别关注了当待匹配的关键词被分词处理后的匹配策略,以及如何处理不同粒度的关键词。提出了对于‘微软亚洲研究院’这样的复合词在分词后如何与未分词的词组进行匹配的问题。

4207

被折叠的 条评论
为什么被折叠?



