jcseg-1.9.0 发布 - 英文同义词追加+中英任意组合识别

jcseg 1.9.0版发布,修复了“小数+单位”组合识别问题,优化了中英混合词的识别,支持更多非中文单位,新增英文同义词功能,并提供保留未识别字符的开关选项,适用于Lucene和Solr的分词接口。

jcseg是使用java开发的一款开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.

jcseg-1.9.0发布了, 具体更新如下:

1. 修复"小数+单位"组合无法识别的情况.更改ASegment#isDigit()方法.

2. 词库加载长度限制(长度大于max_length的过滤掉).

3. 更改中英混合词的识别(目前可以识别中英任何一种组合).
    英中: 例如: b超,
    英中英: a美1,
    英中英中: a哆啦a梦,
    中英: 卡拉ok, 
    中英中: 哆啦a梦, 
    中英中英: 中文a美a
3. 更改了单位组合, 现在可以组合更多非中文单位, 例如: ℃,℉

4. 对于未识别的字符, 给定一个开关选项(jcseg.keepunregword)来决定保留还是过滤.
    这个一直备受增益: jcseg对于不识别的符号直接过滤掉了, jcseg目前已经识别中英文中任何字符和标点包括一些特殊标点, 那么其他的不识别符号的保留在检索领域并不是一个好的选择, 这里加上了一个开关选项, 用户可以自己定义去留...

5. 英文同义词的追加 (增加了lex-en.lex词库)

同时开发帮助文档没变

jcseg详细介绍/下载: http://code.google.com/p/jcseg/

祝大家心情愉悦.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值