需要增加一个新词“中国梦”。 使用的php XDB工具,增加词库后导入生成xdb文件。 重新生成coreseek的索引 索引的时候还是搜不出来这个词。 我确认使用的是utf-8 no-bom头的格式。 请问如何解决。谢谢
...http封装,请求更简单 功能: 1.词库为文本文件方式,增加、删除更方便 2.支持gbk与utf-8(基于scws功能) 3.运行中可修改词库,不停服务只需一个命令即可使新词库生效 4.最大150K文本提交 5.可分词、提取高频词 6.支持GET与POST...
...,我们最近在postgresql整合了scws,效果很棒,现在我们自己增加了一些词库,不知道xdb与txt相比,那个效率更高 另外,scws对于中英文分词效果不是很好,即文中的中文分得还可以,但对于页面中的英文部分,包括email,url,host这...
...法也直接返回对象本身,以支持串接操作。 util.Quest 增加了 --show-query 功能用于查看解析后的内部搜索语句。 4. util.Indexer 增加了 --filter 指定数据过滤器,可以在数据入库前有一次处理的机会。 [url]http://www.xunsearch.com/doc/ph...
有个问题想请教下hightman大大,似乎0.0.1-pre版本的词库增加了词性标注,这对我很有帮助。想请教一下如何把0.0.1-pre版本的dict.xdb转换成txt呢?我找到了您发布的scws-v23里面的mk_txt.php,但是好像和新版本的xdb词库不兼容,能否麻...
..., s->mblen); }[/code] 建议 hightman 修改一下以上两个函数,增加一下判断即可。或者 提交到 google code 的svn上,大家来修改维护这个中文分词项目。
...该可以通过修改 _scws_ssegment() 来实现,大概在 332 行前后增加代码,判断如果当前字符串全部是数字或并且以%结尾则视为一个数字(像处理点号0x2e一样,数字中只允许一个.)。不过这样可能对于一些情况会误处理,比如代码中...
还有就是内存的问题,因为我希望在服务器端有个自动生成词库的功能,命令行方式不是很方便。 主要是用机器先自动分词,人工发现不合理,再把新词增加进去。