试用了一下你做的自动分类建议系统,准确性不错,通过完善一些数据,准确性还有很大的提高。希望hightman能像scws一样开源,大家一起来完善它。 btw: 自动分类建议系统也是用c语言开发的吗?
所有的add/update/del 都是通过API完成的,没有所谓增量与否的说法,你按需要把新数据或变动的数据刷入索引即可。
...,AC ... 那么你给子分类的数据建索引时,加入索引词 A,通过 XSDocument::addTerm 实现。 那么将来搜索 catalog:A 就相当于包含了 AC, AB, AA 的内容了。
...用 scws 分词 xunsearch好像集成了 scws 对于分词 xunsearch 可以通过 XSTokenizer 扩展 我想问的是 既然是 集成scws 那么 1.有没有提供scws的api接口,实现短语分词功能 2.是否可以对scws自定义中文词典,方便扩展
...集团紧连着,这种情况下,我希望把LG也视为en。能不能通过修改rules改变呢?因为我不是太理解un指的是什么,好像助词'的'、标点符号等都被视为un。我在插入全文索引记录的时候,需要排除此类,但又会把像"LG集团"这样的例...
如果只要文章中有Linux出现就算是Linux相关文章的话,其实是不需要分词了,直接用全文搜索Linux就好了。 只是SCWS目前看前来它的自定义词典不支持超过3个字,如果可以的话,可以通过自定义“Linux优化”来指定分词
...接手就是一个全文检索相关的任务,准备使用迅搜,安装通过,并且测试了只有一个warning(看论坛中其他贴子那个警告不影响使用),然后运行了demo程序结果报错,内容如下: [XSException] lib/XS.php(2008): Connection refused(C#111) #0 l...
...叫大,可否有个具体数据指导? 另外,这些新词,我通过官方提供的get_tf.php查询了一百个词,发现: 12.38 < tf
... | 用于缓存项目配置文件的解析结果 | 共计 8 项通过,1 项警告,0 项错误。 配置文件如下 project.name = test project.default_charset = utf-8 server.index = 10.1.20.51:8383 server.search = 10.1.20.51:8384 [id] type = id [title] type = string ...