你可以正常分词试试,然后打印一下词的 attr 属性到底是不是* 号 我估计是不是你自定义词典先于默认词典加载,导致attr属性被覆盖了?
开始一直在取舍,最后敲定了scws 经过部分测试,scws的分词还是比较准确的, 当然还是需要大量的数据测试, 以及一段时间的试运行才会有更好的结果。 就是社区稍显冷清。。呵呵 新项目内部命名为super.maria 。 策划了有一...
...后只有181298条呢?我重装了好几次xunsearch都只能索引到一部分,希望大神帮忙看看,多谢!
是判断指定词性 我自定义词库格式如下: 销售什么 1.0 1.0 * 出售什么 1.0 1.0 * 出售各式 1.0 1.0 * 某词 1.0 1.0 * scws_t s=scws_new(); 用下面这个函数可以分出“某词”, scws_get_tops(s,1000,N...
PHP的扩展部分有DLL,C库部分因为我也不熟WIN平台,但有提供源码,如果你会弄就帮弄一下我可以在发布包中一并提供。 像你这样的情况因为“沈阳若”被识别为姓名了,这是一种比较难以决断的岐议,要说分成“小”“沈阳若...
...t mode) { s->mode &= ~SCWS_MULTI_MASK; //清空s->mode的0x12345,中12部分,345部分保留原值 if (mode & SCWS_MULTI_MASK) //mode的12部分保留,345部分清0 s->mode |= mode; } mode取值为1的话=0x00000001,mode & SCWS_MULTI_MASK怎么会为真呢?
...ch 采用结构化分层设计,包含后端服务、前端开发包两大部分,层次清晰而不交叉。 其中后端是采用 C/C++ 编写的守护进程,而前端采用最为流行的脚本语言 PHP ,对于 web 搜索项目更为方便。 具体参见架构设计。 [/quote] 注释...
...请参阅 [XSDocument 文档](class.document) 中关于**索引文档**的部分。特别要指出 的是,文档中的主键字段值必须明确指定(即类型为 `ID` 的字段),否则在添加、 更新过程中会抛出异常,其余字段若未指定则相当于忽略这些字段。 ...
...取出来的数据也不对啊 我按id从大到小结果出来的是一部分一部分的大到小的排序。这是什么原因。 :s求解啊 不懂啊 还有addWeight('name', '护士')这个的加权排序没有用啊
发现xunsearch很有前途的。 如果能够再将爬虫部分也一起组合起来,并提供前端PHP页面。。。提供一体化的解决方案就更方便了。。。。