非常感谢,其他扩展的源码我也看过,其中有大量的宏不明白是什么意思,看了一些资料明白了其中的一部分。
[quote='hightman' pid='4506' dateline='1303195392'] 新版会开发一个API直接在函数里生成临时词库供调用。 [/quote] 感谢管理员回复. 其实我的意思大概可以简化为: 最长分词模式. 分出来的词要达到符合语法的最长.这个难度估计不小,呵呵...
是这样的,我使用XSTokenizerScws进行分词 [php] $tokenizer = new XSTokenizerScws; $tk = $tokenizer->setIgnore(true)->setMulti(11)->getResult("是一"); print_r($tk); [/php] 结果是 [quote] Array ( [0] => Array ( [off] => 0 [attr] => m ...
...析,取出权重以及出现频率比较高的, 作为这条信息的一个最高检索依据,然后在用户搜索的时候 对再对用户输入的关键字/词进行分析, 然后用关键字分词的结果到数据库进行搜索, 最终用户看到的结果, 首要的排序依据 ...
最近在研究PHP扩展的开发,看了一些资料,发现没有一篇文章、一份资料能非常全面的把PHP扩展开发讲明白,hightman写的scws的php扩展非常好,可以分享一下参考了哪些资料,还有经验总结么?
其实SCWS内部是允许最多2个非中文字符夹杂中文成词的,超过2个的就无效了。 比如”Q币“,”T恤“这种是支持的。像你这么长的编号支持通用性不强。。
其实在 xunsearch 的世界里,你的情况完全可以这样作。。。。 假设分类字段 catalog ID为 A 下的子分类为 AA,AB,AC ... 那么你给子分类的数据建索引时,加入索引词 A,通过 XSDocument::addTerm 实现。 那么将来搜索 catalog:A 就相当于包...