...s setDict(string $fpath, int $mode=NULL) $fpath string 服务端的词典路径 $mode int 词典类型, 常量: SCWS_XDICT_XDB|SCWS_XDICT_TXT|SCWS_XDICT_MEM {return} XSTokenizerScws 返回对象本身以支持串接操作 源码: sdk/php/lib/XSTokenizer.class.php#L283 (...
如果只要文章中有Linux出现就算是Linux相关文章的话,其实是不需要分词了,直接用全文搜索Linux就好了。 只是SCWS目前看前来它的自定义词典不支持超过3个字,如果可以的话,可以通过自定义“Linux优化”来指定分词
[quote='hightman' pid='3722' dateline='1364360180'] 你这个词典是在 etc/dict_user.txt 还是项目目录下的 data/app/dict_user.txt ? 如果是后者需要升级到 1.4.6-dev 才支持,前者必须在改词典后重启 xs-searchd [/quote] 我今天升级到1.4.6了,词典在etc/d...
...s addDict(string $fpath, int $mode=NULL) $fpath string 服务端的词典路径 $mode int 词典类型, 常量: SCWS_XDICT_XDB|SCWS_XDICT_TXT|SCWS_XDICT_MEM {return} XSTokenizerScws 返回对象本身以支持串接操作 源码: sdk/php/lib/XSTokenizer.class.php#L299 (...
哦,我没有说清楚,我用的是PHP版的,是一个词典文件,生成两次XDB,每次里面的分格符不同,上面说的。 我还有就是刚才我试了,我用我自定义的词生成词典,用scws_set_dict添加我的词典后(词典中的word TF IDF 都很高的,记...
每个线程需要单独的SCWS实例 ,词典和规则集倒是可以共用的,主线程正常操作,其它线程可以在 scws 创建后通过 thread_scws->d = main_scws->d; thread_scws_r = main_scws->r; 来共用它们,因为词典和规则集都是只读而且各API都是线程安全...
...不需要更改, 只需要将rules.utf8.ini和dict.utf8.xdb改为繁体的词典即可. 词典制作参见相关代码里的工具 scws-1.0 里包含了词典制作工具. 顺便奉上之前整理制作的繁体数据. [url]http://www.hightman.cn/down/rules_cht.utf8.ini[/url] [url]http://www....