[quote='hpxl' pid='7811' dateline='1400033006'] sdk/php/app/demo.ini配置 [id] type = id [/quote] 是scws-1.2.2 的如何让它支持自已定义的英文词库? 像http://bbs.xunsearch.com/showthread.php?tid=3088 这样修改代码吗?
基于我的数据库,我搜索“OL”并显示10个记录,显示匹配结果数目有526条。 当我搜索“OL”并显示10个记录,跳过18个记录的时候,显示匹配结果数目还是526条。 关键是我搜索“OL”并显示10个记录,跳过19个记录的时候,显...
用pscws4分词,为什么只打印出里面的数字,中文直接不分词打印,网页编码是utf8 function get_tags_arr($title){ require 'pscws4/pscws4.class.php'; $pscws = new PSCWS4(); $pscws->set_dict('scws/dict.utf8.xdb'); $pscws->set_rule('scws/rules.utf8.ini'); $pscws->set_ign...
[quote='hightman' pid='7112' dateline='1320310178'] 那些全被视为符号了。。。符号其实是指 词性为 un 的 [/quote] 那很奇怪,我用WINDOWS下的DLL ,他就不会把全角字符这个给去掉
hi,hightman, 你好,我现在用切词,发现中英文混合的英文超过2个就被切分了,要怎么才能取消这个限制呢?比如有个词是 "某某大学MBA", 不要被切分成两个词,希望能得到解答。
找到乱码原因了,不过不知道我这个是不是和他们的一样,我是因为没有指定搜索条件,测试的时候谁会想到是这个问题呢,哎。。。
这是分词的策略问题,这种情况可以自定义分词器来补充。。。 将你的词复制到 [url]http://www.xunsearch.com/scws/demo/v4.php[/url] 进行实测,分割结果为: E14188m E14188 14188 14188m 那么搜索以上4个词都是可以搜索到的,至于你从中提取 e...