...器来补充。。。 将你的词复制到 [url]http://www.xunsearch.com/scws/demo/v4.php[/url] 进行实测,分割结果为: E14188m E14188 14188 14188m 那么搜索以上4个词都是可以搜索到的,至于你从中提取 e1418 来检索,那是很难有合适的策略去匹配。
正如之前的帖子描述,scws_has_word这个函数可以用来检测非法词。当前我的项目中禁止词是放在数据库里面(为了方便增删改),如果每次加载词典都要把禁止词写到临时文件,然后添加,觉得有点过于麻烦。是否可以提供添加...
我也正想要这个功能,学习一下 单独装scws跟编译好像没什么差别吧 官方能不能直接在SDK里面给出接口啊
是这样的,我使用XSTokenizerScws进行分词 [php] $tokenizer = new XSTokenizerScws; $tk = $tokenizer->setIgnore(true)->setMulti(11)->getResult("是一"); print_r($tk); [/php] 结果是 [quote] Array ( [0] => Array ( [off] => 0 [attr] => m ...
...windows版本,现迁移到ubuntu 64位系统,下载安装了最新版scws,安装过程还算顺利。 测试时发现以下怪现象: 本人使用15000个左右的学校名称做分词测试,约1400条记录返回空白,其它则貌似正常,不知何故。 比如:北京大学、...
最近在研究PHP扩展的开发,看了一些资料,发现没有一篇文章、一份资料能非常全面的把PHP扩展开发讲明白,hightman写的scws的php扩展非常好,可以分享一下参考了哪些资料,还有经验总结么?
其实SCWS内部是允许最多2个非中文字符夹杂中文成词的,超过2个的就无效了。 比如”Q币“,”T恤“这种是支持的。像你这么长的编号支持通用性不强。。
...K) 可是结果什么都没显示。 $so->set_dict("d:\test.xdb", "SCWS_XDICT_XDB") 的调用也正常。 不知道哪里出了问题?
我 这 两 天 正 在 尝 试 将 SCWS 我也都到的单字,不是词组。字典应该放在哪里?还是说要怎么设置。php代码是直接copy demo的。我用的是php4的dll
scws分词不正确的情况 1、中文夹杂连续两个以上英文或数字(例如:程jj序ii员e 正常,程jjj序ii员e 不正常) 2、英文数字组合中,同时含有连续一个以上英文或数字的组合(例如:w1156k 正常,w16ky不正常) 3、含有任意一个...