好象IP地址也分了.比如:192.168.0.1,结果是: No. WordString Attr Weight(times) ------------------------------------------------- 01. 192.168 en 4.86(1) 02. 0.1 en 2.75(1) http://www.163.com No. WordString A...
这个问题最后我试验了.发现.是由于 词库名字错误.. dict.utf8.xdb 的而我市 dict.xdb 这个就不对了.除非你是gbk 的. 还有就是..我在代码上显式的加载词库.所以也导致词库加载失败 ...十分奇怪.. $so->add_dict(ini_get("scws.default.fpath"...
php.in 的配置 [scws] extension=php_scws.dll scws.default.charset = utf8 scws.default.fpath = "e:/soft/xunsearch/scws" e:/soft/xunsearch/scws目录下的文件: dict.utf8.xdb rules.ini rules.utf8.ini rules_cht.utf8.ini 重新启动apache发现已经启动了这个extention. php 代...
比如我在词述中已导入“创业CEO”这个词,但在输入文章的时候,出现的却是: 创业,CEO 如何将这个词合关成一个单独的词汇? 管理员有办法不?
使用的版本是SCWS-1.2.2 我用自己的词库替换了dict.utf8.xdb,然后尝试分词“朝鲜近日播放的一个纪录片中,发现”,发现“纪录片中”在分词结果中丢失了 Array ( [word] => 朝鲜 [off] => 0 [len] => 6 [idf] => 0 [attr] => @ ) Array ( [word] => 近...
...台机器上装有多个 xunsearch 服务端,那么每个服务端独自使用自己的自定义词典文件。 添加删除修改自定义词库只要编辑该文件即可,以下为相关规范: - 文件为纯文本文件,编码必须是 UTF-8,可用任何编辑器修改 - 每行一...
我想请教一个问题,就是我使用的是C版的scws库,函数scws_set_dict和scws_add_dict加载一个大小为58K的txt字典文件的时候出现了递归的堆栈溢出。但是我将该txt字典转换成xdb文件后再次调用,就不会出现该问题了? 但是如果资源使...
我目前使用自定义词库实现分词,但是通过scws_get_top5()方法获取数据的时候(字母+数字大于等于3个的时候也会返回)。求过滤方案。 $sh = scws_open(); scws_set_charset($sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_set_rule($sh, './r...
...代码,最终功夫不负有心人,成功的避过了中英文混合,使用字典中的词语分词,我用的是 scws-1.2.1.tar.bz2 这个版本,因为不能发附件,如果大家需要联系我: Email: shuyinglee@126.com[hr] 使用方法: 1.To patch tar xfvj scws-1.2.1.tar.bz...
谢谢 hightman 的回答. 不过我确定我市完全按照你说的做的 php.ini 是这样的配置 [scws] extension=scws.so scws.default.charset=utf8 scws.default.fpath=/usr/local/scws/etc 而php 是这样 //分词 $so = scws_new(); $so->set_charset('utf8'); // 这里没有...