...词,只载入自定义的屏蔽词库,但好像英文及中英文混合分词都无效。 譬如: $so = scws_new(); $so->set_charset('utf8'); $so->set_dict('words.txt',SCWS_XDICT_TXT); $so->set_ignore(true); $so->send_text("GMhello指导员"); echo ''; while ($tmp = $so->get_result()) { var_d...
...利。 然后下载官方DEMO(源码另存为)来运行的时候,分词结果不对,不明其中原因。 DEMO:http://www.ftphp.com/scws/demo/v48.php 输入的文本也是官方DEMO一样的,分词结果如下: ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 陈凯歌 并 ...
杯具的分词词库和规则集导致这个结果, 稍后我看能不能简单调整一下规则集来获得比较好的效果。 查到原因了,是因为词库里居然有个错误的词叫“民医院”!! 建议删除该词重新生成词典或,写一个附加词典标记为删除。...
[root@IDC-D-1115 etc]# /usr/local/scws/bin/scws -i 我今天看到了一条狗 我 今 天 看 到 了 一 条 狗 +--[scws(scws-cli/1.1.8)]----------+ | TextLen: 18 | | Prepare: 0.0001 (sec) | | Segment: 0.0001 (sec) | +--------------------------------+ ...
这个是最新一期的更新修改的,当数字、字母连续3个以上时就不作为混杂元素了,会将它们切开。 起初是因为 iso9001 没有切词导致搜索 iso 或 9001均搜索不到
我知道我的问题出在哪了,我把这个文件存储为UTF8格式的文件就好了,输出结果就正常了。
需要指定词典位置,比如: # scws -A -d /hp/opt/scws/dict/default.utf8.xdb:/home/vanni/scws/mydict.txt -c utf8 "相宜本草洗面奶和雅漾舒护活泉水哪个好" 相宜/a 本草/nz 洗面奶/nz 和/c 雅漾/@ 舒护/@ 活泉水/@ 哪个/r 好/a
词库没有正确加载,你检查一下 /usr/local/scws/etc/ 下的 .xdb 的文件属性,默认.tar.bz2 解开有可能是600,建议 chmod a+r /usr/local/scws/etc/*
...人民医院 广西西林县人民医院 广州市第八人民医院 分词后为 甘肃省 天水市 秦城区 人民 医院 广东省 佛山市第一人民医院 广东省 江门市 第三人 民医院 广东省 粤北 人民 医院 广饶县 人民 医院 广西 防城港市 防...