...人民医院 广西西林县人民医院 广州市第八人民医院 分词后为 甘肃省 天水市 秦城区 人民 医院 广东省 佛山市第一人民医院 广东省 江门市 第三人 民医院 广东省 粤北 人民 医院 广饶县 人民 医院 广西 防城港市 防...
在循环中,对同一字符串做分词,会出现不同结果,请问这是什么原因导致?非常感谢! 使用扩展词库结果: 大连金龙钢丝绳 、钢丝绳扣 、合成纤维吊装带 -> 连金龙|成纤维| 大连金龙...
$cws = scws_open("gbk"); scws_set_dict($cws, "./etc/dict.xdb"); scws_add_dict($cws, "./etc/s.txt",SCWS_XDICT_TXT); scws_set_rule($cws, "./etc/rules.ini");
这个是最新一期的更新修改的,当数字、字母连续3个以上时就不作为混杂元素了,会将它们切开。 起初是因为 iso9001 没有切词导致搜索 iso 或 9001均搜索不到
终于编译了,也设置成功,字典位置也很正确,可是分词却不对!! No. WordString Attr Weight(times) ------------------------------------------------- 01. 权利 nr 7.00(2) 02. 陈凯歌 nr 3.50(1) 03. 包括导 ...
...利。 然后下载官方DEMO(源码另存为)来运行的时候,分词结果不对,不明其中原因。 DEMO:http://www.ftphp.com/scws/demo/v48.php 输入的文本也是官方DEMO一样的,分词结果如下: ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 陈凯歌 并 ...
我知道我的问题出在哪了,我把这个文件存储为UTF8格式的文件就好了,输出结果就正常了。
需要指定词典位置,比如: # scws -A -d /hp/opt/scws/dict/default.utf8.xdb:/home/vanni/scws/mydict.txt -c utf8 "相宜本草洗面奶和雅漾舒护活泉水哪个好" 相宜/a 本草/nz 洗面奶/nz 和/c 雅漾/@ 舒护/@ 活泉水/@ 哪个/r 好/a
这个自己编译下csws的扩展就可以了。他已经带了csws的。去csws的目录里编译下PHP的扩展就可以了。