我 这 两 天 正 在 尝 试 将 SCWS 我也都到的单字,不是词组。字典应该放在哪里?还是说要怎么设置。php代码是直接copy demo的。我用的是php4的dll
...'#'含义不明确,文档说:# : 表示对应的词是符号系列的单字,没有实际意义,比如日本的假名符号。这类词是不会返回的。 但实际把一些字的属性定义为#,仍然会返回。 (2)命令行工具scws指定-I选项时,不仅会忽略一些标点...
...值,1~15。[b]按位与[/b]的 1|2|4|8 依次表示 短词|二元|主要单字|全部单字。缺省不复合分词。 返回值:无 错误:无 我记得符合 [b]| [/b]应该称为 [b]按位或[/b] 吧。另外这个函数的代码看了觉得有些不对劲: /* hightman.070901: m...
...提取高频词 6.支持GET与POST方式 7.支持短词、二元、主要单字、全部单字(基于scws功能) 8.支持标点过滤(基于scws功能) 简单测试结果: AMD 64位台式机四核CPU,程序加载词库后占用21M内存,使用10进程不间断请求请求,内存无增...
呵呵,多谢hightman![hr] 再针对第三个问题问一下: 如果实现二元分词但无但无单字分词的话以下组合中,是不是要去掉SCWS_MULTI_SHORT? SCWS_MULTI_SHORT | SCWS_MULTI_DUALITY | SCWS_MULTI_ZMAIN | SCWS_MULTI_ZALL
...罗 大大 大 大 罗 [复合分词选项] 最短词 二元 重要单字 全部单字 加入自定义词库后结果为: 阿斯顿 阿斯 斯顿 阿 斯 顿 发 斯蒂芬 斯蒂 蒂芬 斯 蒂 芬 [b]罗铭 罗 铭 罗[/b] 大大 大 大 罗 我的自定义词典为: 铭罗 1 ...
这里需要用到 set_multi,不过鉴于该词先单字后多字,所以达不到“云“+”计算“的效果。 使用 txt 附加词典时请显式地先指定 xdb 词典,以便 txt 词典后生效。 $so->add_dict('dict.xdb', SCWS_XDICT_XDB); $so->add_dict('dict.txt', SCWS_XDICT_TXT); [c...
...分词,返回结果为空 2. 而按照非统计形式分词,结果是单字,没有词组。 3.回头去查,发现原来安装的另外一台32位的1.1.1版本的分词其实也不正常,也是同样的情况,而在windows下面的分词是正常的,是不是我哪里设置错误! ...
要命了,管理员请指点: linux命令行执行: scws 北京大学 -c utf8 -d /usr/local/scws/etc/dict.utf8.xdb -M 3 返回: 北京大学 北京 大学 php调用system执行同样的命令,返回4个单字。