...没有绝对的谁优谁劣,似乎半斤八两。 两者都是基于词典词频查询,推荐词典格式为 cdb,因为它在 PHP 中有捆绑而且同时支持 windows 和 *Unix* ,只需要在PHP编译时加入 --with-dba --with-cdb 即可,在 windows 中打开 php-dba.dll 扩展就行...
...页显示编码也是用的gbk。 然后我用记事本打开XDB 格式的词典文件dict.xdb,效果如下: XDB"/B ? ?? 悯H@ % G ! ? ! p # Z # ! ? # ? ) ? ! ? ! ! ? % ? ! ? ! ;* # P- # -0 ! ? % ? # ? # 5= # A ! 鰾 ! tG ! bJ ' ㎜ ! 頝 # 稱 ! zT !...
使用的是scws-1.2.1 对“有空间”这个句子进行分词,理想的结果应该是“有空 空间” 但实际结果是“有空 间” 即使通过scws_add_dict()添加了自定义的txt字典(里面只包含“空间 11.82 12.38”一行),仍然分不出“空间”这个词。...
... 斯 蒂 芬 [b]罗铭 罗 铭 罗[/b] 大大 大 大 罗 我的自定义词典为: 铭罗 1 0 n 罗铭 1 0 n 我的原意是想分出我的词典中所有的单词:“罗铭” “铭罗”,但加入到自定义词典后,却完全没有了“铭罗”这个词。 问题2...
...ict_chs_gbk.xdb", SCWS_XDICT_MEM); 这句话出了问题, 也就是可能词典不正确. 但这个词典目前测试在64位系统下也是可以正常工作的, 检查一下词典的字节数是不是没有下载完整. [/quote] 谢谢您的回复,词典是用README中提供的命令生成...
... xunsearch 服务端,那么每个服务端独自使用自己的自定义词典文件。 添加删除修改自定义词库只要编辑该文件即可,以下为相关规范: - 文件为纯文本文件,编码必须是 UTF-8,可用任何编辑器修改 - 每行一条记录表示一个词...
由于词库太大干扰所致,建议可以附加一个小词典(目的是删除这些无用词汇,以下我写出来作参考,把下面的文字存成dict.txt,然后在原有的set_dict之后加上 scws_add_dict(s, 'path/to/this_ad_dict.txt', SCWS_XDICT_TXT); 这样使文本词典生效. ...
...s setDict(string $fpath, int $mode=NULL) $fpath string 服务端的词典路径 $mode int 词典类型, 常量: SCWS_XDICT_XDB|SCWS_XDICT_TXT|SCWS_XDICT_MEM {return} XSTokenizerScws 返回对象本身以支持串接操作 源码: sdk/php/lib/XSTokenizer.class.php#L283 (...
...s addDict(string $fpath, int $mode=NULL) $fpath string 服务端的词典路径 $mode int 词典类型, 常量: SCWS_XDICT_XDB|SCWS_XDICT_TXT|SCWS_XDICT_MEM {return} XSTokenizerScws 返回对象本身以支持串接操作 源码: sdk/php/lib/XSTokenizer.class.php#L299 (...
...pian的queryparser中了,我想直接加入新的 scws_add_dict 把我的词典搞进来就行,不过没看到文档有描述词典格式的