使用的是scws-1.2.1 对“有空间”这个句子进行分词,理想的结果应该是“有空 空间” 但实际结果是“有空 间” 即使通过scws_add_dict()添加了自定义的txt字典(里面只包含“空间 11.82 12.38”一行),仍然分不出“空间”这个词。...
...的api接口,实现短语分词功能 2.是否可以对scws自定义中文词典,方便扩展 [/quote] 目前没有直接支持自定义词典,而是直接读取 dict.utf8.xdb 你自己改词也必须转换成这个词典文件才能用。 词典转换关于SCWS的网站上有。
多谢建议,这样是否还会转换成需要词典导出的功能了呢,呵呵。只是默认的词库过大,导出其实蛮不方便,还是借助命令行比较好。 等1.1.6估计 会加上这个功能 export_dict(); import_dict() 之类的,直接可以把xdb导出为数组或把...
...没有绝对的谁优谁劣,似乎半斤八两。 两者都是基于词典词频查询,推荐词典格式为 cdb,因为它在 PHP 中有捆绑而且同时支持 windows 和 *Unix* ,只需要在PHP编译时加入 --with-dba --with-cdb 即可,在 windows 中打开 php-dba.dll 扩展就行...
确实是词典有问题,重新下载解压就好了,谢谢管理员 另外这个分词效率和效果都不错,我会向别人推荐的~ [quote='hightman' pid='5070' dateline='1383632500'] 全是 /un 应该是词典不工作。这个词库应该是不依赖机器字节序的啊 TXT没...
目前不行。只能自己生成 scws 的词典并放进 $prefix/etc/dict.utf8.xdb 覆盖 词典可以自己先制作TXT格式在利用SCWs提供的工具转换成XDB格式 [url]http://www.hightman.cn/bbs/showthread.php?tid=712[/url] 这个贴子后面有讲到
这个工具是基于作者的工作的一点点扩展,我不是本项目的开发人员,仅仅是因为需要使用这个功能在我的网站上而基于hightman提供的代码的修改,现在返回给项目,希望更多的人能有用。 原因:我希望给网站提供分词功能,...
全是 /un 应该是词典不工作。这个词库应该是不依赖机器字节序的啊 TXT没有提供下载,但我们提供了PHP的脚本可以将XDB转换成TXT
...的版本为 1.0.0 Release , 该版本稳定可用,而且包含两个文本词典,和转化为 xdb 的工具, 词典编码为 gbk, 将 gbk 转换成 utf8 应该非常简单了, 这里不再细述, 详细情请下载整个软件包以后阅读其中的 README 文件. 最新下载地址: [url=http:...
我想问一下,自定义的词典里,只有word,没有其它TF、IDF、Attr可以吗?能生成吗。 因为我试了直接加载TXT的太慢了,想转换成XDB。