[quote='hightman' pid='3722' dateline='1364360180'] 你这个词典是在 etc/dict_user.txt 还是项目目录下的 data/app/dict_user.txt ? 如果是后者需要升级到 1.4.6-dev 才支持,前者必须在改词典后重启 xs-searchd [/quote] 我今天升级到1.4.6了,词典在etc/d...
... $words, string $dict_file) 从$words数组建立名称为$dict_file的词典,若成功则返回true。$words数组的格式请参考示例,key为词语,value为词频。 这样生成词库,相当有方便,能否也增加一下
...例子。切词速度比原 PHP直接分词要提高数十倍以上。 词典采用的是 .txt 格式,解决了编辑困扰问题。格式非常简单,一行一条目,词与频率之间用(TAB制表符或空格)分开,具体的程序运行说明,请参看发布包中的 README [size=...
文本词典格式,文档多处有提到吧 每行记录包含以下字段 \t\t\t 工具 用法可以 ./gen-scws-dict -h 查看
[quote='hightman' pid='6577' dateline='1309234009'] 文本词典格式,文档多处有提到吧 每行记录包含以下字段 \t\t\t 工具 用法可以 ./gen-scws-dict -h 查看 [/quote] -h 看过.. 不太明白命令规则..
我刚才用统一的词性生成了一个词典,但同一个文件, 生成的大小怎么不同呢, 第一次: 积分 20.0 20.0 @ 中间我是用一个空格格开的,生成后有4M, 第二次: 积分 20.0 20.0 @ 用的是原dict.xdb导出txt后的格式,生成后有10M, ...
...__construct() 构造函数 XSTokenizerScws addDict() 添加分词词典, 支持 TXT/XDB 格式 XSTokenizerScws getResult() 获取分词结果 XSTokenizerScws getTokens() XSTokenizer 接口 XSTokenizerScws getTops() 获取重要词统计结果 XSTokenizerScws g...
...差距有多大?xdb格式没有装入内存,只是在分词过程中去词典文件中查找,每一次分词都要read一次磁盘。xdb全部装入内存采用xtree结构存储,28万词典会占用多大的内存?
这个工具是基于作者的工作的一点点扩展,我不是本项目的开发人员,仅仅是因为需要使用这个功能在我的网站上而基于hightman提供的代码的修改,现在返回给项目,希望更多的人能有用。 原因:我希望给网站提供分词功能,...
由于词典条目多达26万条之巨,在整理的时候已经把很多明显不对的标注或词条清理了,但仍然肯定有很多错误的条目。 主要表现在不是词的列在词里,还有词性标注错误的。本词典中的标注使用的是北大版本的标注集(见附...