呃确实存在,这都跟这个词库有关系,是互联网上整理的词库,像“法上”居然是专有名词而且权重很高。。。 可以考虑删除“法上”这个错误的词,外挂一个文本词典把“法上”标记为删除或设成更低权重及词性
...是新增词 2.0 再试一个 1.0 1.0 @ ; 以下词为删除项 删除 1.0 1.0 ! scws -d /usr/local/scws/dict_extra.txt -c utf-8 我是新增词 我 是 新 增 词 再试一个 再试一个
... 存于系统临时目录),故建议TXT词库不要过大! 5) [b]删除词作法[/b],请将词性设为“!“,则表示该词设为无效,即使在其它核心库中存在该词也视为无效。 2. [libscws] 新增 int scws_has_word(const char *xattr); 和 scws_top_t scws_get_wo...
... 存于系统临时目录),故建议TXT词库不要过大! 5) [b]删除词作法[/b],请将词性设为“!“,则表示该词设为无效,即使在其它核心库中存在该词也视为无效。 2. [libscws] 新增 int scws_has_word(const char *xattr); 和 scws_top_t scws_get_wo...
...是因为词库里居然有个错误的词叫“民医院”!! 建议删除该词重新生成词典或,写一个附加词典标记为删除。内容如下,保存为名字 del.txt,然后在分词前加入一句 $scws->add_dict('/path/to/del.txt', SCWS_XDICT_TXT); 如果您不会制作词...
...做更有利于全文检索。 [b]scws-1.1.7 发布于 2011-05-21[/b] 1) 删除 __PARSE_XATTR__ 宏中企图修改 xattr 的内容的作法, 当 xattr 为常量字符串时会出错. 2) 调整 config.h 的包含方式移入 .c 文件而非 .h 文件 3) 增加一些PHP测试脚本, 位于phpext...
...于词库太大干扰所致,建议可以附加一个小词典(目的是删除这些无用词汇,以下我写出来作参考,把下面的文字存成dict.txt,然后在原有的set_dict之后加上 scws_add_dict(s, 'path/to/this_ad_dict.txt', SCWS_XDICT_TXT); 这样使文本词典生效. 其...
...,请求更简单 功能: 1.词库为文本文件方式,增加、删除更方便 2.支持gbk与utf-8(基于scws功能) 3.运行中可修改词库,不停服务只需一个命令即可使新词库生效 4.最大150K文本提交 5.可分词、提取高频词 6.支持GET与POST方式 7....
...为 dict.utf8.xdb 即可 3. dict_extra.txt 也必须是UTF-8编码 4. 删除词条,因为陈凯歌其实可能是因为人名关系导致切成词,可能会不受词典影响 5. 如果你非要用gbk 源码中 set_charset() 的参数就为 'gbk' 或默认的不要加上 'utf8' [/quote] ...