hi hightman, 我对“Surface上一财年仅为微软创收8.53亿美元,甚至不抵库存调整费用”进行分词,结果是“Surface/en 上一/nz 财/n 年仅/n 为/v 微软/nz 创收/v 8.53/en 亿/m 美元/q ,/un 甚至/d 不/d 抵/v 库存/n 调整/vn 费用/n ”。我在dict_extr...
首先感谢highman的系统,我的网站是www.71114.com(中国企业114黄页),主要使用这套系统检索供求信息。最近发现一个问题,无论是用主键删除还是索引词删除,都无法删掉。不知道是哪里存在问题,还请highman指点一下
...个总热门搜索词 里面发现有 几个是我不想要的,我就想删除掉 http://www.xunsearch.com/doc/php/guide/util.logger 看了这个文档,发现比较好操作 # 删除 demo 项目中 搜索日志词 word util/Logger.php --del=word demo 这样就可以了, 可是现...
...是新增词 2.0 再试一个 1.0 1.0 @ ; 以下词为删除项 删除 1.0 1.0 ! scws -d /usr/local/scws/dict_extra.txt -c utf-8 我是新增词 我 是 新 增 词 再试一个 再试一个
...是因为词库里居然有个错误的词叫“民医院”!! 建议删除该词重新生成词典或,写一个附加词典标记为删除。内容如下,保存为名字 del.txt,然后在分词前加入一句 $scws->add_dict('/path/to/del.txt', SCWS_XDICT_TXT); 如果您不会制作词...
...于词库太大干扰所致,建议可以附加一个小词典(目的是删除这些无用词汇,以下我写出来作参考,把下面的文字存成dict.txt,然后在原有的set_dict之后加上 scws_add_dict(s, 'path/to/this_ad_dict.txt', SCWS_XDICT_TXT); 这样使文本词典生效. 其...
... 存于系统临时目录),故建议TXT词库不要过大! 5) [b]删除词作法[/b],请将词性设为“!“,则表示该词设为无效,即使在其它核心库中存在该词也视为无效。 2. [libscws] 新增 int scws_has_word(const char *xattr); 和 scws_top_t scws_get_wo...
... 存于系统临时目录),故建议TXT词库不要过大! 5) [b]删除词作法[/b],请将词性设为“!“,则表示该词设为无效,即使在其它核心库中存在该词也视为无效。 2. [libscws] 新增 int scws_has_word(const char *xattr); 和 scws_top_t scws_get_wo...
dict_user.txt 里写是对的,词性不要用叹号,随便写个别的吧。叹号表示删除此词,不分就要让它成为词啊。
...为 dict.utf8.xdb 即可 3. dict_extra.txt 也必须是UTF-8编码 4. 删除词条,因为陈凯歌其实可能是因为人名关系导致切成词,可能会不受词典影响 5. 如果你非要用gbk 源码中 set_charset() 的参数就为 'gbk' 或默认的不要加上 'utf8'