搜索

大约有 10 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.2961秒)

1.RE: 分词不对

更新时间:2010-04-30 13:04 t By hightman

呃确实存在,这都跟这个词库有关系,是互联网上整理的词库,像“法上”居然是专有名词而且权重很高。。。 可以考虑删除“法上”这个错误的词,外挂一个文本词典把“法上”标记为删除或设成更低权重及词性

2.RE: [2010] SCWS-1.1.5 发布,修正一些BUG,支持文本词典实现自定义词库啦!!

发布时间:2011-03-08 19:03 t By binux

...是新增词 2.0 再试一个 1.0 1.0 @ ; 以下词为删除删除 1.0 1.0 ! scws -d /usr/local/scws/dict_extra.txt -c utf-8 我是新增词 我 是 新 增 词 再试一个 再试一个

3.RE: 词库词性标注问题反馈

发布时间:2012-09-19 14:09 t By hightman

我看到就删除,烦死了,一点办法也没有。

4.RE: [2010] SCWS-1.1.3 发布,支持文本词典实现自定义词库啦!!

更新时间:2010-11-13 10:11 t By snakeyasin

... 存于系统临时目录),故建议TXT词库不要过大! 5) [b]删除词作法[/b],请将词性设为“!“,则表示该词设为无效,即使在其它核心库中存在该词也视为无效。 2. [libscws] 新增 int scws_has_word(const char *xattr); 和 scws_top_t scws_get_wo...

5.RE: [2010] SCWS-1.1.3 发布,支持文本词典实现自定义词库啦!!

发布时间:2012-11-06 22:11 t By umland

... 存于系统临时目录),故建议TXT词库不要过大! 5) [b]删除词作法[/b],请将词性设为“!“,则表示该词设为无效,即使在其它核心库中存在该词也视为无效。 2. [libscws] 新增 int scws_has_word(const char *xattr); 和 scws_top_t scws_get_wo...

6.RE: 对医院的分词不太理想

更新时间:2010-09-07 18:09 t By hightman

...是因为词库里居然有个错误的词叫“民医院”!! 建议删除该词重新生成词典或,写一个附加词典标记为删除。内容如下,保存为名字 del.txt,然后在分词前加入一句 $scws->add_dict('/path/to/del.txt', SCWS_XDICT_TXT); 如果您不会制作词...

7.[2013] SCWS-1.2.2 发布,BSD协议、支持自定义词库、PHP5.4

更新时间:2013-07-11 21:07 t By hightman

...做更有利于全文检索。 [b]scws-1.1.7 发布于 2011-05-21[/b] 1) 删除 __PARSE_XATTR__ 宏中企图修改 xattr 的内容的作法, 当 xattr 为常量字符串时会出错. 2) 调整 config.h 的包含方式移入 .c 文件而非 .h 文件 3) 增加一些PHP测试脚本, 位于phpext...

8.RE: 请教:关于地市信息的分词结果,如何更准确?

发布时间:2010-09-26 20:09 t By hightman

...于词库太大干扰所致,建议可以附加一个小词典(目的是删除这些无用词汇,以下我写出来作参考,把下面的文字存成dict.txt,然后在原有的set_dict之后加上 scws_add_dict(s, 'path/to/this_ad_dict.txt', SCWS_XDICT_TXT); 这样使文本词典生效. 其...

9.http-scws(基于scws的http协议中文分词) 更新至2.0版

更新时间:2011-06-27 20:06 t By smallevil

...,请求更简单 功能: 1.词库为文本文件方式,增加、删除更方便 2.支持gbk与utf-8(基于scws功能) 3.运行中可修改词库,不停服务只需一个命令即可使新词库生效 4.最大150K文本提交 5.可分词、提取高频词 6.支持GET与POST方式 7....

10.RE: 官方和提供的下载不一样,并且官方实例还写了错误代码

更新时间:2010-07-14 21:07 t By sulwan

...为 dict.utf8.xdb 即可 3. dict_extra.txt 也必须是UTF-8编码 4. 删除词条,因为陈凯歌其实可能是因为人名关系导致切成词,可能会不受词典影响 5. 如果你非要用gbk 源码中 set_charset() 的参数就为 'gbk' 或默认的不要加上 'utf8' [/quote] ...

  • 时间不限
  • 按相关性排序