搜索

大约有 60 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.0047秒)

21.添加新的分词无效

发布时间:2013-12-04 15:12 t By mengaifan

$cws = scws_new(); $cws->set_charset('utf8'); $cws->set_rule('D:/Program Files/scws/etc/rules.utf8.ini'); //注意路径 $cws->set_dict('D:/Program Files/scws/etc/dict.utf8.xdb'); $cws->add_dict(ROOT_PATH."inc/spider/dict_extra.txt", SCWS_XDICT_TXT);//新增词库 $cws->set_ignore(tru...

22.RE: 从windows迁移到linux发生的问题

发布时间:2013-12-19 14:12 t By favii

命令行方式返回正确 scws 北京大学 -c utf8 -d /usr/local/scws/etc/dict.utf8.xdb -M 3 北京大学 北京 大学

23.关于词库导入的问题!

更新时间:2010-06-05 15:06 t By huangxyun

...= pack('ffCa3', $v['tf'], $v['idf'], $flag, $v['attr']); 我的词库是UTF8的。 我提供一个导出的附件,高手们能否看看。[hr] 我是利用原词库UTF8的,导出之后,删掉了一部分,重新生成的。

24.如何修正分词错误

更新时间:2012-01-06 16:01 t By worldwind

...0 1.0 e 通过:scws_add_dict(s, "/usr/local/scws/etc/userdict.utf8.xdb", SCWS_XDICT_XDB); 结果还是不对。

25.RE: [特别发布] 纯PHP编写的xdb词典导入导出工具!!

更新时间:2009-07-26 12:07 t By hightman

...n']); 不可能超過 1gb 我有看到 gen_dict.c 但是是有有繁體utf8的 dict.txt 可以讓我自行編輯 麻煩 hightman 大大 [/quote] 这样的错误可能是运行的平台的字节序不一样或者.xdb文件已损坏所导致的. 我发一份我这边正确导出的词库吧...

26.RE: 使用scws例子报错,附上全部细节,请大牛帮忙

发布时间:2013-05-07 09:05 t By hightman

scws_set_dict($so, '/dict.utf8.xdb'); scws_set_rule($so, '/rules.utf8.ini'); 问题在这里!!

27.RE: scws分词不起作用了

发布时间:2012-02-22 18:02 t By vanni

需要指定词典位置,比如: # scws -A -d /hp/opt/scws/dict/default.utf8.xdb:/home/vanni/scws/mydict.txt -c utf8 "相宜本草洗面奶和雅漾舒护活泉水哪个好" 相宜/a 本草/nz 洗面奶/nz 和/c 雅漾/@ 舒护/@ 活泉水/@ 哪个/r 好/a

28.RE: 从windows迁移到linux发生的问题

更新时间:2013-12-19 16:12 t By favii

要命了,管理员请指点: linux命令行执行: scws 北京大学 -c utf8 -d /usr/local/scws/etc/dict.utf8.xdb -M 3 返回: 北京大学 北京 大学 php调用system执行同样的命令,返回4个单字。

29.RE: 集成包怎么用自定义词库?

发布时间:2011-09-21 13:09 t By hightman

目前不行。只能自己生成 scws 的词典并放进 $prefix/etc/dict.utf8.xdb 覆盖 词典可以自己先制作TXT格式在利用SCWs提供的工具转换成XDB格式 [url]http://www.hightman.cn/bbs/showthread.php?tid=712[/url] 这个贴子后面有讲到

30.RE: 官方和提供的下载不一样,并且官方实例还写了错误代码

更新时间:2010-07-14 21:07 t By sulwan

...UTF-8的,而你调用了gbk的词典,把你的词典语句改为 dict.utf8.xdb 即可 3. dict_extra.txt 也必须是UTF-8编码 4. 删除词条,因为陈凯歌其实可能是因为人名关系导致切成词,可能会不受词典影响 5. 如果你非要用gbk 源码中 set_charset() ...

  • 时间不限
  • 按相关性排序