搜索

大约有 200 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.0064秒)

41.RE: XSTokenizerScws的一个使用问题

发布时间:2013-02-02 13:02 t By tisswb

[quote='hightman' pid='3250' dateline='1359526203'] 是你自己搞错了! “是一”本身不是词,只是因为二元结合法所以scws自动将其合成为一个词。 复合分词是对原本是词的长词情况处理的,比如”中国“可以切成”中“+”国“+”中...

42.RE: 1.1.2的 自定义字典无法使用

发布时间:2010-05-23 10:05 t By hightman

在另一帖子中回复您的,我猜测是您的 scws 对像字符集没有正确指出,而 php.ini 默认设为 gbk导致,建议显式地指定字符集 $so = scws_new('utf8'); 或在任何 add_dict 之前调用 set_charset

43.RE: [2012] SCWS-1.2.0 发布,BSD协议、支持自定义词库、PHP5.4

发布时间:2012-08-27 16:08 t By kill-all999

HM,您好,我目前使用自定义词库实现分词,但是通过scws_get_top5()方法获取数据的时候(字母+数字大于等于3个的时候也会返回)。求过滤方案。 $sh = scws_open(); scws_set_charset($sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_...

44.RE: 1.1.2的 自定义字典无法使用

更新时间:2010-05-24 22:05 t By 逆雪寒

感谢hightman的认真对待. 我也按照你说的.打印了 add_dict 的返回数值..发现.就算在异常的情况下. 加载字典的返回值是 true的.但 get_result() 却返回 false; 是否会关 nginx 或 php-fpm 有关呢 ?? 我环境 是 centos5 nginx php-fpm 的[/code] ...

45.scws-1.1.9 发布,明确采用 BSD 协议;改进复合分词修正BUG等

更新时间:2011-12-28 13:12 t By hightman

2011-12-26: SCWS-1.1.9 Released. 1) 明确使用开源协议 New BSD License 发布新版本 2) 深度优化复合分词中的 SCWS_MULTISHORT 选项,更为合理有效,符合全文检索的需求 3) 测试脚本自动加载当前目录下的 dict_user.txt 文本词典 4) 修正...

46.2007简易分词第4版(scws-0.1.x)体验

发布时间:2007-06-06 11:06 t By hightman

....hightman.cn/demo/scws/v48.php]UTF-8版[/url](词库较旧) 目前全部使用 *Unix* 系统下的标准C开发,全部采用自行设计的词典格式 (XTree 和 XDB) 完全不需要依赖任何第三方库及数据库系统。统一编译成链接库 (.a或.so形式),在开发和使用...

47.RE: 我想使用系统自动的分词功能,可是只看到有接口

发布时间:2011-11-28 11:11 t By hightman

对只要编译一下 scws 扩展就可以了。在 xunsearch-full-xxx 下面有 scws-1.1.8/phpext 在此目录下 phpize ./configure make && make install 即可,以上步骤根据不同用户权限略有不同。

48.RE: 我想使用系统自动的分词功能,可是只看到有接口

发布时间:2011-11-30 12:11 t By limingyao

[quote='icebolt' pid='282' dateline='1322453185'] 如果只是想实现分词,为什么直接用scws呢,何必用xunsearch呢? [/quote] 因为同一个系统里面,既有需要分词提取tag的地方,又有搜索,当然会出现此情况了。目前已安装scws来实现该功能...

49.daemon server(linux后台程序)和embed(库的形式嵌入程序中)

更新时间:2010-12-09 23:12 t By lauxinz

...。具体用哪种方式需要根据自己的实际应用来决定。[b]当使用本库做为 daemon server 时应当使用 mem 方式,当只是 embed 调用时应该使用 xdb 方式[/b],将 xdb 文件加载进内存不仅占用了比较多的内存,而且也需要一定的时间(35万条...

50.RE: 我想使用系统自动的分词功能,可是只看到有接口

发布时间:2011-11-25 13:11 t By limingyao

[quote='hightman' pid='255' dateline='1322196172'] 还是不明白! 你把这段文字用scws切割会有问题吗?如果你这段字是用空格或逗号分隔,那么你可以用 split 这个分词器啊。 搜索的时候搜索任何一个分割后的TAG都可以搜索到。 [/quote] ...

  • 时间不限
  • 按相关性排序