搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

41.RE: XSTokenizerScws的一个使用问题

发布时间：2013-02-02 13:02 t By tisswb

[quote='hightman' pid='3250' dateline='1359526203'] 是你自己搞错了！ “是一”本身不是词，只是因为二元结合法所以scws自动将其合成为一个词。复合分词是对原本是词的长词情况处理的，比如”中国“可以切成”中“＋”国“＋”中...

42.RE: 1.1.2的自定义字典无法使用

发布时间：2010-05-23 10:05 t By hightman

在另一帖子中回复您的，我猜测是您的 scws 对像字符集没有正确指出，而 php.ini 默认设为 gbk导致，建议显式地指定字符集 $so = scws_new('utf8'); 或在任何 add_dict 之前调用 set_charset

43.RE: [2012] SCWS-1.2.0 发布，BSD协议、支持自定义词库、PHP5.4

发布时间：2012-08-27 16:08 t By kill-all999

HM,您好，我目前使用自定义词库实现分词，但是通过scws_get_top5()方法获取数据的时候(字母+数字大于等于3个的时候也会返回)。求过滤方案。 $sh = scws_open(); scws_set_charset($sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_...

44.RE: 1.1.2的自定义字典无法使用

更新时间：2010-05-24 22:05 t By 逆雪寒

感谢hightman的认真对待. 我也按照你说的.打印了 add_dict 的返回数值..发现.就算在异常的情况下. 加载字典的返回值是 true的.但 get_result() 却返回 false; 是否会关 nginx 或 php-fpm 有关呢 ?? 我环境是 centos5 nginx php-fpm 的[/code] ...

45.scws-1.1.9 发布，明确采用 BSD 协议；改进复合分词修正BUG等

更新时间：2011-12-28 13:12 t By hightman

2011-12-26: SCWS-1.1.9 Released. 1) 明确使用开源协议 New BSD License 发布新版本 2) 深度优化复合分词中的 SCWS_MULTISHORT 选项，更为合理有效，符合全文检索的需求 3) 测试脚本自动加载当前目录下的 dict_user.txt 文本词典 4) 修正...

46.2007简易分词第4版(scws-0.1.x)体验

发布时间：2007-06-06 11:06 t By hightman

....hightman.cn/demo/scws/v48.php]UTF-8版[/url](词库较旧) 目前全部使用 *Unix* 系统下的标准C开发，全部采用自行设计的词典格式 (XTree 和 XDB) 完全不需要依赖任何第三方库及数据库系统。统一编译成链接库（.a或.so形式），在开发和使用...

47.RE: 我想使用系统自动的分词功能，可是只看到有接口

发布时间：2011-11-28 11:11 t By hightman

对只要编译一下 scws 扩展就可以了。在 xunsearch-full-xxx 下面有 scws-1.1.8/phpext 在此目录下 phpize ./configure make && make install 即可，以上步骤根据不同用户权限略有不同。

48.RE: 我想使用系统自动的分词功能，可是只看到有接口

发布时间：2011-11-30 12:11 t By limingyao

[quote='icebolt' pid='282' dateline='1322453185'] 如果只是想实现分词，为什么直接用scws呢，何必用xunsearch呢？ [/quote] 因为同一个系统里面，既有需要分词提取tag的地方，又有搜索，当然会出现此情况了。目前已安装scws来实现该功能...

49.daemon server(linux后台程序)和embed(库的形式嵌入程序中)

更新时间：2010-12-09 23:12 t By lauxinz

...。具体用哪种方式需要根据自己的实际应用来决定。[b]当使用本库做为 daemon server 时应当使用 mem 方式，当只是 embed 调用时应该使用 xdb 方式[/b]，将 xdb 文件加载进内存不仅占用了比较多的内存，而且也需要一定的时间（35万条...

50.RE: 我想使用系统自动的分词功能，可是只看到有接口

发布时间：2011-11-25 13:11 t By limingyao

[quote='hightman' pid='255' dateline='1322196172'] 还是不明白！你把这段文字用scws切割会有问题吗？如果你这段字是用空格或逗号分隔，那么你可以用 split 这个分词器啊。搜索的时候搜索任何一个分割后的TAG都可以搜索到。 [/quote] ...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

相关搜索