搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

181.自定义词库怎么控制（字母+数字）组合的个数

发布时间：2012-08-27 16:08 t By kill-all999

我目前使用自定义词库实现分词，但是通过scws_get_top5()方法获取数据的时候(字母+数字大于等于3个的时候也会返回)。求过滤方案。 $sh = scws_open(); scws_set_charset($sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_set_rule($sh, './r...

182.XSTokenizerScws::addDict

...CWS_SET, XS_CMD_SCWS_ADD_DICT, $mode, $fpath); return $this;} 添加分词词典, 支持 TXT/XDB 格式

183.RE: scws 词库与dict_user.txt文件有什么关系？

发布时间：2012-04-19 11:04 t By hightman

不明白你说的。同义词是基于分词后的结果制作的。如果你的索引先前制作，后面再添加自定义词，那么当然无效了。你要重建索引

184.RE: scws_has_word没有得到部分指定词库中的词

发布时间：2011-12-26 16:12 t By hightman

你可以正常分词试试，然后打印一下词的 attr 属性到底是不是* 号我估计是不是你自定义词典先于默认词典加载，导致attr属性被覆盖了？

185.请教分词结果的问题

发布时间：2010-05-10 12:05 t By xiaolan

...项目。。 -________- 。。最近有个PHP项目需要用到中文分词。。辗转很久来到了这里。。在本机安装也很顺利，。不过。。编码用的UTF8 按照文档里面的demo也自己做个小东西。。试试。。。然后。。 $words = scws_get_words($...

186.scws-1.1.6 发布

更新时间：2011-04-20 15:04 t By hightman

...词之间时视为同一词而不再强行切开，此时如果激活复合分词的 DUALITY 选项，则仍能将符号切开作为复合词。 4.修正浮点数的识别规则，避免将IPv4地址识别为2个小数的尴尬，比如 192.168.1.1 以前会被切成 192.168 和1.1 2个数字，现...

187.RE: scws1.1.1错误：

发布时间：2010-05-07 17:05 t By gaoomei

...是1.0.0版本编译好后，能够在php -m列表中显示出来，但是分词的时候会中断php执行，但是这个错误无法看到，只是中断了！希望大大能改进一下，让错误能够报出来，比如那个blitz模块就有错误报告。呵呵·

188.为什么第四版速度这么慢?

发布时间：2011-02-08 19:02 t By hit

我电脑APACHE+PHP 4GB内存 E6300处理器 PHP简易中文分词(SCWS) 第4版(GBK) 在我电脑上用你默认的分词内容"陈凯歌并不是..." 第一次0.8xxxs 第二次0.098711013793945 而你们演示的就快多了 0.0039410591125488 为什么差距这么大?

189.iis+php5.2.X下配置utf8的scws的问题

发布时间：2011-03-03 17:03 t By sonictan

我根据论坛和ftphp网站上要求，在自己的服务器上配置SCWS，但始终无法分词。我需要的是utf8编码的。测试文件在gbk下好使，应该如何改成utf8格式的？请教管理员，我该如何操作。 :huh:

190.XSTokenizerScws::__construct

... '') { $this->setMulti($arg); }} 构造函数初始化用于分词的搜索服务端

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

相关搜索