...bject); $docs = $search->search(); 貌似有个问题,就是关键词是一个词的时候搜索出来正常的,关键词是2个或者2个以上的时候,就报错。 另外,那个getTops方法中的第二个参数啥意思?手册上没写明白。词性除了n和ns还有哪些啊?全...
...词叫“民医院”!! 建议删除该词重新生成词典或,写一个附加词典标记为删除。内容如下,保存为名字 del.txt,然后在分词前加入一句 $scws->add_dict('/path/to/del.txt', SCWS_XDICT_TXT); 如果您不会制作词典可以从 http://www.ftphp.com/scws/do...
...索引库的分词复合等级 复合等级是 scws 分词粒度控制的一个重要参数, 是长词细分处理依据, 默认为 3, 值范围 0~15 注意: 这个设置仅直对当前索引库有效, 多次调用设置值被覆盖仅最后那次设置有效, 而且仅对设置之后提交的索引...
...ghtman.cn/down/php-scws-v23.tgz[/url] (5.3MB) 词典转换办法写一个小程序在 php4 下将词典全部读出并存在 .txt ,然后再到 php5 环境将解析 txt 文件并存回 cdb,详情可参见回贴中的相关代码,或参见下载包中的 dict/mk_***.php (这些脚本...
...索语句的分词复合等级 复合等级是 scws 分词粒度控制的一个重要参数, 是长词细分处理依据, 默认为 3, 值范围 0~15 注意: 这个设置仅直对本次搜索有效, 仅对设置之后的 setQuery 起作用, 由于 query 设计的方式问题, 目前无法支持搜...
在 scws.c 中,由于取词时使用一个 unsigned char 来记录分词的长度,存在特殊情况即通过 rules.ini 自动识别出来的词有可能超过 255 字,如全部连续的双字节数字或字母.超过 255 字后 这里的 j 将变得不正确可能导致 item-> 指向 NULL ,...
...配置文件详解 基础说明 ------- - 项目配置是一个 `Xunsearch` 项目的核心灵魂,非常重要,通常保存为 .ini 文件 - 以分号开头的行表示注释,空行直接被忽略不起任何作用 - 中括号包围的每个分区均为字段配置,字段个...
...持的分词器有以下几种: full 表示本字段的值整体作为一个检索词,像各种 ID 都适合这种情况 none 表示本字段没有任何词汇用于索引 split([ ]) 表示根据参数分割内容,默认参数为空格,若参数以 / 开头并以 / 结尾则 内部调...
由于词库太大干扰所致,建议可以附加一个小词典(目的是删除这些无用词汇,以下我写出来作参考,把下面的文字存成dict.txt,然后在原有的set_dict之后加上 scws_add_dict(s, 'path/to/this_ad_dict.txt', SCWS_XDICT_TXT); 这样使文本词典生效. ...
...等场合运用。 切词效率测试(UTF-8编码,随机从天涯抓取了一个连载页面测试结果, 45Kb左右的文本切词时间是0.026秒, 换算完毕大概是 1.5MB文本/秒) 测试过程中开启了散字自动二元聚合, 长词自动补切为短词, 开启了人名地名数字智...