...是 33.3 和 % 3.修改连字符(-)和下划线(_)的规则,当出现在字母单词之间时视为同一词而不再强行切开,此时如果激活复合分词的 DUALITY 选项,则仍能将符号切开作为复合词。 4.修正浮点数的识别规则,避免将IPv4地址识别为2个小...
...28可以改到640M 2、搜索词过滤 如果搜索词不包含任何字母数字汉字,仅仅是特殊符号,则会直接返回所有搜索结果,http://www.xunsearch.com/demo/search.php?q=%21@@&f=_all&s=relevance 可以测试这个看,可以考虑强行判断,不包含就让搜索...
...attr_en 即可,如果需要严格一点可以先判断一下 ch 是否为字母, 如以下: strcpy(wmap[i][i]->attr, SCWS_IS_ALPHA(txt[start-1]) ? attr_en : attr_un); 2. 百分号这个暂时 scws 还没有办法处理,因为 % 号被当作普通符号粗分时就...
...ty) 编译 2) 修改英语专有名词的识别方式, 原先 X.Y.Z 必须字母全大写,现也允许小写 3) 修改 congiure.in 在 ---enable-developer 选项的处理方式,不覆盖预设的 CFLAGS 4) 改变数字字母单独成词时的规则,当其中同时包含2个连续字母以...
...英文,由于打字速度过快或各种原因都很容易造成一两个字母出错。对于中文来说,古代就动不动 出现同音”通假字“,绝大多数现代人也使用拼音输入法,加上方言口音,乱用同音字现象非常普遍。 所以系统在综合分析索引...
...须有并且只能有一个类型类 ID 的主键字段,ID 字段值的字母不区分大小写 项目设置 ------- 1. ### 项目名称 要求用纯小写字母和小划线组成,长度控制在 2-31 个字符,这也是 xunsearch 服务器内用于保存索引数据的*目录名...
...具](util.Indexer#ch8) > > 词根同义词是自动生成的,以大写字母 Z 开头,请勿试图进行删除 $Id$
...情况,其中 --suggest 是搜索建议,当用户敲入少许汉字或字母时给出 相应的关键词建议(常用于搜索输入框下拉自动提示),而 --related 表示相关搜索、--hot 表示热门搜索、 --correct 表示搜索纠错。 ~~~ util/Quest.php --hot demo util/Ques...
...须是独立的词汇,也就是最小的索引单位。但对于纯英文字母**原词**, > 允许用空格连接多个单词,英文字母都会统一转换为**小写**。 > > 单个英文原词会同时保存词根同义词记录。如:设置 `find` 是 _search_ 的同义词,那么检...
...行由4个字段组成,依次为“词语"(由中文字或3个以下的字母合成), "TF", "IDF", "词性", 字段时间用空格或制表符分开,数量不限,可自行对齐以美化。 3) 除“词语”外,其它字段可忽略不写。若忽略,TF和IDF默认值为 1.0 而 词...