搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

11.RE: 如何让分词不把“1000元”分成两个词？

发布时间：2013-07-30 11:07 t By hightman

这个你还是在切分结果中再处理吧，把数字和量词重新合成

12.RE: 发现有几种情况会导致分词不准确？

发布时间：2011-09-17 01:09 t By hightman

这个是最新一期的更新修改的，当数字、字母连续3个以上时就不作为混杂元素了，会将它们切开。起初是因为 iso9001 没有切词导致搜索 iso 或 9001均搜索不到

13.自定义字典的问题

发布时间：2011-03-14 22:03 t By zfzeng

...，我定义了个词库，可是一用这个词库，就分不出来，数字和英文除外。比如我定义“南瓜汤”，“番茄汤”作为一个词库，(测试用的，只放2个词在词库)，然后对这句话进行分词“我爱喝南瓜汤，番茄汤”进行分词，希...

14.一个疑问……

发布时间：2007-11-28 22:11 t By 逍遥小妖

...用范围似乎特别的窄…… 对于一个页面来说，通常含有数字、英文、英文标点、中文标点、中文等文字要素（可阅读部分，HTML已过滤），视情况而定，搜索引擎还有可能抓出含有乱码的片段。但是SCWS分词时似乎要求字符串中...

15.图片搜索的一些疑问

更新时间：2014-02-16 17:02 t By Mr.

...= none cutlen = 0 weight = 0 phrase = no non_bool = no [hash_64];纯数字的图片hash值长度是固定的64位整数非唯一但相同的值比较多 type = string;应该不能用numeric类型吧？ index = self tokenizer = none;要实现匹配一个64位数值是完全相等的不...

16.英文可以自定义词性吗？

发布时间：2013-08-30 05:08 t By mynoname

通常英文是不需要分词的，但很多时候词性是需要的，比如nike，dior这类品牌英文。目前默认词性都是en，有什么办法可否自定义词典来改变他的词性。还有个问题，就是纯数字的词性为什么是en呢，不是m? 望赐教。

17.项目配置文件详解

... 服务端连接参数的格式包含 3 种格式： 1. *端口号(数字)*，连接 `localhost` 的该端口号 (例：`8383`) 2. *地址:端口号*，冒号连接地址（域名、IP地址）和端口 (例：`127.0.0.1:8383`) 3. *文件路径*，本机的 `unix socket` 连接路径...

18.为何导出txt,里面内容不动在创建XDB之后速度变慢很多很多

发布时间：2011-03-03 00:03 t By hit

...可能有问题) 创建XDB文件是根据 foreach $rec[$k] 里面的数字排序的那样 XDB和TXT里面的排序完全改变了目前的情况是我导出TXT在创建XDB 分词速度比之前慢了2倍这个问题很想知道原因T-T XDB->TXT这似乎是一个很难逆转或...

19.编写第一个配置文件

...明显，它是主键，所以它的类型必须是 `id` - `fid` 内容为数字的版块ID，但由于我们不需要对它进行排序或区间查找，所以用 `string` 类型即可，为了按版块检索，我们必须对它进行索引，而它也不需要分词，所以分词器用内置...

20.libscws 段错误的 bug 修正

发布时间：2007-07-05 09:07 t By hightman

...动识别出来的词有可能超过 255 字，如全部连续的双字节数字或字母．超过 255 字后这里的 j 将变得不正确可能导致 item-> 指向 NULL ,　故加入以下红色部分判断． [code] static void _scws_mset_word(scws_t s, int i, int j) { word_t item; item...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

相关搜索