搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

1.RE: 建议用户能设置数字不分词

更新时间：2013-06-18 14:06 t By hightman

这是分词的策略问题，这种情况可以自定义分词器来补充。。。将你的词复制到 [url]http://www.xunsearch.com/scws/demo/v4.php[/url] 进行实测，分割结果为： E14188m E14188 14188 14188m 那么搜索以上4个词都是可以搜索到的，至于你从中提取 e...

2.图片搜索的一些疑问

更新时间：2014-02-16 17:02 t By Mr.

...相等的数据，然后根据hash_196字段按匹配度排序我对xlen分词器不是很了解这个排序mysql可以实现但是mysql分割后的位置不是固定的 project.name = hash project.default_charset = UTF-8 server.index = /dev/shm/xs-indexd.sock server.search = /dev/shm/xs-se...

3.能否提供字典dict.xdb的生成程序

更新时间：2009-06-28 10:06 t By heraldboy

...，正和我用。但发现现有的字典不太适合我们做地址的分词，能不能给个办法将文本的转为dict.xdb格式，看到你在论坛中回复提到一个转换程序，但我不知道在哪里下载。先谢谢你。[hr] 我们系统对速度要求不高，关键是分词...

4.中文分组粗分方法

发布时间：2010-05-26 12:05 t By baobao

你好Hightman：我是一名大学生，对中文分词很感兴趣。在网上看了很多关于中文分词的课件和论文。词的粗分有几种：最大匹配法最大概率法最短路径法未登录词识别方法等等我下PSCWS4，学习了好久算法，由于个人...

5.RE: 能否提供字典dict.xdb的生成程序

发布时间：2009-06-28 21:06 t By hightman

...实上应该针对地名名词(含缩写,别名)建立词库, 然后将其分词, 提取关键字进行比较, 如果相同即可视为相同. 比如同样是 xx市, 有些人可能只写 xx 而没写市

6.英文模糊搜索问题

发布时间：2013-07-31 10:07 t By homingway

...都失败了 1. 利用xs自带的scws，这个英文明显是根据空格分词的，所以达不到效果 2. 自己写的一元/二元分词器，某些情况下可以正常工作，不过有时会返回一些意想不到的结果，而且相关度看起来并不高，所以很困惑，最下方...

7.hightman你好，请问有没有好的相关度算法推荐下？

发布时间：2008-04-03 15:04 t By routerpipe

你好，您的分词插件很好，但有个问题，我用这个插件做的相关度插件，实践中相关度并不大。例如“你给我买的衣服“ match "你看的书" 和"一件衣服" 代码匹配出来相关度最大的是"你看的书"，因为有2个词相同，而按照我...

8.xunsearch-1.4.8 (基于 xapian+scws 的开源中文搜索引擎，小问题优化改进)

发布时间：2013-12-11 15:12 t By hightman

...代码兼容性 2. 增加用户案例文档：USERCASE 3. 改进自定义分词器 XSTokenizerScws 接受参数作为复合等级 4. 升级 libevent 到 2.x 版 5. 修正中文 stopwords 不生效的问题 6. 取消恼人的 NODB(S#506) 错误提示 7. 新增获取文档匹配词表的接口 X...

9.xunsearch-1.4.7 (基于 xapian+scws 的开源中文搜索引擎，诸多细节改进)

发布时间：2013-07-30 11:07 t By hightman

... C/C++ 开发多线程服务端，索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据，在 5 亿网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。 [b]简单易用：[/b]前端是使用脚本语言编写的开发工具 (SDK)，目前仅支持...

10.[2013] SCWS-1.2.2 发布，BSD协议、支持自定义词库、PHP5.4

更新时间：2013-07-11 21:07 t By hightman

...使用开源协议 New BSD License 发布新版本 2) 深度优化复合分词中的 SCWS_MULTISHORT 选项，更为合理有效，符合全文检索的需求 3) 测试脚本自动加载当前目录下的 dict_user.txt 文本词典 4) 修正 scws.c 中 __PARSE_XATTR__ 宏的 BUG 导致 scws_get_t...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

相关搜索