搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

171.RE: [HELP]xunsearch安装好了,搜索没有结果集。。。

发布时间：2011-10-19 16:10 t By hpxl

...计有点问题。当type为string，没有指明index索引方式是是不分词的。 [title] type=string index=both 和 [title] type=title 这两个字段设计效果一样。同样content,类型也有问题,可以这样 [content] type=body 或者 [content] type=string index=mixed 具体详看...

172.scws-1.1.2 发布, 修正人名识别失败的问题

发布时间：2010-05-09 02:05 t By hightman

...友发现部分情况搜索结果不全。经仔细排查问题在于 scws 分词中。当采用非内存模式的词典时，返回的查结结果中(word_st)...->flag的属性包含怕 SCWS_WORD_MALLOCED 与 SCWS_ZFLAG_SYMBOL 定义冲突，以至于被当作符号文字从而未能进行正...

173.RE: 结合搜索引擎来制作自动标签系统

发布时间：2011-12-14 09:12 t By rogical

...分类性的，这个不能简单由前10来实现，比如‘你好’被分词出来，而且频度很高，却不适合做标签的；有些热门的词汇，流行词汇，那种带有明显时效性可以加权，如‘凤姐’，‘芙蓉姐姐’，有点类似百度风云榜的感觉； ...

174.RE: 实时加载字典，服务器严重吃不消，有没有办法？

发布时间：2009-07-15 23:07 t By hightman

[quote='askie' pid='3233' dateline='1247660523'] 如果分词次数太多，很容易引起服务器假死，linux服务器！请问老大有没有加载到内容进行调用的方法？ [/quote] 当然有啊,你看一下说明吧. 我不清楚你用的是什么方式,是PHP还是c的API, set...

175.请问一下，xdb与txt词库那个读取效率更高

发布时间：2013-06-29 21:06 t By 阿弟2013

...知道xdb与txt相比，那个效率更高另外，scws对于中英文分词效果不是很好，即文中的中文分得还可以，但对于页面中的英文部分，包括email,url,host这类处理效果比较差，我们目前采用两个分析器配合使用来达到最好的效果，要...

176.libscws 段错误的 bug 修正

发布时间：2007-07-05 09:07 t By hightman

在 scws.c 中，由于取词时使用一个 unsigned char 来记录分词的长度，存在特殊情况即通过 rules.ini 自动识别出来的词有可能超过 255 字，如全部连续的双字节数字或字母．超过 255 字后这里的 j 将变得不正确可能导致 item-> 指向 NULL ,...

177.xunsearch-1.0.0 正式版 (基于xapian/scws/php的开源中文全文搜索引擎)

发布时间：2011-09-23 13:09 t By hightman

... C/C++ 开发多线程服务端，索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据，在 500 万网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。 [b]简单易用：[/b]前端是使用脚本语言编写的开发工具 (SDK)，目前仅支...

178.XSTokenizerScws

...本 1.0.0 源代码 sdk/php/lib/XSTokenizer.class.php SCWS - 分词器(与搜索服务端通讯) Public 方法隐去继承来的方法名称描述定义于 __construct() 构造函数 XSTokenizerScws addDict() 添加分词词典, 支持 TXT/XDB 格式 ...

179.hightman你好，请问有没有好的相关度算法推荐下？

发布时间：2008-04-03 15:04 t By routerpipe

你好，您的分词插件很好，但有个问题，我用这个插件做的相关度插件，实践中相关度并不大。例如“你给我买的衣服“ match "你看的书" 和"一件衣服" 代码匹配出来相关度最大的是"你看的书"，因为有2个词相同，而按照我...

180.新增索引和更新索引速度好慢好慢，不能忍受，都在分钟级别上。

发布时间：2012-05-24 11:05 t By dkanaiwen

...只要求对content字段检索，其他字段都不需要参与检索和分词。帖出我的配置文件： [tweetId] type = id tokenizer = none [content] type = body cutlen = 600 [authorId] tokenizer = none [sendTime] tokenizer = none [source] tokenizer = none [status] t...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

相关搜索