搜索

大约有 300 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.0060秒)

171.RE: [HELP]xunsearch安装好了,搜索没有结果集。。。

发布时间:2011-10-19 16:10 t By hpxl

...计有点问题。当type为string,没有指明index索引方式是是分词的。 [title] type=string index=both 和 [title] type=title 这两个字段设计效果一样。同样content,类型也有问题,可以这样 [content] type=body 或者 [content] type=string index=mixed 具体详看...

172.scws-1.1.2 发布, 修正人名识别失败的问题

发布时间:2010-05-09 02:05 t By hightman

...友发现部分情况搜索结果全。经仔细排查问题在于 scws 分词中。 当采用非内存模式的词典时,返回的查结结果中(word_st)...->flag的属性包含怕 SCWS_WORD_MALLOCED 与 SCWS_ZFLAG_SYMBOL 定义冲突,以至于被当作符号文字从而未能进行正...

173.RE: 结合搜索引擎来制作自动标签系统

发布时间:2011-12-14 09:12 t By rogical

...分类性的,这个能简单由前10来实现,比如‘你好’被分词出来,而且频度很高,却适合做标签的; 有些热门的词汇,流行词汇,那种带有明显时效性可以加权,如‘凤姐’,‘芙蓉姐姐’, 有点类似百度风云榜的感觉; ...

174.RE: 实时加载字典,服务器严重吃消,有没有办法?

发布时间:2009-07-15 23:07 t By hightman

[quote='askie' pid='3233' dateline='1247660523'] 如果分词次数太多,很容易引起服务器假死,linux服务器! 请问老大有没有加载到内容进行调用的方法? [/quote] 当然有啊,你看一下说明吧. 我清楚你用的是什么方式,是PHP还是c的API, set...

175.请问一下,xdb与txt词库那个读取效率更高

发布时间:2013-06-29 21:06 t By 阿弟2013

...知道xdb与txt相比,那个效率更高 另外,scws对于中英文分词效果是很好,即文中的中文分得还可以,但对于页面中的英文部分,包括email,url,host这类处理效果比较差,我们目前采用两个分析器配合使用来达到最好的效果,要...

176.libscws 段错误的 bug 修正

发布时间:2007-07-05 09:07 t By hightman

在 scws.c 中,由于取词时使用一个 unsigned char 来记录分词的长度,存在特殊情况即通过 rules.ini 自动识别出来的词有可能超过 255 字,如全部连续的双字节数字或字母.超过 255 字后 这里的 j 将变得正确可能导致 item-> 指向 NULL ,...

177.xunsearch-1.0.0 正式版 (基于xapian/scws/php的开源中文全文搜索引擎)

发布时间:2011-09-23 13:09 t By hightman

... C/C++ 开发多线程服务端,索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据,在 500 万网页大约 1.5TB 的数据中检索时间超过 1 秒(非缓存)。 [b]简单易用:[/b]前端是使用脚本语言编写的开发工具 (SDK),目前仅支...

178.XSTokenizerScws

...本 1.0.0 源代码 sdk/php/lib/XSTokenizer.class.php SCWS - 分词器(与搜索服务端通讯) Public 方法 隐去继承来的方法 名称描述定义于 __construct() 构造函数 XSTokenizerScws addDict() 添加分词词典, 支持 TXT/XDB 格式 ...

179.hightman你好,请问有没有好的相关度算法推荐下?

发布时间:2008-04-03 15:04 t By routerpipe

你好,您的分词插件很好,但有个问题,我用这个插件做的相关度插件,实践中相关度并大。 例如“你给我买的衣服“ match "你看的书" 和"一件衣服" 代码匹配出来相关度最大的是"你看的书",因为有2个词相同,而按照我...

180.新增索引和更新索引速度好慢好慢,能忍受,都在分钟级别上。

发布时间:2012-05-24 11:05 t By dkanaiwen

...只要求对content字段检索,其他字段都需要参与检索和分词。 帖出我的配置文件: [tweetId] type = id tokenizer = none [content] type = body cutlen = 600 [authorId] tokenizer = none [sendTime] tokenizer = none [source] tokenizer = none [status] t...

  • 时间不限
  • 按相关性排序