搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

11.RE: 自定义的 txt 字典有关问题求助

发布时间：2010-04-09 15:04 t By hightman

那个属性对分词效果有一定影响的，TF主要用于词的切分，IDF用于统计，词性就用在取TOP时过滤或标注上。最好是基于现有的词典去补充，你重建一个的话数据又都没有效果可能会比较差。SCWS主页上有一个TF/IDF计算器，你可...

12.RE: 如何修正分词错误

发布时间：2012-02-22 19:02 t By vanni

定义一个自定义词典，包括下面内容：了 100 100 e 现在 100 100 时间 100 100

13.“有空间”的分词有问题和扩充词典

更新时间：2013-05-18 14:05 t By lyjkensou

...但实际结果是“有空间” 即使通过scws_add_dict()添加了自定义的txt字典（里面只包含“空间 11.82 12.38”一行），仍然分不出“空间”这个词。还有如何设置才能识别出网址和邮箱等格式？另外关于scws-gen-dict，按照github上的...

14.RE: xunsearch-1.4.5 (基于 xapian 和 scws开源中文搜索引擎，高扛压不死锁)

发布时间：2013-03-28 12:03 t By vus520

... 我现在的问题是想通过XSTokenizerScws来获取指定文本的自定义分词结果。sdk使用了github里最新的版本，词典格式由一楼所示，现在取出来的结果并不包含任何自定义词典的关键词，求解。[/code] [php] $text =

谢谢 hightman 的回答. 不过我确定我市完全按照你说的做的 php.ini 是这样的配置 [scws] extension=scws.so scws.default.charset=utf8 scws.default.fpath=/usr/local/scws/etc 而php 是这样 //分词 $so = scws_new(); $so->set_charset('utf8'); // 这里没有...

16.对于分词的一些困惑

更新时间：2010-10-13 17:10 t By 逆雪寒

使用了自定义字典。完全忽略自带的字典。然后我在字典里面分词：北海365 365 就这两个词。然后我搜的时候是：北海365 这时候返回的分词却只有： 365 “北海”不见了如果我启动系统自带词典那么“...

17.想手动指定一些不进行分词的词语

发布时间：2013-07-23 16:07 t By seagg

...如何操作，才能使得这个词不被分开我看到有用户自定义词典 dict_user.txt 我在里面写了：米兔车贴 1.0 1.0 ! 但还是被分了还看到一个stopwords.txt的文件，但将米兔车贴放到里面了也还是会被分。。。

18.RE: 求TF/IDF算法（官方的计算器没有作用）

发布时间：2013-05-22 13:05 t By hightman

...致用不到分词，只是靠在一起时需要消岐才用得到。你自定义词典用不了要查查是什么别的原因。通常问题： 1.词典写的字符集不对，比如把GBK当UTF-8了 2.词典更新后的修改时间由于某些原因比/tmp目录下生成的临时xdb还要旧，...

19.最新的主要变动

...进优化代码兼容性 - 增加用户案例文档：USERCASE - 改进自定义分词器 XSTokenizerScws 接受参数作为复合等级 - 升级 libevent 到 2.x 版 - 修正中文 stopwords 不生效的问题 - 取消恼人的 NODB(S#506) 错误提示 - 新增获取文档匹配词表的接口 [XSS...

20.RE: [HELP]xunsearch安装好了,搜索没有结果集。。。

发布时间：2011-10-26 15:10 t By vist2007

...有提供scws的api接口,实现短语分词功能 2.是否可以对scws自定义中文词典,方便扩展

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

搜索