搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

1.RE: 请问一下，xdb与txt词库那个读取效率更高

发布时间：2013-06-29 22:06 t By hightman

后者是什么意思，举例说明一下吧。SCWS处理英文是按普通单词和数字的规则来做

2.RE: 请问一下，xdb与txt词库那个读取效率更高

发布时间：2013-07-05 15:07 t By 阿弟2013

网址和EMAIL tsearch都可以配置token的切分方法，可以整个切，也可以分开 html标签 tsearch也有一个tag token可以配置去不去徐

3.RE: 请问一下，xdb与txt词库那个读取效率更高

发布时间：2013-07-03 16:07 t By hightman

但网址和EMAIL如果这样切，也太粗糙了吧。要全部匹配才能检索到，输入 EMAIL 的前段或网址的一部分均检索不到了。至于消除 HTML 标签，这不应该是分词的事哦

4.请问一下，xdb与txt词库那个读取效率更高

发布时间：2013-06-29 21:06 t By 阿弟2013

你好，我们最近在postgresql整合了scws,效果很棒，现在我们自己增加了一些词库，不知道xdb与txt相比，那个效率更高另外，scws对于中英文分词效果不是很好，即文中的中文分得还可以，但对于页面中的英文部分，包括email,url,hos...

5.RE: 请问一下，xdb与txt词库那个读取效率更高

更新时间：2013-06-29 23:06 t By 阿弟2013

我举个例子吧下面是用csws分词的结果，明显csws把email,网址给拆开了，还有标签没有去除，但是中文词是正确的分开了 postgres=# SELECT to_tsvector('zw_simple','pgsql中国社区论坛 http://www.pgsqldb.org:8079 chenaishen@263.net'); ...

6.自定义 SCWS 词库

...在此不再赘述。此外，这个文件还可以通过相关的 SDK API 读取和修改。 - [XSIndex::getCustomDict] 读取当前项目的自定义词库内容，若不存在则返回空字符串 - [XSIndex::setCustomDict] 设置当前项目的自定义词库内容，格式参见上面文档 >...

7.RE: scws自定义词库可否自定义词性？

发布时间：2012-05-03 15:05 t By hightman

1. 需要重启 xs-searchd 2. 只读取 dict_user.txt 3. 系统的同时生效，但 dict_user.txt 优先级更高 4. 词性完全可以自定义，但最多 2个字节

8.自定义词库dict_user.txt多大为宜

发布时间：2012-04-28 15:04 t By yunxiaoad2

...义了几个词库，分别是9M、7M，24k 看到文档说，这个文件读取后放在临时目录，建议不要太大，但我不知道多大才叫大，可否有个具体数据指导？另外，这些新词，我通过官方提供的get_tf.php查询了一百个词，发现： 12.38 < tf

9.屏蔽相关搜索中的一些特定的敏感词

发布时间：2013-07-29 14:07 t By seagg

我手动导入了一批搜索词，但由于相关搜索和热门搜索都是从搜索日志数据库中读取的，导入的词库中难免有一些敏感词，或者不想让其出现的词，请问怎么才能屏蔽这些词语呢，多谢了。。。

10.索引管理器

...` 指定数据文件的路径，如果没有指定则自动从标准输入读取数据。对于 CSV 文件，要求必须每行一条数据，字段之间用半角的逗号分开。可以在首行指定字段名称列表，但要求所有字段均必须是项目中的有效字段；如果没有...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

相关搜索