搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

1.配置文件的困惑

发布时间：2012-03-16 17:03 t By 张十三

tokenizer 分词器默认为 default 采用内置的功能强大的 scws 分词，适合绝大多数字符串字段。也可以指定自定义分词器，格式为 name 或 name(arg) 两种形式，其中 name 是分词器名称，arg 则是传递给分词器构造函数的参数。自定义分词...

2.本地v48.php分词和演示不一样，要怎么配置才一样？

更新时间：2014-11-26 17:11 t By 28302551@qq.com

在ubuntu12.04下安装了分词， http://www.xunsearch.com/scws/demo/v48.php（演示分词）与本地的分词效果不一样本地分词结果：陈凯歌并不是《无极》的唯一著作权人，一部电影的整体版权归电影制片厂所有。一 ...

3.iis+php5.2.X下配置utf8的scws的问题

发布时间：2011-03-03 17:03 t By sonictan

我根据论坛和ftphp网站上要求，在自己的服务器上配置SCWS，但始终无法分词。我需要的是utf8编码的。测试文件在gbk下好使，应该如何改成utf8格式的？请教管理员，我该如何操作。 :huh:

4.RE: 二元分词问题

发布时间：2011-11-15 10:11 t By icebolt

已经实现了一元分词了，不过一元分词以后不能用near之类的。还想问一下，我现在想用自定义的分词库，从哪里配置

5.RE: iis+php5.2.X下配置utf8的scws的问题

发布时间：2011-03-03 23:03 t By hit

...ftphp网站上要求，在自己的服务器上配置SCWS，但始终无法分词。我需要的是utf8编码的。测试文件在gbk下好使，应该如何改成utf8格式的？请教管理员，我该如何操作。 :huh: [/quote] 你要注意的是一些文件里面的编码设置

6.建议用户能设置数字不分词

发布时间：2013-06-18 10:06 t By yestar

比如我要搜索 E14188m 这个词的时候，能搜索到。但是当我要搜索 E1418的时候却无法搜索到。希望能够配置数字当做字符串

7.中英混合问题

更新时间：2012-10-16 19:10 t By o00ofly

当在中文中加入英文后，英文加头部时，只能得到英文分词，而后面的中文却没用了；英文中间时，仅能得到英文前的汉字的分词；英文放尾部时，英文分词也得不到，这是哪里没配置的原因么？我在网站上在线分词那输入中...

8.RE: 我想使用系统自动的分词功能，可是只看到有接口

发布时间：2011-11-24 23:11 t By hightman

不是很明白，你说的自动分词？？是什么意思你在配置文件中不要指定 tokenizer 选项就会自动使用 SCWS 分词了。

以前的二元分词只支持英文，最后找到问题 public function getTokens($value, XSDocument $doc = null) { $terms = array(); for ($i = 0; $i < mb_strlen($value,"utf-8"); $i += $this->arg) { $terms[] = mb_substr($value, $i, $this->arg,"utf-8"); } return $terms; }...

10.RE: 英文数字组合字符串分词问题

发布时间：2014-05-14 11:05 t By soarb

[quote='hpxl' pid='7811' dateline='1400033006'] sdk/php/app/demo.ini配置 [id] type = id [/quote] 是scws-1.2.2 的如何让它支持自已定义的英文词库？像http://bbs.xunsearch.com/showthread.php?tid=3088 这样修改代码吗？

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

搜索