问题解决了~ 原因是autoconf的版本低于scws原编译的版本了 详见 http://dev.firnow.com/course/3_program/c++/cppxl/20090508/166831.html 到http://ftp.gnu.org/gnu/autoconf/上下了一个最新的包安装了一下就OK了~
...和英文除外。 比如我定义“南瓜汤”,“番茄汤”作为一个词库,(测试用的,只放2个词在词库), 然后对这句话进行分词“我爱喝南瓜汤,番茄汤”进行分词, 希望得到结果 我爱喝(未被分词) 南瓜汤(分词OK) , 番...
...办法将文本的转为dict.xdb格式,看到你在论坛中回复提到一个转换程序,但我不知道在哪里下载。 先谢谢你。[hr] 我们系统对速度要求不高,关键是分词效果,没有字典很难办。
网址和EMAIL tsearch都可以配置token的切分方法,可以整个切,也可以分开 html标签 tsearch也有一个tag token可以配置去不去徐
...在综合分析索引库内的词汇、用户搜索日志基础上建立了一个庞大的纠错体系,支持英文拼写 纠错、中文同音字纠错、拼音转换等。 使用这些功能都非常简单,直接调用 [XSSearch::getCorrectedQuery] 即可,该方法接受搜索语句 作为...
添加一个规则集如下: [b]:type = prefix :line = yes :tf = 3.5 :idf = 2.0 :attr = nz :include = chnum1,chnum2 :znum = 1,2,3 百分 百分之[/b] 分词的时候出现以下问题: 词:百分六 识别正确 词:百分六十 识别失败,只能识别出”百分“...
最近在做个项目,用到了分词,找了一下,发现这个,很好. 遇到一个问题, 命令导出xdb到txt,只导出了这个 # WORD TF IDF ATTR 请问这是咋回事
subject 是 FULL 的?FULL的话视为布尔字段了所以不会记录到日志中。 我建议你另外开辟一个字段,内容可以和该字段一样,但索引方式不一样来处理。有所冗余,但也是目前最简便的办法吧
...软连接。 你进到 /usr/local/xunsearch/lib 目录,然后手动建一个软连接 libscws.so ---> libscws.so.1.0.x?? 大概是这个名字 早先有人报告过,参见: [url]http://bbs.xunsearch.com/showthread.php?tid=7[/url]
...标签都有不错的效果了 :) 我理解其实就是搜索过程的一个反向 正常搜索就是 一句话 -> 分词 -> 搜索匹配 -> 输出 具体实现上 那匹配标签或者关键字这么做似乎也行 一句话 -> 分词 -> 搜索匹配 -> 前10个结果取样(比如取共有的...