[quote='zcbenz' pid='122' dateline='1319516337'] 我看到配置详解里这样描述: [quote]date 日期型,形式为 YYYYmmdd 这样固定的 8 字节,如果没有区间检索或排序需求不建议使用[/quote] 那么, 1. 是否添加文档时日期要以类似于'20111025'这...
[quote='hightman' pid='4506' dateline='1303195392'] 新版会开发一个API直接在函数里生成临时词库供调用。 [/quote] 感谢管理员回复. 其实我的意思大概可以简化为: 最长分词模式. 分出来的词要达到符合语法的最长.这个难度估计不小,呵呵...
由于词库太大干扰所致,建议可以附加一个小词典(目的是删除这些无用词汇,以下我写出来作参考,把下面的文字存成dict.txt,然后在原有的set_dict之后加上 scws_add_dict(s, 'path/to/this_ad_dict.txt', SCWS_XDICT_TXT); 这样使文本词典生效. ...
得助於 xdb词典导入导出工具,已經完成 UTF8 chs + cht 的合併,也自己加了一些詞, 目前使用中,感覺很好。 想回應的是自己在合併過程中,碰到的情況。 在個別將 dict_chs(t).utf8.xdb 導出,倒入資料庫處理時發現,有重複的字...
感谢SCWS提供了这么优秀的中文分词库. 我有个问题如下: 文字内容为:"武汉车友会的地盘,听武汉车友的,来这里涂鸦吧" 我希望分词结果为 武汉车友会,武汉车友 ,其他的词都不要.该如何做呢. 传递参数如下: array('data'=>$data, 'igno...
需求是,我需要对一些内容的分类,采取不同权重设置,而对于一些无分类的内容使用较低权重(不能直接过滤,我希望没分类的内容能搜索到,只是希望排序靠后)。 demo中的案例使用没有问题,在实际开发中,发现没有起作...
建议支持词库里的词可以是纯英文单词,虽然在分词时英文单词可以自动识别切分开,但在关键词提取和非法词过滤时却无法提取出或过滤掉纯英文单词。 比如:我要从一些商品名中提取一些品牌:adidas nike。。。对商品名分词...
HI,XS用户们 看到不少用户有对LIMIT 100这块的困扰,特发此贴给大家,供参考。 1:下载好.rar.bz文件之后,先在服务器上面解压一下 wget http://www.xunsearch.com/download/xunsearch-full-latest.tar.bz2 tar -xjf xunsearch-full-latest.tar.bz2 ...
[quote='kaikai' pid='8405' dateline='1409467664'] 在使用/demo/search.php 搜索的时候,出现的。权限需要怎么解决? 错误:[XSException] ../../../../usr/local/xunsearch/sdk/php/lib/XS.php(2481): Permission denied(C#13, localhost:8384) [/quote] 原因是防火墙的问题。...
感谢迅搜做出这么好的东西先 以下是我的提问: 1.SDK下面的php文件实际是个客户端,那么该php文件是否可以任意放置到系统任何位置,不限制在sdk目录下(不依赖sdk目录下的文件) 2.说明文档中说,如果是与web服务器同机器,那么可以直...