我试了下目前的多粒度分词,有一种情况不能实现 比如词典里有: 我们是中国人 我们是中国 我们是 中国人 中国 当要分句子: 我们是中国人 无论怎么设置,都无法分出 我们是中国 我们是 这些词 就是目前是...
[quote='hightman' pid='755' dateline='1334719555'] 这个目前倒没有直接办法了,位置不能说明一切 [/quote] 我做了简单的修改。 添加了如下的规则: 如果对搜索词都是完全匹配,则出现在结果的列的最前面的给予最高权重。 如...
...+Bootstrap+SQlite 开发,界面简洁功能强大。由于开发仓促,目前仅提供在线内测版本,尚未能提供下载使用。目前 BUG 可能也会比较多,如有任何问题欢迎回贴或发贴告知。 测试地址:[url]http://demo.xunsearch.com/xsmanager/[/url] 测试...
目前已经签出新的代码分支 facets,将在不久的将来加入此项功能,预计是在 1.1.0 版本。连同索引智能分割一起。
http://so.e23.cn 数据量大约为3500万,新闻在50万左右,其它的全部为论坛数据。 新闻一个库,论坛按年份分的库,目前速度感觉可以接受。
1.单字节的数字和中文字目前的规则不允许一起存在,像45万就可以,或四十五万 2."当好"在词典中出现并有较高的频率,这可能是错误的,可以修正词典.关于词典的问题有相关文章已经说过了,词库太大,出错...