我想咨询一个问题。SCWS官网简介上指出,SCWS中文分词系统(Simple Chinese Word Segmentation)经小范围测试准确率在 90% ~ 95% 之间。 上面的准确率是如何计算出来的呢?或者有其他类似的标准测试工具吗?谢谢!
请教个问题, 我demo.ini 新增字段后,重新导入索引, 发现新增的字段不在索引中 如何在更新ini中的字段呢? 比如我新增了update_time 目前, 重新导入索引之后,发现无update_time 这个key 数据
上线一周,发现两个问题,有些疑惑。 1,热门关键词是否记入的是分词后的结果?是否可以记录未分词前的搜索关键字呢? 2,顺序是如何排列的呢?从下面的结果看,并不是搜索次数高的一定排在前面。 序 搜索热门关...
我用IE8在您的网址试了非常多次的强制刷新,MS都是正常的。但用FF确实不正确(而且是一直不正确)。。。 我猜到原因所在了,你提交的是GET方法,FF自动在URL中显示汉字,所以可能导致传输编码出现问题。。。
没有什么太大的问题,但必须存一个冗余字段。以前就有建议过一些朋友这么做。 还有,MYISAM内置的全文也只是一个简单的解决方案,最终效果可能也不是非常好,根据以前的测试50万左右的数据用内置的match .. against ... 效果...
找到乱码原因了,不过不知道我这个是不是和他们的一样,我是因为没有指定搜索条件,测试的时候谁会想到是这个问题呢,哎。。。
...DF = 0.00) Word: 知识/n (IDF = 4.57) "从中学到"的切分出现了问题,权重应该怎么调一下?
scws_set_dict($so, '/dict.utf8.xdb'); scws_set_rule($so, '/rules.utf8.ini'); 问题在这里!!
这是分词的策略问题,这种情况可以自定义分词器来补充。。。 将你的词复制到 [url]http://www.xunsearch.com/scws/demo/v4.php[/url] 进行实测,分割结果为: E14188m E14188 14188 14188m 那么搜索以上4个词都是可以搜索到的,至于你从中提取 e...