...引进的主要功能,供大家参考和建议。 1. 同义词搜索,通过API建立、管理同义词库,检索的时候智能匹配同义词进行搜索。比如设置 “xunsearch”与“迅搜”为同义词,那么搜索 xunsearch也会包含迅搜的记录。 2. 增强的搜索查询...
我目前使用自定义词库实现分词,但是通过scws_get_top5()方法获取数据的时候(字母+数字大于等于3个的时候也会返回)。求过滤方案。 $sh = scws_open(); scws_set_charset($sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_set_rule($sh, './r...
这个不能随便改,但可以通过调整源码的编译参数来改。通常不需要这么做啊,实在有必要时你们可以考虑继承XSTokenizerScws 来自己修改它。
...示) public function processDoc($doc); 索引文档处理函数 在此通过 XSDocument::addIndex 或 XSDocument::addTerm 做索引相关调整
... /n ? /un 大家 /r 怎么 /r 看 /v 的 /uj ? /un 后来发现可以通过修改rule.utf8.ini里的规则来调整分词结果,不知道有没有更好的办法?
...----+--------------------------------+ 检查结果 -------- 共计 7 项通过,2 项警告,0 项错误。 不知到这两个警告有没有影响,
[quote='hightman' pid='3251' dateline='1359526251'] 这个不能随便改,但可以通过调整源码的编译参数来改。通常不需要这么做啊,实在有必要时你们可以考虑继承XSTokenizerScws 来自己修改它。 [/quote] 感谢,我就是这么干的~
...:相宜本草 (某化妆品品牌) 被分成: 相宜 本草 我通过词典增加的 “相宜本草” 但是不管用 mydict.txt 文件内容如下: 1 相宜本草 2 雅漾 3 舒护 4 活泉水 # scws -A -d /hp/opt/scws/dict/default.utf8.xdb:/home/vanni/scws/mydict....
...放API的打算(已经制作完毕,尚未开放),届时用户可以通过 xungle 直接创建和维护自己的搜索项目,就像使用一个远端 mysql server一样的道理,只不过是把全文检索这部分托管出来。
...。我想自己扩充我的词库,但不知道TF/IDF如何获得。 通过你提过的新词生词的TF/IDF计算器(http://www.xunsearch.com/scws/demo/get_tfidf.php) 结果计算出来的大部分内容都是一样的值,而且也无法用于分词。 另外用这个计算器计算...