看了论坛很多帖子,其中不少都是词库没有加载上,却没有加以判断,结果发现分词结果不准确。 其实在scws文档中有这么一句话: [i][b]注:xdict_t 和 rule_t 分别是词典和规则集的指针,可判断其是否为 NULL 来判断加载的成...
想把sogou的一些细胞词库整合到SCWS的词库里,要添加的词很多,不太可能用你提供的WEB查询工具一个个的去查找,怎么设置TF/IDF的值?
[quote='hightman' pid='7795' dateline='1399967280'] 这不是切分。这是增加匹配,以同义词的形式支持切分后的短词匹配。 [/quote] 嗯,确实呀,不过这个需求估计很多自定义的同学都希望自己可以调整设置吧。 谢谢管理员:D。
...再问一下,那我其它的属性如何才能得到,比如我的word很多,我能都设置一样的属性吗,这样有什么影响?
现在才发现,scws的源码里有很多地方都没有检测malloc是否成功,如scws.c:1527行附近的下面两行, top = (scws_top_t) malloc(sizeof(struct scws_topword)); top->weight = cur->idf; 182行的下面两行 res = (scws_res_t) malloc(sizeof(struct scws_result)); \ res->off...
...cws的这个分词技术,我想请问一下高手,在一个文章里有很多的字,比如“我,的,在,”这些单字,是不是也会被分出来,我想问的是,能不能取出像地名,人名,词语, 我想在一个网站中应该这些,请问有没有相关的案...
:P 我相信有很多朋友都和我一样,希望迅搜能支持windows的,其实有个sphinx支持windows,可是安装使用都比较复杂。
[quote='hightman' pid='8771' dateline='1330917695'] 不能,空格都略过了 [/quote] 谢谢管理回答 噢噢!~感觉如果可以保留的话会方便很多!~
早就对分词技术做过很多研究,但是却从没发现简单易用的产品,哪怕是收费的。 今天无意中发现了FTPHP的SCWS,安装试用了下,非常棒!关键MMD还是开源免费的,能够自定义各种功能。 强烈支持并持续关注!
...改成db 3、如果以前--rebuild不成功,我xunsearchd已经重启过很多次了,那么他的状态保存在哪里? 其次,我执行--stop-rebuild之后(建好索引),再使用--rebuild,还是报那个错。 所以没搞明白。