老大,能把您的TF/IDF算法共享出来么?批量添加词库的时候真的很不方便啊,如果写个脚本调用你的[url=http://www.ftphp.com/scws/demo/get_tfidf.php]在线TF/IDF算法工具[/url],恐怕上万条请求你的服务器招架不住啊。。。 老大你的词库更...
想做自定义词库的功能。 哪位大侠,是否可以告知, http://www.xunsearch.com/scws/demo/get_tfidf.php 的算法。 谢谢
感谢H大回复,好像是你说的这个问题。 曾经我以为这个scws是国外高人开发的,最近才发现国内的牛人。作为苦逼的程序一员,你就是我心中的刘德华了。
...WORD: 完/un (IDF = 0.00) WORD: 了/un (IDF = 0.00) 请问:scws分词算法在X86处理器(CPU小端模式)上可以正确分词,scws怎么样才能在PPC等处理器上(CPU大端模式下)正确分词呢?
词库的字节序原因,你可以在 ppc 处理器上重新用 bin/gen-scws-dict 制作一份词库就可以了。
TF/IDF值不会导致用不到分词,只是靠在一起时需要消岐才用得到。你自定义词典用不了要查查是什么别的原因。 通常问题: 1.词典写的字符集不对,比如把GBK当UTF-8了 2.词典更新后的修改时间由于某些原因比/tmp目录下生成的临...