http://bbs.xunsearch.com/showthread.php?tid=122 ,根据上边链接里提供的资源,我可以成功搭建分词demo,但是不能进行demo的测试,好像是技术层面上缺少相关的函数,我可以联系咱们的技术具体谈一下吗,看到我的信息请联系我。我现在...
...一个新手,对于php只懂一些皮毛,现在想使用 SCWS(简易中文分词) 基于HTTP/POST的分词的API 但是不知道怎么调用,我用这个方式调用API,结果显示在网页上,我要如何调用才能将结果获取下来呢?比如我能将结果直接存在一个变...
用pscws4分词,为什么只打印出里面的数字,中文直接不分词打印,网页编码是utf8 function get_tags_arr($title){ require 'pscws4/pscws4.class.php'; $pscws = new PSCWS4(); $pscws->set_dict('scws/dict.utf8.xdb'); $pscws->set_rule('scws/rules.utf8.ini'); $pscws->set_ign...
没有什么太大的问题,但必须存一个冗余字段。以前就有建议过一些朋友这么做。 还有,MYISAM内置的全文也只是一个简单的解决方案,最终效果可能也不是非常好,根据以前的测试50万左右的数据用内置的match .. against ... 效果...
我用您发布的工具,把字典解压。得出了关于的词的字段 WORD TF IDF ATTR 当机立断 14.01 8.10 i WORD ATTR我都能理解。 上贴说的逐字分词后 计算权重的时候使用IDF,貌似就是类似基于字典的最大概率方式来定义权重...
感谢分享~~ 方便一些不能装扩展的用户。 其实可以再包装一些脚本的API,使之用起来跟本地API一样简单
pscws4和scws大致相同的算法,只是后来pscws4没有再进一步更新了。 粗分毕竟只是粗分,要想正式用只用其中一种肯定是不够的。 scws 里面先按逐字把所有可能的词都列出来,建成一个2维表,然后把有岐义的部分拧出来,以其...
[quote='hightman' pid='3550' dateline='1273972998'] 没有什么太大的问题,但必须存一个冗余字段。以前就有建议过一些朋友这么做。 还有,MYISAM内置的全文也只是一个简单的解决方案,最终效果可能也不是非常好,根据以前的测试50万...
好长时间不写C了,写着有点吃力,所以暂时先把最基本需要的分词及高频词提取写出来了。 后续等有点空时会慢慢实现更多的功能及加入相关脚本。
https://code.google.com/p/http-scws/ 用这个试试