早就对分词技术做过很多研究,但是却从没发现简单易用的产品,哪怕是收费的。 今天无意中发现了FTPHP的SCWS,安装试用了下,非常棒!关键MMD还是开源免费的,能够自定义各种功能。 强烈支持并持续关注!
这个分词系统虽说是简易的,但是我觉得还是过于强大了 譬如说像我们行业类网站,要分的词不多,屈指可数,也可能就几百个 如果能提供分词方法,和一个自己可以添加的词库就好了 呵呵 谢谢
[quote='NCT' pid='4108' dateline='1299895804'] 咋木人回复啊? [/quote] 嘛~这个就不用这么复杂你完全可以导出TXT修改在创建合适的数据库 查查资料 你可以解决的
通常全文检索是按词构建反向索引。 即以词条为线索,记录包含该词的文档ID~~ 检索的时候将用户的输入切词后在索引中查找出合适的文档ID再返回。
...当然要剔除很基础的日常词汇,保留分类性的,这个不能简单由前10来实现,比如‘你好’被分词出来,而且频度很高,却不适合做标签的; 有些热门的词汇,流行词汇,那种带有明显时效性可以加权,如‘凤姐’,‘芙蓉姐...