xunsearch在搜索的时候 相关搜索和推荐搜索都是通过log分析来处理的但是有一个隐藏的弊端. 比如一些敏感词,如果一个人反复搜索的话,他的搜索记录就会进入log这样下次有人搜索的时候输入自动提示和相关推荐都会出现这种敏感...
这个权重分配上 可以由参数定制化。 最基础的当然是共有标签,重复度,当然要剔除很基础的日常词汇,保留分类性的,这个不能简单由前10来实现,比如‘你好’被分词出来,而且频度很高,却不适合做标签的; 有些热门...
...测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。 切词效率测试(UTF-8编码,随机从天涯抓取了一个连载页面测试结果, 45Kb左右的文本切词时间是0.026秒, 换算完毕大概是 1.5MB文本/秒) 测试...