scws分词后的直接做标签都有不错的效果了 :) 我理解其实就是搜索过程的一个反向 正常搜索就是 一句话 -> 分词 -> 搜索匹配 -> 输出 具体实现上 那匹配标签或者关键字这么做似乎也行 一句话 -> 分词 -> 搜索匹配 -> 前10个结果...
我一直在研究怎么作一个合适的自动标签系统,国外已经有几个了,yahoo就提供了的,让你把文章发给它,它给你返回适合你文章的几个标签。 这对于帮助用户的文章归类很有意义,因为通常用户不能很好的自我归类。 我...
多谢建议。这个部分要做得精准的话其实是比较尖端的,SCWS分词后有提供一些热门词排序,如果简单归结为标签也是不妥的,我觉得需要有标签库进行匹配和比对。
请问如何使用scws来自动从一篇文章内容里面提取Tag标签,仿很多博客系统里那种功能,应该怎么实现,本人小菜鸟,希望大家给点指引,谢谢。
...个权重分配上 可以由参数定制化。 最基础的当然是共有标签,重复度,当然要剔除很基础的日常词汇,保留分类性的,这个不能简单由前10来实现,比如‘你好’被分词出来,而且频度很高,却不适合做标签的; 有些热门的...
...uz,或者能够提供数据库了 能否换种思路把HTML页面的标签也作为字段,那么HTML标签中间的内容也可以检索,这样就很强大了!!呵呵
如包含单字母e m 则报错 其实我觉得这个很好修正的 可以把标签临时使用绝对不冲突的字符串 如ascii中的控制符号 之后做个replace体会下就可以了 这种关键字还是有实际使用的 比如 e book
全部是英文单词 数据来源: twitter tumblr amazon alibaba flickr 等的标签 原来多是词组形式 改成了scws的单字形式 没有附加任何属性 也就是说全部使用默认属性 参考 http://www.xunsearch.com/doc/php/guide/index.dict
...键或者键名键值来定义搜索,我在想,能不能定义html的标签,来检索内容 否则的话,百度或者google是怎么去检索那些静态的网页或文档的,可能 那些网页都不是有数据库的!那如何收录?