...你这段字是用空格或逗号分隔,那么你可以用 split 这个分词器啊。 搜索的时候搜索任何一个分割后的TAG都可以搜索到。 [/quote] 呵呵,管理员没听明白楼主的意思,他希望xunsearch能提供分词接口,给其他程序使用。 我们经...
数据量太大了,导致分词搜索结果数太多,反而不精准了。 所以想在某些情况下可以关闭分词功能,输入的是什么就搜索什么。 翻到了这个帖子 http://bbs.xunsearch.com/showthread.php?tid=2141&pid=4025#pid4025 根据回复是设置为0即可,...
...ghtman' pid='251' dateline='1322149925'] 不是很明白,你说的自动分词??是什么意思 你在配置文件中不要指定 tokenizer 选项就会自动使用 SCWS 分词了。 [/quote] 嗯,可能描述不清。 我就是想有一段文字,然后根据这段文字分词,...
需要 NEAR 位置信息的话,目前只能用内置的 scws 分词 scws 目前不能自定义词库,你必须把词库转换成 dict.utf8.xdb 一个统一的词库放进 $prefix/etc/ 才可以
多谢汇报,根据词典机械分词存在一定的误分率。 因为该词典从互联网信息为主要语料进行取值,故可能存在一些错误,只要将词典中的 年高 词频调低即可。 若不方便改词典可以加一个文本词典,并将 年高 词频减低。
锅炉的用法上 No. WordString Attr Weight(times) ------------------------------------------------- 01. 法上 nz 14.14(1) 02. 锅炉 n 5.86(1) 分词也不对的[hr] 下载的rules.ini里没有v+v=10这个东西
看上去你的分词程序并没有成功加载词典。 你最好按照安装说明进行操作,不必复制DEMO.PHP,毕竟你的安装路径可能和我不一样。要依据词典路径的