这个应该没办法,所有的调整都是基于词典,也就是词典的优先级最最高了。 可以用程序扫出类似的词来删除它们,因为互联网语料库这些自动都列到词里了。
翻了翻之前的帖子,基本都是说xunsearch非常的吃硬盘.. 我的数据大概在50W条左右,data目录只有不到500M的内容...但是每次搜索都需要40s(真的是40s)的时间才能返回数据 主机是在阿里云上面的,确实磁盘性能很差.. 有什么办法能把数...
大家好,想问下 我本地测试删除都是可以的 跑线上删除就是不行。。rebuild 单条删除 cleanindex都试过[hr] 换个名字完全可以。。。。项目名名字过长?
因为你用|分隔,所以要用 type:aaa|bbb 来做语句。 空格在语句中都是特殊的,所以如果用空格分隔可能会不对
通常英文是不需要分词的,但很多时候词性是需要的,比如nike,dior这类品牌英文。 目前默认词性都是en,有什么办法可否自定义词典来改变他的词性。 还有个问题,就是纯数字的词性为什么是en呢,不是m? 望赐教。
ubuntu13.04是用amd64.iso在虚拟机里安装的 分词几乎都是un 而在另一个32位ubuntu上则正常 字典是完好的的xdb 顺便问下有无txt格式的字典下载,用scws_gen_dict生成不知道行否
理论上不应该啊 我多次倒入几万条数据 其中每笔都是少量是新的 也没发现重复啊[hr] 你把操作数据贴出来 让别人重现一下 我怀疑你的主键输入过程中带了不可见字符
谢谢马老师 [ 应该是吧:-)]的及时回复。 我在研读代码的时候,看到有段代码注释着,是对半字的处理,并不是很理解,对于文字都是1-4字节的UTF-8存储编码。 半字是种什么情况呢?