...,如果你在不同线程中切分建议各自用一个 mode ,除非你自己能确定它们的切词设置是共用的(主要用于保存切词中那些是否忽略符号,是否复合分词等的设置)
...这些要过滤的词新增加文本词典,属性设为 ! 即可。或者自己根据词性直接在取得返回值的时候排除它。。 尝试了下,是可以的!!!多谢
我之前测试都是在自己的电脑上,可以安装SCWS的插件,但是我现在想把网站移植到都网络上,才发现虚拟服务器没有办法安装分词插件,那我还能有什么办法呀? 非常感谢!!
[quote='hightman' pid='3473' dateline='1361873508'] 自己规划就行了,xapian库支持远程的 [/quote] 你好,怎么支持远程呢,有相关资料吗
...php-scws-windows-edtion/ [/quote] 谢谢,我复制一份到这下载吧,自己也能用用:) 对了词典制作其实用PHP脚本也能作,我忘了放出来呵
...句子里提取其中词频比较高的名词。想到用自定义词典,自己整理英文词。但是发现一个问题。。比如hip pop这样也是一个名词,那现在自定义词典里肯定不能有空格的啊。老大能不能把这个也解决一下,这样的话,大家一起提...
是你自己搞错了! “是一”本身不是词,只是因为二元结合法所以scws自动将其合成为一个词。 复合分词是对原本是词的长词情况处理的,比如”中国“可以切成”中“+”国“+”中国“ 你的问题必须是 [code] $tk = $tokenizer->s...
原来是这样,分库倒是个不错的主意。自己根据条件决定要不要 addDb() 我担心的是通过 value 匹配才导致的慢,比如 addRange() 调用 或 setFacets()
...建了一次,数据全丢了... 啥情况啊[hr] 问题挺严重的,也是自己写的程序,平滑update了几条数据 结果就只有update的那几条数据,其他的全没了,太恐怖了...