...义词库的时候有的词还是会被拆分的问题?我自己定义了一个词库,我希望如果词库里面有的词会被完成的分出来,比如词是"帕萨特新领驭"被直接被拆成“帕萨特新领驭”,这个没问题。但是如果词是"帕萨特新领驭2.0",就会被...
我在自己的网站上使用scws做分词,当文章中有类似PC-BSD之类有连字符的英文词时,都分成类“PC - BSD”,但这是个软件名,本不应分开,英文中加-号的一般都视为一个词,按理说不应分开的,有什么方法解决吗?
# mydict_utf8.txt 我是新增词 爆红 再试一个 [php] $text = '最近撑腰体爆红网络我是新增词再试一个'; class scws { public $so; function get_microtime() { list($usec, $sec) = explode(' ', microtime()); return ((float)$usec + (float)$sec); } ...
...目的默认字符集。 * _--import=_ 导入搜索日志文件,每行一个词,每行的数据中可以用\\t(Tab键)分开指定次数,没有次数默认为1。 * _--put=_ 添加、更新搜索日志词汇,词与次数之间用半角冒号分隔,默认为 1 次。 多个词之...
subject 是 FULL 的?FULL的话视为布尔字段了所以不会记录到日志中。 我建议你另外开辟一个字段,内容可以和该字段一样,但索引方式不一样来处理。有所冗余,但也是目前最简便的办法吧
不好意思。。这一阵忙着毕业 很久没来看了。。 问题是, 我在添加了自定义的词库之后, 哪怕里面一个词都没有, 也是一个词都分不出来阿
...安装日志见:http://bbs.xunsearch.com/showthread.php?tid=765 我在一个vps(1G内存)上建立了两个项目,对应两个网站,大家可以测试下。效果蛮好的(已经抛弃了hdwiki自带的tag搜索和全文搜索,仅保留了它的title搜索)! a, 中文PubMed...
... #### 创建分词对象 ~~~ [php] $xs = new XS(...); // 必须先创建一个 xs 实例,否则会抛出异常 $tokenizer = new XSTokenizerScws; // 直接创建实例 ~~~ ### 获取分词结果 调用 [XSTokenizerScws::getResult] 对参数指定的文本字符串执行分词, 并返回词汇...
...把 strncpy 那句替换成 后面的2行分开扶植就可以了。最后一个 strncpy 不需要替换,因为即便只有一个字节也会有\0结尾。