void scws_set_multi(scws_t s, int mode); 描述:设定分词执行时是否执行针对长词复合切分。(例如:中国人->中国+人+中国人)。参数 mode 表示复合分词法的级别,取值为 1 ~ 15。mode 设定值,1~15。[b]按位与[/b]的 1|2|4|8 依次表示 短词|二...
这个不能随便改,但可以通过调整源码的编译参数来改。通常不需要这么做啊,实在有必要时你们可以考虑继承XSTokenizerScws 来自己修改它。
[quote='hightman' pid='3251' dateline='1359526251'] 这个不能随便改,但可以通过调整源码的编译参数来改。通常不需要这么做啊,实在有必要时你们可以考虑继承XSTokenizerScws 来自己修改它。 [/quote] 感谢,我就是这么干的~
[quote='hightman' pid='562' dateline='1330199583'] 不会的啊,默认就是-M3呀 [/quote] 如何设置成其他的值呀 最近的一个项目需要全部的单字 在项目的ini里,tokenizer = default 如果是3的话 不知到如何改成11 是否是使用xlen(1) 来设置?这个xl...
Hi Hightman, 您好! 非常感谢您做的scws分词和xunsearch系统, 最近我们在做网站的搜寻服务, 考察了coreseek, sphinx-for-chinese 和 xunsearch 这三个系统, 觉得还是 xunsearch 比较适合, 因为词典制作和查询的方式都较另外二者灵活. 在今天做...
...charset.c 中定义的全局变量,应当已经是共用的了; 至于 mode 看需要吧,只是一个整型 ,如果你在不同线程中切分建议各自用一个 mode ,除非你自己能确定它们的切词设置是共用的(主要用于保存切词中那些是否忽略符号,是否...
...指针了。 [code]int scws_add_dict(scws_t s, const char *fpath, int mode) { xdict_t xx; if (mode & SCWS_XDICT_SET) { xdict_close(s->d); mode ^= SCWS_XDICT_SET; s->d = NULL; } xx = s->d; s->d = xdict_add(s->d, fpath, mode, s->mblen); return (xx == s->d ? -1 : 0); } [/...
...謝您的建議 最初合併字典後,用較長的內文 + IN BOOLEAN MODE 搜尋,會有 0 筆資料的情況,後來反覆縮短原文查詢發現,多數與 att = un 有關聯,只是不敢武斷就是了。 本週一,狠心將 un 完全調成 a (形容词),同時完全移除只有...