..., 故加入以下红色部分判断. [code] static void _scws_mset_word(scws_t s, int i, int j) { word_t item; item = s->wmap[i][j]; /* hightman.070705: 加入 item == null 判断, 防止超长词(255字以上)unsigned char溢出 */ if ((item == NULL) || ((s->mode & SCWS_IGN_SYMBOL)...
...始偏移位置 - *attr* 这个词汇的词性,使用北大标注 - *word* 分好的词条 ~~~ [php] $text = '迅搜(xunsearch)是优秀的开源全文检索解决方案'; $words = $tokenizer->getResult($text); print_r($words); ~~~ ### 提取重要词汇 调用 [XSToenizerScws::getTops] 可...
... scws.c 中 __PARSE_XATTR__ 宏的 BUG 导致 scws_get_tops 和 scws_get_words 的 xattr 参数工作不正常的问题 5) 移除 scws.c 中关于 jabberd2s10 的注释,已不包含它的代码 6) 为独立使用的 .h 文件添加 C++ 的 extern "C" 标记以便直接使用:xdb.h,xdict.h,...
...品牌:adidas nike。。。对商品名分词后不能从使用scws_get_words()函数来提取指定属性的词,假如品牌的属性设置为pp,因为这些纯英文词的词性切分后都为/en。在非法词过滤时也是如此,不能使用scws_has_word()函数来判断是否有指定属...
由于在 xdict.h 中定义 SCWS_WORD_MALLOCED 的值为 0x100 ,而 struct scws_word 中的 flag 为 unsigned char,故导致该 flag 失效从而造成内存泄露,将其值改为 0x80 即可。此 bug 仅存在于 1.1.0 版。(感谢[url=http://www.hightman.cn/bbs/showthread.php?tid=716]backl...
...(原文总长度 94 字符) (这次分词结果不对,点击汇报) No. WordString Attr Weight(times) ------------------------------------------------- 01. 加分 nz 9.46(1) 02. 考试题 n 8.01(1) 03. 媳妇 n 5.82(1) 0...
...); cur = top = scws_get_tops(s, 10, NULL); while (cur != NULL) { printf("WORD: %s, weight:%.2f, times:%d, attr:%.2s\n", cur->word, cur->weight, cur->times, cur->attr); cur = cur->next; } scws_free_tops(top); scws_free(s);
...cur = top = scws_get_tops(s, 10, NULL); while (cur != NULL) { printf("WORD: %s, weight:%.2f, times:%d, attr:%.2s\n", cur->word, cur->weight, cur->times, cur->attr); cur = cur->next; } scws_free_tops(top); scws_free(s); [/quote] 实在是太好用,太牛B了。:D
... 1>e:\scws-master\scws-master\libscws\scws.c(637): error C2065: “SCWS_WORD_USED”: 未声明的标识符 1>e:\scws-master\scws-master\libscws\scws.c(648): error C2065: “SCWS_WORD_RULE”: 未声明的标识符 1>e:\scws-master\scws-master\libscws\scws.c(652): error C2065: “SCWS_WORD_USED...
PSCWS23 词典文件如何制作 xdb导入导出工具导出信息如下 ---------------------------------- # WORD TF IDF ATTR ---------------------------------- 除了表头,一个都没导出。。。。。。