...->send_text($str); $sk = $so->get_result(); 这样,会得不到增加词库的效果, 必须: $so = scws_new(); $so->add_dict(LIB_DIR.'/scws/ext/dict.utf8.xdb');[b]//这里阿。。[/b] $so->add_dict(LIB_DIR.'/scws/phptool/dels.txt', SCWS_XDICT_TXT); $so->send_text($str); $sk = $so...
建议支持词库里的词可以是纯英文单词,虽然在分词时英文单词可以自动识别切分开,但在关键词提取和非法词过滤时却无法提取出或过滤掉纯英文单词。 比如:我要从一些商品名中提取一些品牌:adidas nike。。。对商品名分词...
...词,这样它会被当作一个整词。 通常 un 是指不存在于词库中的字词,对于你这个情况,你可以修改 libscws/scws.c 第 680 行把 attr_un 改为 attr_en 即可,如果需要严格一点可以先判断一下 ch 是否为字母, 如以下: ...
你要用自定义词库 编写一个 dict_extra.txt 里面写上每个词,一个一行 然后调用 add_dict 加入词典
...url] 得到的结果为“华硕/主板/H/61/-/PLUS”。尝试过自定义词库,$prefix/data/项目名称/dict_user.txt 加入H61,但是不起作用,中文词汇是可以的。如果想分词结果中有H61,是不是只能自定义分词了?像这种商品的型号中很多类似的,...
... $so->set_ignore(0); $so->set_multi(0); 就是不行. 我也怀疑是词库加不上的问题.这个问题太奇怪了. 不显式 set_dict 或 add_dict 那就很正常.[hr] 再次确定了下,显式加载字典后.总有点异常情况. http://116.252.185.149/fs360/web.php?words=%E9%82%...
...或者.xdb文件已损坏所导致的. 我发一份我这边正确导出的词库吧.(你可以从附件处下载) 而对于其中的 TF / IDF 则相应的表示该词的词频率系统以及逆词频率(表示词重要性), 你可以参考现有的词造一个系数. 而词性标注请看这...
...会出错呢? 我直接在代码中修改那里呢? 上边指定的词库也是UTF8啊 您能否提供完整实例下载呢,直接查看您源码就是乱码,我要右键选择编码,完后复制的![hr] extension = scws.so scws.default.charset = utf8 scws.default.fpath = /usr/loc...
... “ABC中国足球" 之类的结果 // 对于上面的词 如果词库中有 “ABC中国足球” “中国足球” // 旧代码切词结果是“ABC” “中国足球" // 修改后的切词结果是 "ABC中国足球” if (!(pflag & PFLAG_ALNUM) || zlen > MAX_AL...