...继续发布,修正了一些工具脚本在非UTF-8字符集下的兼容问题,预计本周五发布第一个正式稳定版。 下载地址:[url]http://www.xunsearch.com/download/xunsearch-full-latest.tar.bz2[/url] 代码仓库:[url]https://github.com/hightman/xunsearch[/url] 修改日志...
楼上你的情况是因为你对API使用不正确, scws_get_result 应该循环调用 while ($words = scws_get_result($sh)) { foreach ($words as $word) { print_r($word); } } 此外, 繁体词库很不完善, 缺词太多而且有一些词也不正确
1, 当英文或数字与汉字链接时,词性会被视为un。如"LG集团",LG与集团紧连着,这种情况下,我希望把LG也视为en。能不能通过修改rules改变呢?因为我不是太理解un指的是什么,好像助词'的'、标点符号等都被视为un。我在插入...
感谢SCWS提供了这么优秀的中文分词库. 我有个问题如下: 文字内容为:"武汉车友会的地盘,听武汉车友的,来这里涂鸦吧" 我希望分词结果为 武汉车友会,武汉车友 ,其他的词都不要.该如何做呢. 传递参数如下: array('data'=>$data, 'igno...
使用scws-1.2.2时,遇到这样一个问题,对于以下两个句子 “情歌接龙大串烧,情人节好礼多多” “武松杀嫂雕塑是艺术,还是恶俗?大家怎么看的?” 没有加上rule.utf8.ini时,得到如下结果 情歌/n 接龙/n 大/a 串烧/v ,/un 情人...
运行 configure 时有没有正确的指定了 scws 的路径呢, 看这样的提示应该是有一些头文件丢失导致了struct 定义缺失, 所以就大量的 .h 出现语法错误. 看你这里的提示应该是缺省 pthread 库... 检查一下吧
to hightman: 在xdict.h文件中,有这么一行注释,能否说明一下: /* return pointer to static data, DO NOT use two or more times in one line, Non-ThreadSafe */ word_t xdict_query(xdict_t xd, const char *key, int len); xdict_query() 不是线程安全的? 看代码xdict_...
那个属性对分词效果有一定影响的,TF主要用于词的切分,IDF用于统计,词性就用在取TOP时过滤或标注上。 最好是基于现有的词典去补充,你重建一个的话数据又都没有效果可能会比较差。SCWS主页上有一个TF/IDF计算器,你可...
使用中发现setLimit大于100是无效的,最大只能为100,查了一下论坛说因为作cache的原因,所以一次最大只返回100。由于我根据作文章的查询,比如说每页显示100条标题的话,最大值为100的话,在用户点击下一页的,又要连接一次xu...