由于在 xdict.h 中定义 SCWS_WORD_MALLOCED 的值为 0x100 ,而 struct scws_word 中的 flag 为 unsigned char,故导致该 flag 失效从而造成内存泄露,将其值改为 0x80 即可。此 bug 仅存在于 1.1.0 版。(感谢[url=http://www.hightman.cn/bbs/showthread.php?tid=716]backl...
HM,您好,我目前使用自定义词库实现分词,但是通过scws_get_top5()方法获取数据的时候(字母+数字大于等于3个的时候也会返回)。求过滤方案。 $sh = scws_open(); scws_set_charset($sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_...
...过 socket 与其对话即可,客户端用什么语言都方便的实现,发布包中附带了一系列 misc/CWS_*.php,均是采用 PHP 编写的访问例子。切词速度比原 PHP直接分词要提高数十倍以上。 词典采用的是 .txt 格式,解决了编辑困扰问题。格式...
...一下如何把0.0.1-pre版本的dict.xdb转换成txt呢?我找到了您发布的scws-v23里面的mk_txt.php,但是好像和新版本的xdb词库不兼容,能否麻烦提供一个txt格式的词库下载?多谢指教。 p.s. 感谢hightman坛主为开源事业所做出的杰出努力,...
我用您发布的工具,把字典解压。得出了关于的词的字段 WORD TF IDF ATTR 当机立断 14.01 8.10 i WORD ATTR我都能理解。 上贴说的逐字分词后 计算权重的时候使用IDF,貌似就是类似基于字典的最大概率方式来定义权重...
经过 2 周如火如荼的测试和修正,很高兴如期发布 xunsearch-1.0.0 正式稳定版,这也是 xunsearch 的第一个正式版本。 Xunsearch 是免费开源的专业全文检索解决方案,旨在帮助一般开发者针对既有的海量数据,快速而方便地建立自己...
...ttp://www.xunsearch.com/scws][b][size=5][color=#FFA500]2010/01, scws-1.1.0 发布,支持加载文本词典,下载及介绍请进项目站点 http://www.xunsearch.com/scws[/color][/size][/b][/url] [url=http://www.xunsearch.com/scws][b]2008/12, scws-1.0.1 发布[/b][/url] [url=http://bbs.xunsearc...
好消息,scws-0.0.1 pre 版提前发布,好多朋友不停的期待和催盼,这个套件先发布一个 pre 版。包括了全部代码和一份GBK词典和相关说明。为适当统计下载的人群和数量,该文件设为必须必须论坛会员才能下载,由此不便深感抱歉...
经过 2 周如火如荼的测试和修正,很高兴如期发布 xunsearch-1.0.0 正式稳定版,这也是 xunsearch 的第一个正式版本。 Xunsearch 是免费开源的专业全文检索解决方案,旨在帮助一般开发者针对既有的海量数据,快速而方便地建立自己...
...优和改进,吸收处理了大量用户反馈意见,很高兴在今天发布 xunsearch-1.4.8 正式稳定版,强烈建议所有用户升级到这个最新稳定版! [b]主要更新如下:[/b] 1. 改进优化代码兼容性 2. 增加用户案例文档:USERCASE 3. 改进自定义...