搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

121.RE: scws_has_word的逻辑问题

发布时间：2010-07-29 14:07 t By hightman

关于has_word, 不是很明白你的意思, has_word 用于检测当前文本中是否包含这些属性的词。 scws_get_words 是按词性返回分词结果，标点的词应该默认应该是 un 或 # 之类可以自行排除。

SCWS 全称是 Simple Chinese Words Segmentation 即简易中文分词系统。 [url=http://www.xunsearch.com/scws][b][size=5][color=#FFA500]2010/01, scws-1.1.0 发布，支持加载文本词典，下载及介绍请进项目站点 http://www.xunsearch.com/scws[/color][/size][/b][/url] [url=http://w...

123.三个问题需要求教

发布时间：2011-01-17 11:01 t By nftw

...一体。有没有办法？ 3， GB2312编码中的繁体字不能正常分词，如“家電節能”，会分为　“家＋電＋節＋能”。总之 scws用着很顺手，感谢hightman.

124.RE: xunsearch-1.4.5 (基于 xapian 和 scws开源中文搜索引擎，高扛压不死锁)

发布时间：2013-03-28 12:03 t By vus520

...现在的问题是想通过XSTokenizerScws来获取指定文本的自定义分词结果。sdk使用了github里最新的版本，词典格式由一楼所示，现在取出来的结果并不包含任何自定义词典的关键词，求解。[/code] [php] $text =

125.RE: scws 词库与dict_user.txt文件有什么关系？

发布时间：2012-04-19 11:04 t By hightman

不明白你说的。同义词是基于分词后的结果制作的。如果你的索引先前制作，后面再添加自定义词，那么当然无效了。你要重建索引

126.使用SCWS的libscws C源码，测试分词不成功

发布时间：2014-01-02 18:01 t By banderuilq

1，下载了SCWS的源码，使用其中的libscws； 2，并下载了　[简体中文(UTF-8) (3.9MB，28万词，2013/01/08更新)] scws-dict-chs-utf8.tar.bz2。 3，使用示例代码： #include #include #define SCWS_PREFIX "/usr/local/scws" main() { scws_t s; scws_res_t r...

127.RE: scws_has_word的逻辑问题

更新时间：2010-07-29 15:07 t By backluck

...本中是否包含这些属性的词。 scws_get_words 是按词性返回分词结果，标点的词应该默认应该是 un 或 # 之类可以自行排除。 [/quote] 关于has_word，我的意思是说，当我不传属性参数，返回的会是0

128.发布 xunsearch-1.0.0b3 (全文检索，基于xapian和scws)

更新时间：2011-09-19 15:09 t By hightman

...ghtman: PHP-SDK: 调整 XSTokenizer 支持在搜索语句中执行自定义分词 * 2011-09-16 hightman: 修正安装脚本 setup.sh 中 'read -e' 的兼容问题

129.关于 Xunsearch PHP-SDK

...采用 C/C++ 编写，索引设计基于著名而悠久的 [Xapian][1]，分词采用自主研发同样也是开源的 [SCWS分词][2]，两者完美结合，理论上单个搜索库支持 40 亿条记录。可编译运行于 Linux/FreeBSD 等各种 UNIX 类型的系统。 *Xunsearch PHP-SDK* 是...

130.xunsearch-1.4.7 (基于 xapian+scws 的开源中文搜索引擎，诸多细节改进)

发布时间：2013-07-30 11:07 t By hightman

... C/C++ 开发多线程服务端，索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据，在 5 亿网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。 [b]简单易用：[/b]前端是使用脚本语言编写的开发工具 (SDK)，目前仅支持...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

搜索