单字标为 @ 是以前遗留下来的, 未确定词性, 还有一部分被标为 un 了, 建议把 un 改为 '@' ,否则可能导致散字自动聚合成2元分词时会不聚合.
如果凑成了词,搜索单字是搜索不到的。默认会启用二元切割,把散字智能聚合成 双字的词。 因为通常情况搜索单字意义不大。
...出更多的页面,让搜索引擎蜘蛛没完没了的爬,达到网页聚合的目的。这样做我估计对优化很有帮助。 选择scws的原因是比较了几个中文分词后,感觉scws是一个不错的分词系统。 xunsearch速度也比较快。安装的过程中也遇到了不...
...词。 $so->set_multi(false); //设定将文字自动以二字分词法聚合 $so->set_duality(true); //要进行分词的语句 $so->send_text("朝鲜近日播放的一个纪录片中,发现"); //获取分词结果,如果提取高频词用get_tops方法 while ($words = $so->get_result())...
...字段检索、结果高亮、字段排序、布尔语法、区间检索、聚合搜索、相关搜索、 权重微调、*拼音搜索*、*搜索建议*等专业搜索引擎具备的各项功能。这也是本项目 相对于其它开源搜索软件的重要优势。 适合哪些应用领域...
...完毕大概是 1.5MB文本/秒) 测试过程中开启了散字自动二元聚合, 长词自动补切为短词, 开启了人名地名数字智能识别等功能, 基本上是针对搜索引擎专用的分词配置, 效果还是比较令人满意的!! [code] +--[scws(scws-cli/1.0.0)]----------+ | Tex...