搜索其实是很快的,只是传输结果集实在是太慢了,个人觉得应该提供另外一种模式:先把要发送的所有记录或者部分记录打包,然后统一分段发送,这样可以减少发送端和接收端的网络io操作次数
但网址和EMAIL如果这样切,也太粗糙了吧。要全部匹配才能检索到,输入 EMAIL 的前段或网址的一部分均检索不到了。 至于消除 HTML 标签,这不应该是分词的事哦
[quote]压缩包中包括以下部分: etc/ - gbk 版本词典和rules.ini libscws/ - scws 库核心代码 phpext/ - php4 扩展代码 (注意必须是 PHP4) src/ - scws 命令行工具 --- Notice: src/ 下的 cmd.c 必须先编译 libscws/ 生成 libscws.a 才可...
...、英文、英文标点、中文标点、中文等文字要素(可阅读部分,HTML已过滤),视情况而定,搜索引擎还有可能抓出含有乱码的片段。 但是SCWS分词时似乎要求字符串中只能有中文和中文标点,否则就会分词失败。 请问这个是我...
...翻译了下1.1.5的版本到java上 算法略有变化,将rulebased的部分移动到了最后, 感觉误识别的概率降下来了,虽然召回率有些低 有需要java版本的联系我,qq44720124[hr] 另外,高人同学可以考虑下这几个问题: 1.词性参与权重计算...
...有可能的词都列出来,建成一个2维表,然后把有岐义的部分拧出来,以其中一个词为主体进行计算权重,看哪个情况最优。 此外还有根据rules规则匹配。 简单举个例子: “开放下载” 1. 开/放下/载 2. 开放/下载 根据词...
1.没有记录,不能直接调,系统只记录了一部分干净的词用于统计热门搜索、拼音建议 2.search.log是一个交换文件,系统定时取走更新入 log_db,不必理它。
原随 scws 一起发布的简体中文 xdb 词典存在部分问题,导致一些冷僻汉字不能做到散字自动二元,甚至被当做标点符号清除。 现已更新词典,修正该问题,强烈建议重新下载新词典。下载地址: [URL]http://www.ftphp.com/scws/download....
...目没有写入数据的时候会出现 你先不理他,直接写入一部分数据,然后再检索,应该就没有这个错误了。 [/quote] 谢谢指教,不过我试了下,这个办法我这里没成功,后来只有删除了重新建的。