如果是xunsearch搜索日志你不需要手动导入,它已经自动处理过了。 外部来的可以导,手册很明确指出搜索日志用于拼音建议、相关搜索。至于你所谓的精准度,似乎毫无关系
...]liqinliqin[/i] 于 2007-6-22 09:35 发表 [url=http://www.hightman.cn/bbs/redirect.php?goto=findpost&pid=176&ptid=69][img]http://www.hightman.cn/bbs/images/common/back.gif[/img][/url] 按照 GPL2,scws 应该GPL2发布的, 另外,感觉你对jabberd2的代码很熟悉啊,不过从软件架...
pscws4和scws大致相同的算法,只是后来pscws4没有再进一步更新了。 粗分毕竟只是粗分,要想正式用只用其中一种肯定是不够的。 scws 里面先按逐字把所有可能的词都列出来,建成一个2维表,然后把有岐义的部分拧出来,以其...
PHP的扩展部分有DLL,C库部分因为我也不熟WIN平台,但有提供源码,如果你会弄就帮弄一下我可以在发布包中一并提供。 像你这样的情况因为“沈阳若”被识别为姓名了,这是一种比较难以决断的岐议,要说分成“小”“沈阳若...
你要用自定义词库 编写一个 dict_extra.txt 里面写上每个词,一个一行 然后调用 add_dict 加入词典
需要修改源码,就是这个宏MAX_SEARCH_RESULT
现在网页上下载的已经全部统一为GBK编码了,目前测试在MACOS下面不会乱码了。看抓图
Indexer.php 你可以在 sql 语句中指定 offset 和 limit --sql="select * from cdb_posts limit 999999999999 offset 5000000" 类似这样,OFFSET 不能单用必须配合 limit