...rch采用 scws 分词 xunsearch好像集成了 scws 对于分词 xunsearch 可以通过 XSTokenizer 扩展 我想问的是 既然是 集成scws 那么 1.有没有提供scws的api接口,实现短语分词功能 2.是否可以对scws自定义中文词典,方便扩展
如果只要文章中有Linux出现就算是Linux相关文章的话,其实是不需要分词了,直接用全文搜索Linux就好了。 只是SCWS目前看前来它的自定义词典不支持超过3个字,如果可以的话,可以通过自定义“Linux优化”来指定分词
...] 你这样不是过滤蜘蛛,是“通过代码中的域名访问时,可以记录log”,但从你2小时未记录log来看,似乎用户后者搜索引擎能通过别的域名访问你的网站 比如,你在代码中配置的是www.xxxx.com,而蜘蛛通过无www的域名访问 过...
...h采用 scws 分词 xunsearch好像集成了 scws 对于分词 xunsearch 可以通过 XSTokenizer 扩展 我想问的是 既然是 集成scws 那么 1.有没有提供scws的api接口,实现短语分词功能 2.是否可以对scws自定义中文词典,方便扩展 [/quote] 目前没有直...
其实我们提供的搜索方案是提供API的,简单来说就是你可以通过API维护数据。至于如何同步完全取决于你的作法和设计,至于JOIN也一样,这个本身不是XUNSEARCH的功能 但我们提供的辅助工具 Indexer.php 也支持 JOIN语句和多表导入。
你这样不是过滤蜘蛛,是“通过代码中的域名访问时,可以记录log”,但从你2小时未记录log来看,似乎用户后者搜索引擎能通过别的域名访问你的网站 比如,你在代码中配置的是www.xxxx.com,而蜘蛛通过无www的域名访问 过滤...
每个线程需要单独的SCWS实例 ,词典和规则集倒是可以共用的,主线程正常操作,其它线程可以在 scws 创建后通过 thread_scws->d = main_scws->d; thread_scws_r = main_scws->r; 来共用它们,因为词典和规则集都是只读而且各API都是线程安全...
这个不能随便改,但可以通过调整源码的编译参数来改。通常不需要这么做啊,实在有必要时你们可以考虑继承XSTokenizerScws 来自己修改它。