...要经常频繁的进行分词操作就应该采用mem方式,比如搜索引擎的建索引时主要耗费的时间都花费在分词上,反正现在内存也便宜,而且词典不算太大。如果程序偶尔才需要分一下词,那就没必要load到内存里了。 [/quote] 恩,主...
...0.。 这个BUG其实还真不易发现,因为通常超出一字节不引擎崩溃~~ 多谢了,我在CVS代码中修正了,回头发布 1.1.4 修正这个问题。 [code] *** xdb.c 29 Jan 2010 04:33:27 -0000 1.8 --- xdb.c 30 Dec 2010 08:54:18 -0000 *************** *** 52...
...强大,越来越多的用户采用 xunsearch 定制开发自己的搜索引擎。本贴子长期收集各种经典案例,不论网站名气和流量,只看 xunsearch 开发效果好与坏。 其它用户的案例可以回贴告知我们,能附上网站简介说明更好,我们会不定期...
...录log”,但从你2小时未记录log来看,似乎用户后者搜索引擎能通过别的域名访问你的网站 比如,你在代码中配置的是www.xxxx.com,而蜘蛛通过无www的域名访问 过滤蜘蛛应该用user_agent [/quote] 我不会去用user_agent的 麻烦 全部...
...0.。 这个BUG其实还真不易发现,因为通常超出一字节不引擎崩溃~~ 多谢了,我在CVS代码中修正了,回头发布 1.1.4 修正这个问题。 [code] *** xdb.c 29 Jan 2010 04:33:27 -0000 1.8 --- xdb.c 30 Dec 2010 08:54:18 -0000 ***************...
...面的用法和 Unix 版本完全一样,注意此 dll 文件仅是分词引擎,并不包括分词规则文件和词典,请从已发布的 scws-pre 版本中提取词典和 rule 文件。
...针对既有的海量数据,快速而方便地建立自己的全文搜索引擎。全文检索可以帮助您降低服务器搜索负荷、极大程度的提高搜索速度和用户体验。 [b]高性能:[/b]后端是采用 C/C++ 开发多线程服务端,索引设计基于 Xapian 和 scws ...
代码里特殊定义了这些字符不过滤,原因是跟搜索引擎配套开发时,这些字符都有特殊含义用于搜索,所以当时强制没有过滤。 下一版本会纳入,如需自行修改请按以下方式修改: [code] *** scws.c 8 May 2010 17:28:30 -0000 1.17 ...
...分词和全文搜索。 就是因为提取出更多的页面,让搜索引擎蜘蛛没完没了的爬,达到网页聚合的目的。这样做我估计对优化很有帮助。 选择scws的原因是比较了几个中文分词后,感觉scws是一个不错的分词系统。 xunsearch速度也比...
...arch.query)中,如果指明了字段搜索前缀 `field:XXX` 那么搜索引擎内部也会 对这个搜索语句执行自定义分词。 ~~~ [php] [some_field] ; 不带参数的用法 tokenizer = xyz ; 带参数的用法,表示把 _ 作为参数传递给构造函数 tokenizer = xyz(_) ~~~ [1...