[quote='hightman' pid='3550' dateline='1273972998'] 没有什么太大的问题,但必须存一个冗余字段。以前就有建议过一些朋友这么做。 还有,MYISAM内置的全文也只是一个简单的解决方案,最终效果可能也不是非常好,根据以前的测试50万...
只是。。。 没法用而已。。 因为英文中都是用空格进行分割的 不过如果将ft_min_word_len改为2, 然后在程序里将内容用scws进行分词,然后存入数据库单独的字段里,用空格分开,检索的时候, 用mysql的全文检索,可以检索到...
...明显csws把email,网址给拆开了,还有标签没有去除,但是中文词是正确的分开了 postgres=# SELECT to_tsvector('zw_simple','pgsql中国社区论坛 http://www.pgsqldb.org:8079 chenaishen@263.net'); to_tsve...
...工具和应用产品。 [b]主要更新如下:[/b] 1. 内部优化中文复合词的查询分析器,升级整合最新的 xapian-1.2.8、scws-1.1.9 2. 新增自动同义词搜索功能,详见同义词专题文档 [url]http://www.xunsearch.com/doc/php/guide/special.synonym[/url] 3...
...高 另外,scws对于中英文分词效果不是很好,即文中的中文分得还可以,但对于页面中的英文部分,包括email,url,host这类处理效果比较差,我们目前采用两个分析器配合使用来达到最好的效果,要是scws能处理得了像email,host,url...
...人。共同学习才能共同提高,取长补短,分词是很重要的中文信息分析基础技术,中国的信息化建设要达到国际水平,分词技术一定不可以少的,一定要有很多的具有奉献精神的有志之士共同努力,hightman就是我学习的榜样:)
...文本: SCWS 是 Simple Chinese Words Segmentation 的缩写,即简易中文分词系统。 ************** 第一次提交 ********************************* No. WordString Attr Weight(times) ------------------------------------------------- 01. 缩写 n 6.72...