网址和EMAIL tsearch都可以配置token的切分方法,可以整个切,也可以分开 html标签 tsearch也有一个tag token可以配置去不去徐
...行排除... 还请站长指教一二,或者有经验的朋友指点一下啊。 非常感谢!
但网址和EMAIL如果这样切,也太粗糙了吧。要全部匹配才能检索到,输入 EMAIL 的前段或网址的一部分均检索不到了。 至于消除 HTML 标签,这不应该是分词的事哦
http://www.hightman.cn/bbs/showthread.php?tid=712 里面有解释啊
想配置下scws_set_multi()这个函数,但是不知道xunsearch在哪里调用scws的代码,请问下xunsearch在哪里调用?
php5.3.3 scws_get_result有警告,并得不到分析结果,麻烦看一下 $res = scws_get_result($cws) Warning: scws_get_result() expects exactly 2 parameters, 1 given in /data/web/htdocs/scws.php on line 54 我这样用就OK,并且有结果返回 $res = scws_get_result($cws,null)
你好,我们最近在postgresql整合了scws,效果很棒,现在我们自己增加了一些词库,不知道xdb与txt相比,那个效率更高 另外,scws对于中英文分词效果不是很好,即文中的中文分得还可以,但对于页面中的英文部分,包括email,url,hos...
返回的时候根据长度排除啊,GBK的话单字就是2字节,很好判断啊,UTF-8三字节,但也能判断出是不是一个单个的汉字
[quote='hightman' pid='3685' dateline='1282406611'] 返回的时候根据长度排除啊,GBK的话单字就是2字节,很好判断啊,UTF-8三字节,但也能判断出是不是一个单个的汉字 [/quote] 原来如此。明白了。非常感谢!