我在自己的网站上使用scws做分词,当文章中有类似PC-BSD之类有连字符的英文词时,都分成类“PC - BSD”,但这是个软件名,本不应分开,英文中加-号的一般都视为一个词,按理说不应分开的,有什么方法解决吗?
这个目录SCWS是按分开处理的, 主要是考虑了搜索实用性, 呵呵. 如果你要它连在一起, 得修改一下代码, 修改 libscws/scws.c 然后重新编译 [code] *** scws.c Sun May 9 01:16:11 2010 --- scws.c.condj Thu Jun 24 11:00:20 2010 *************** *** 326,342 **** ...
...词作为百分比,如 33.3% 作为整词而不再是 33.3 和 % 3.修改连字符(-)和下划线(_)的规则,当出现在字母单词之间时视为同一词而不再强行切开,此时如果激活复合分词的 DUALITY 选项,则仍能将符号切开作为复合词。 4.修正浮点数的...
...词作为百分比,如 33.3% 作为整词而不再是 33.3 和 % 修改连字符(-)和下划线(_)的规则,当出现在字母单词之间时视为同一词而不再强行切开,此时如果激活复合分词的 DUALITY 选项,则仍能将符号切开作为复合词。 修正浮点数的...
...e: 前一个关键词和减号之间必须有空格分开,否则会被当连字符处理,减号和后一个关键词之间不能有空格。 ~~~ [php] $search->search('神雕侠侣 -电视剧'); // 正确用法1 $search->search('神雕侠侣 NOT 电视剧'); // 正确用法2 $search->search('...