[quote='hightman' pid='7103' dateline='1319824645'] 你要用自定义词库 编写一个 dict_extra.txt 里面写上每个词,一个一行 然后调用 add_dict 加入词典 [/quote] 您好,用自定义词库是可以解决但却不是太方便,如果SCWS不能这样的配置,...
[quote]原帖由 [i]hightman[/i] 于 2008-3-17 11:53 发表 [url=http://www.hightman.cn/bbs/redirect.php?goto=findpost&pid=964&ptid=321][img]http://www.hightman.cn/bbs/images/common/back.gif[/img][/url] 谢谢,我复制一份到这下载吧,自己也能用用:) 对了词典制作其实用PHP脚...
我下载安装地址: [url=http://www.hightman.cn/down/scws-1.0.0.tar.gz]http://www.hightman.cn/down/scws-1.0.0.tar.gz[/url] 下载演示代码: [url=http://www.hightman.cn/demo/scws/v48.php]http://www.hightman.cn/demo/scws/v48.php[/url] 在我服务器测试时候,分词结果与你上面显...
是你自己搞错了! “是一”本身不是词,只是因为二元结合法所以scws自动将其合成为一个词。 复合分词是对原本是词的长词情况处理的,比如”中国“可以切成”中“+”国“+”中国“ 你的问题必须是 [code] $tk = $tokenizer->s...
这个目录SCWS是按分开处理的, 主要是考虑了搜索实用性, 呵呵. 如果你要它连在一起, 得修改一下代码, 修改 libscws/scws.c 然后重新编译 [code] *** scws.c Sun May 9 01:16:11 2010 --- scws.c.condj Thu Jun 24 11:00:20 2010 *************** *** 326,342 **** ...
字段多个值是什么意思呢? 这段值可以只有一个,但可以索引多个词汇。 比如你有一个字段叫 date 存的是 2011-11-07 那么你可以在索引的时候通过 $doc->addTerm('date', '2011'); $doc->addTerm('date', '201111'); 这样就可以通过 date:2011 或 date...
[quote='hightman' pid='3250' dateline='1359526203'] 是你自己搞错了! “是一”本身不是词,只是因为二元结合法所以scws自动将其合成为一个词。 复合分词是对原本是词的长词情况处理的,比如”中国“可以切成”中“+”国“+”中...
hi hightman, 我对“Surface上一财年仅为微软创收8.53亿美元,甚至不抵库存调整费用”进行分词,结果是“Surface/en 上一/nz 财/n 年仅/n 为/v 微软/nz 创收/v 8.53/en 亿/m 美元/q ,/un 甚至/d 不/d 抵/v 库存/n 调整/vn 费用/n ”。我在dict_extr...
还可以这样索引啊,学习了。 [quote='hightman' pid='366' dateline='1324273957'] 字段多个值是什么意思呢? 这段值可以只有一个,但可以索引多个词汇。 比如你有一个字段叫 date 存的是 2011-11-07 那么你可以在索引的时候通过 $doc-...
...xunsearch-full-latest.tar.bz2[/url] 代码仓库:[url]https://github.com/hightman/xunsearch[/url] 修改日志:[url]https://github.com/hightman/xunsearch/commits/1.0.0b5[/url] * 2011-09-21 18:27:25 +0800 96702ea hightman: PHP-SDK: 修正工具脚本的非 UTF-8 时的问题 * 2011-09-21 17:44:1...