...法,前者采用正向最大匹配2级交叉消岐,而后者采用的是双向匹配综合消岐。并没有绝对的谁优谁劣,似乎半斤八两。 两者都是基于词典词频查询,推荐词典格式为 cdb,因为它在 PHP 中有捆绑而且同时支持 windows 和 *Unix* ,...
如果你了解scws就会知道它其实对散字也是自动二元处理。 你所谓的一元是一个字一个词?你也可以拓展 XSTokenizer 自己实现分词
...扩展不支持的警告,而网站的正常运行已经说明了此扩展是打开的 因为检测工具是通过命令行运行的,遂怀疑此运行方式与通过apache运行所依赖的php.ini不同,通过试验,想法得以验证,解决办法如下: 将php.ini拷贝到windows/,将...
编写第一个配置文件 `Xunsearch` 的配置文件是纯文本的 `INI` 格式,用任何文本编辑器均可编写,在 `Unix` 类型的系统下推荐 用 `vi`,而 `Windows` 下可以用记事本或 `EditPlus` 进行编写。我们也正在计划不久的将来制作一...
...ote='hightman' pid='30' dateline='1316510603'] 参见代码如下,说明是$prefix/tmp 目录无法写入文件,检查一下目录是否存在,以及检查 indexd.log 看看里面的错误信息是什么。 752 sprintf(rcvfile, DEFAULT_TEMP_DIR "%s_%s.rcv", conn->user->name, db->n...
[quote='3左3右' pid='106' dateline='1319192293'] 已解决,原来是我get一个参数,但是没有在url里面传值。。。。 demo 项目在本地可以运行 search.php中的代码: $xs = new XS(`demo`); $search = $xs->search; $doc = $search->search("项目"); print_r($doc) ...
全是 /un 应该是词典不工作。这个词库应该是不依赖机器字节序的啊 TXT没有提供下载,但我们提供了PHP的脚本可以将XDB转换成TXT
...dict.xdb'); scws_set_rule($sh, '/path/to/rules.ini'); 就没警告了,但是不管有没有这两句,返回结果都是不对的,返回都是8个词。 $top = scws_get_tops($sh, 5,'n'); 如果这写返回的都为名词没错。 $top = scws_get_tops($sh, 5,'n,v');这样还是返回的都是一...
...? [/quote] 当然有啊,你看一下说明吧. 我不清楚你用的是什么方式,是PHP还是c的API, set_dict 时的第二参数可以指定将词典读入内存的.
...数字会给去掉 再测试了自带的scws程序,加上-I选项后也是同样的,全角字符不显示 下面是我的测试。 [xxxxxx@www etc]$ scws -r rules.utf8.ini -d dict.utf8.xdb -c utf-8 -I 今天花了12万元啊 今 天花 了 万 元 啊 [xxxxx@www etc]$ scws -v scws ...