...返回)。求过滤方案。 $sh = scws_open(); scws_set_charset($sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_set_rule($sh, './rules.ini');//文件内容为空 $cutword = $_POST['cutword']; scws_send_text($sh, $cutword); $rs = scws_get_tops($sh, 5); 另:我使用...
...情况下会自动搜索 ini(scws.default.fpath) 底下的 dict.xdb/dict.utf8.xdb,如果调用过 add_dict 或 set_dict 则不会再触发该功能,故采用额外词库时原核心词库必须显式地调用才行。 -- [color]新功能用法示例[/color] (php为例) -- 1. 自定义...
...情况下会自动搜索 ini(scws.default.fpath) 底下的 dict.xdb/dict.utf8.xdb,如果调用过 add_dict 或 set_dict 则不会再触发该功能,故采用额外词库时原核心词库必须显式地调用才行。 -- [color]新功能用法示例[/color] (php为例) -- 1. 自定义...
...le规则文件就可以了 $cws->set_dict('/usr/local/scws/etc/dict_chs_utf8.xdb'); $cws->set_rule('/usr/local/scws/etc/rules.utf8.ini');
发贴可以发了,之前为了挡垃圾贴搞错了。 我看你代码用的 dict.xdb 那么为何又用 rules.utf8.ini ?
...用的,不用担心性能。 你合并词典很简单啊,把 dict.utf8.xdb 导出来嘛 [/quote] 谢谢hm。还是更加期望加上直接入字典库的功能。这样更加方便,就是不知道难度如何。因为目前我的词库可能每天都有新的加进去。 PS:我是个...
...了 下是项目ini配置 project.name = study project.default_charset = utf8 server.index =8383 server.search =8384 [user_id] type = id [username] index = self tokenizer = full [password] index = both [email] index = both 后来自己又写了个php页面打印结果是一...
...出自于 PDO 的字符集修正语句,应该统写为没有带引号的 utf8 兼容性最高。 如果您在使用 INDEXER 时一直有乱码现象,请按以下方法修改一下 $prefix/sdk/php/util/XSDataSource.class.php 详见补丁文件: [url]https://github.com/hightman/xunsear...
...文混合分词都无效。 譬如: $so = scws_new(); $so->set_charset('utf8'); $so->set_dict('words.txt',SCWS_XDICT_TXT); $so->set_ignore(true); $so->send_text("GMhello指导员"); echo ''; while ($tmp = $so->get_result()) { var_dump($tmp); } $so->close(); 在words.txt只定义如下内容 GM 1...
... 扩展) 默认是处理 gbk 编码的文本,如果你的文本是 utf8,则需要修改该程序的第一行,把 define('IS_UTF8_TXT', false); 改为 true php make_xdb_file.php [导入的文本文件] --- 关于文本文件的说明,每行一条记录,#开头表示...