[quote='hightman' pid='3685' dateline='1282406611'] 返回的时候根据长度排除啊,GBK的话单字就是2字节,很好判断啊,UTF-8三字节,但也能判断出是不是一个单个的汉字 [/quote] 原来如此。明白了。非常感谢!
你默认的字符集是 gbk吧?请在 add_dict 前先调用 $so->set_charset('utf8'); 或者直接用 $so = scws_new('utf8');
...但始终无法分词。 我需要的是utf8编码的。 测试文件在gbk下好使,应该如何改成utf8格式的? 请教管理员,我该如何操作。 :huh: [/quote] 你要注意的是 一些文件里面的 编码设置
...做转码,下一版修正。 [/quote] 呃 b2的这个位置 我使用gbk编码连接centos的后解决了输入问题, 但是b3我在这个位置无论使用那种方式,都会出现如下错误 [XSException] lib/XS.php(1832): Failed to open file(S#513) #0 ../phplib/XS.php(1089): XSServ...
...-project=cusabio_cn_fix --filter=/xunsearch/bin/sdk/php/lib/FixcnFilter -c gbk 里面的 filter=/xunsearch/bin/sdk/php/lib/FixcnFilter 过滤器每次都要进行指定。 官方能否在没个ini文件里面直接进行指定这个过滤器。 这样无论是通过管理工具,还是通过sd...
... PHP是5.16的会有影响吗? $cws = scws_new(); $cws->set_charset('gbk'); $cws->set_rule('/usr/local/scws/etc/rules.ini'); $cws->set_dict('/usr/local/scws/etc/dict.xdb'); $cws->send_text('我爱看电影,不知道电影院里有什么?'); 分词的结果竟是:“我 爱 看 电 ...
[php] $sh = scws_open(); scws_set_charset($sh, 'gbk'); //scws_add_dict($sh, 'dict.txt', SCWS_XDICT_TXT); scws_set_dict($sh, 'dict.txt', SCWS_XDICT_TXT); //scws_set_rule($sh, 'rules.ini'); $text = "我发现个文字‘再试一个’"; scws_send_text($sh, $text); $top = scws_get_tops($sh, 5)...
...问题 词太多apache死了 $sh = scws_open(); scws_set_charset($sh, 'gbk'); //scws_set_dict($sh, 'E:/luxilang/tool/keword/dict.txt'); scws_set_dict($sh, 'E:/luxilang/tool/keword/dict.txt', SCWS_XDICT_TXT); //scws_set_rule($sh, 'E:/luxilang/tool/keword/rules.ini'); $text = "陆喜郎健康...
...命令、代码均假定为默认的 UTF-8 环境,如果您使用的是 GBK > 编码环境,请在运行所有 `php` 脚本时加入 `-c gbk` 参数。 查看项目配置文件 -------------- 每一个 `xunsearch` 搜索项目都有一个独立的 INI 配置文件。DEMO 项目的配置文件 ...
...如下: [php] [scws] extension = php_scws.dll scws.default.charset = gbk scws.default.fpath = "D:\Zend\etc\scws" [/php] phpinfo();中Loaded Configuration File 的php.ini位置与当前修改的是一致的, php_scws.dll解压至extension_dir/目录. 可是依旧提示:Fatal error: Call ...