1,下载了SCWS的源码,使用其中的libscws; 2,并下载了 [简体中文(UTF-8) (3.9MB,28万词,2013/01/08更新)] scws-dict-chs-utf8.tar.bz2。 3,使用示例代码: #include #include #define SCWS_PREFIX "/usr/local/scws" main() { scws_t s; scws_res_t r...
写了一行脚本,将代码转为 UTF-8 编码的源文件: #!/bin/bash for i in `find ./ -type f |grep -v 'batch' ` ; do iconv $i -f gbk -t utf8 -o ${i}.tmp && mv ${i}.tmp $i ; done
IP可能是被当做数字了,这个问题我想我得好好考虑一下呵。 数字可以允许一个点出现,所以出现了这样的情况,
你默认的字符集是 gbk吧?请在 add_dict 前先调用 $so->set_charset('utf8'); 或者直接用 $so = scws_new('utf8');
...396'] [quote='hightman' pid='6659' dateline='1314168577'] 在虚拟机中使用SCWS并不需要任何特殊的处理 [/quote] 感谢您的回复!不过,我在您网站的教程里看到,SCWS需要使用命令来编译程序,和需要修改php.ini,虚拟机都没有这种权限,不...
...[/color][/size][/b] Libscws 代码是当前 SCWS(简易中文分词) 算法使用C语言编写的链接库,目前仅基于 Unix 族的操作系统,可能必须适当修改才能运行在 Windows 平台中。这套 scws 库没有外部扩展依赖,代码力争简洁高效,针对分词词典...
看了论坛很多帖子,其中不少都是词库没有加载上,却没有加以判断,结果发现分词结果不准确。 其实在scws文档中有这么一句话: [i][b]注:xdict_t 和 rule_t 分别是词典和规则集的指针,可判断其是否为 NULL 来判断加载的成...
我是 centos5 scws 1.1.2 php 以扩展形式安装 . 如果我不显式的定义 $so->add_dict(ini_get("scws.default.fpath") . '/dict.utf8.xdb'); $so->set_rule(ini_get('scws.default.fpath') . '/rules.utf8.ini'); 那么就分词正常. 这个是第一个问题. 第二个问题就是...
[quote='hightman' pid='3577' dateline='1274842781'] 是按正常切分的。这个没有单独处理~ 不影响检索~ [/quote] 那网址是按"."划分.而ip却不是 No. WordString Attr Weight(times) ------------------------------------------------- 01. 192 en 4.86(1) 02. 168 en... 03...