hightman,你好! 因为项目需要从下述字符串中,分别提取:[color=#006400]斯巴鲁WRX[/color],[color=#006400]斯巴鲁200[/color] 这2个词 “斯巴鲁WRX和斯巴鲁200的区别,保养费用如何” 我试用了下面2种方法,均没有达到想要的结果,希望hi...
[quote='hightman' pid='1078' dateline='1346301119'] 支持是支持的,但数字字母最多只支持2位。 你说的情况其实切分成“斯巴鲁+WRX”并不会有多大问题吧。 像 Q币 QQ空间 这样的都是可以支持成词的。 [/quote] 感谢hightman 的回复。 ...
在 scws.c 中,由于取词时使用一个 unsigned char 来记录分词的长度,存在特殊情况即通过 rules.ini 自动识别出来的词有可能超过 255 字,如全部连续的双字节数字或字母.超过 255 字后 这里的 j 将变得不正确可能导致 item-> 指向 NULL ,...
发贴可以发了,之前为了挡垃圾贴搞错了。 我看你代码用的 dict.xdb 那么为何又用 rules.utf8.ini ?
...$text = '最近撑腰体爆红网络我是新增词再试一个'; class scws { public $so; function get_microtime() { list($usec, $sec) = explode(' ', microtime()); return ((float)$usec + (float)$sec); } function scws() { $this -> so = scws_new(); $this -> so->set...
scws_set_multi复式分割不起作用,同样的windows .dll测试是可以正常的。 以下是测试代码,是在你的文档例子代码上加入了 scws_set_multi(s , 1); [code] #include #include main() { scws_t s; scws_res_t res, cur; char *text = "上海市"; if (!(s = scws_new())...
使用的版本是SCWS-1.2.2 我用自己的词库替换了dict.utf8.xdb,然后尝试分词“朝鲜近日播放的一个纪录片中,发现”,发现“纪录片中”在分词结果中丢失了 Array ( [word] => 朝鲜 [off] => 0 [len] => 6 [idf] => 0 [attr] => @ ) Array ( [word] => 近...
...回false; [php] [root@yehuiming /]# /usr/local/php/bin/php -i | grep scws scws SCWS BugReport => http://www.ftphp.com/scws scws.default.charset => utf8 => utf8 scws.default.fpath => /usr/local/scws/etc => /usr/local/scws/etc [/php] 这是我代码: //分词 $so = scws_new(); $so->s...
你好, 我使用scws-1.0.0_win32_php-5.2.x有以下問題: test.php: Warning: SimpledCWS::set_dict() [simpledcws.set-dict]: Failed to load the dict file in D:\website\ dict_utf8.xdb 及 rules.utf8.ini 是放在test.php 同一個資料夾下 另有我試過用 $scws->set_dict...
之前发布的 libscws 中的 phpext 仅针对 Unix-like OS 操作系统下的可编译源码版本,很多网友询问 windows 下怎么有的问题。 现已由热心网友 ben (php群中) 移植并于vc6环境编译成功 php_scws.dll 。下载地址在附件中,php 扩展在 win32 下的...