昨天弄了一晚上, 因为我是写php的对C语言不熟系,研究了一下源代码,最终功夫不负有心人,成功的避过了中英文混合,使用字典中的词语分词,我用的是 scws-1.2.1.tar.bz2 这个版本,因为不能发附件,如果大家需要联系我: Ema...
...我刚刚了解scws的这个分词技术,我想请问一下高手,在一个文章里有很多的字,比如“我,的,在,”这些单字,是不是也会被分出来,我想问的是,能不能取出像地名,人名,词语, 我想在一个网站中应该这些,请问有没...
...见了 如果我启动系统自带词典 那么“北海”又就被分成一个词。 但是我想明确的分词 , “ 北海365” 作为一个词。怎么就不行呢。[hr] 经过测试,还发现。 不加载任何字典和规则。 数字是照样能给分词出来的。。似乎...
今天一个客户获得了一个,腾讯的云主机.但不懂linux服务器操作 bigxu应邀为其装了一套xunsearch.安装xunsearch软件其实很简单,一条 指令就可以解决[./setup.sh],但是云主机的使用却是比较麻烦. 所谓云主机,可以理解为一虚拟机.估...
我刚才用统一的词性生成了一个词典,但同一个文件, 生成的大小怎么不同呢, 第一次: 积分 20.0 20.0 @ 中间我是用一个空格格开的,生成后有4M, 第二次: 积分 20.0 20.0 @ 用的是原dict.xdb导出txt后的格式,生成后有10M, ...
...jjj序ii员e 不正常) 2、英文数字组合中,同时含有连续一个以上英文或数字的组合(例如:w1156k 正常,w16ky不正常) 3、含有任意一个半角符号 是怎么一个情况呢? 感谢感谢
# /usr/local/xunsearch/bin/xs-searchd -l /usr/local/xunsearch/tmp/searchd.log -b 192.168.5.180:8384 -k start WARNING: server[xs-searchd] is running (BIND:192.168.5.180:8384, PID:3938) # /usr/local/xunsearch/bin/xs-searchd -l /usr/local/xunsearch/tmp/searchd.log -b 192.168.5.180:8384 -k stop INFO: st...
...呀 [/quote] 这样做确实是可以,只是这时候文件就只是一个联系数据库和scws的一个中介,一个很临时的东西。我的意思是想可不可以绕过它。
...的。 scws 里面先按逐字把所有可能的词都列出来,建成一个2维表,然后把有岐义的部分拧出来,以其中一个词为主体进行计算权重,看哪个情况最优。 此外还有根据rules规则匹配。 简单举个例子: “开放下载” 1. 开/...
[code] 2011-12-23 22:22:49 worker1[23505] new connection built (SOCKET:7, FROM:127.0.0.1) 2011-12-23 22:22:49 worker1[23505] [sock:7] quit normally 2011-12-23 22:22:50 worker2[23506] new connection built (SOCKET:7, FROM:127.0.0.1) 2011-12-23 22:22:50 worker2[23506] [sock:7] quit normally 2011-1...