按官方提供的测试数据,索引大小大约为数据大小的3.5倍。 我不是很理解,为什么索引的东西反而比原数据大,而且是3.5倍。 照理说,索引的东西是源数据的精华精简来的,应该小才对?
说明你的服务端是绑定在 127.0.0.1 上,那么你的配置文件中连接的服务端地址是指定了什么呢?
感谢H大回复,好像是你说的这个问题。 曾经我以为这个scws是国外高人开发的,最近才发现国内的牛人。作为苦逼的程序一员,你就是我心中的刘德华了。
分词结果是: 我爱/n 吃/v 康师傅/nz 牛肉面/n [hr] 我喜欢吃康师傅牛肉面 分词也有问题. 我喜欢/n 吃/v 康师傅/n 牛肉面/n[hr] 大概知道什么原因了,我爱,我喜欢都在词库中标注为名词n 我爱 14.71 4.59 n 我喜欢 14.90 4.82 n 请...
SCWS 全称是 Simple Chinese Words Segmentation 即简易中文分词系统。 [url=http://www.xunsearch.com/scws][b][size=5][color=#FFA500]2010/01, scws-1.1.0 发布,支持加载文本词典,下载及介绍请进项目站点 http://www.xunsearch.com/scws[/color][/size][/b][/url] [url=http://w...
...方案把你的词库统一生成.XDB文件呀 [/quote] 这样做确实是可以,只是这时候文件就只是一个联系数据库和scws的一个中介,一个很临时的东西。我的意思是想可不可以绕过它。
和楼主几乎一样 生成了一个db_o的文件,而不是re_db 然后索引生成完毕,就将db清空了,但是db_o并未改名过来,必须手动改过了,是什么情况[hr] 又重建了一次,数据全丢了... 啥情况啊[hr] 问题挺严重的,也是自己写的程序,平滑update了几...