... xunsearch 服务端,那么每个服务端独自使用自己的自定义词典文件。 添加删除修改自定义词库只要编辑该文件即可,以下为相关规范: - 文件为纯文本文件,编码必须是 UTF-8,可用任何编辑器修改 - 每行一条记录表示一个词...
那我将自定义词典的方式变成利用scws提供的方法扩充内置词典,是否就能够让自定义词被search.log记录的可能性增大呢
...么方式,是PHP还是c的API, set_dict 时的第二参数可以指定将词典读入内存的. [/quote] 安装了apache扩展,使用PHP进行调用,也可以设置读入内存? 如果可以的话,每次分词还要设置词典么?
我郁闷了。自己定义的词语调用到了,规则调用到了,词典还是没调用到! 我的词典路径肯定没错!! 但是还是调用不到啊!![hr] 现在是这样的情况,在本地,我测试了一下,程序没半点问题,能正常分词 我用FTP传到服务...
你这个词典是在 etc/dict_user.txt 还是项目目录下的 data/app/dict_user.txt ? 如果是后者需要升级到 1.4.6-dev 才支持,前者必须在改词典后重启 xs-searchd
...页显示编码也是用的gbk。 然后我用记事本打开XDB 格式的词典文件dict.xdb,效果如下: XDB"/B ? ?? 悯H@ % G ! ? ! p # Z # ! ? # ? ) ? ! ? ! ! ? % ? ! ? ! ;* # P- # -0 ! ? % ? # ? # 5= # A ! 鰾 ! tG ! bJ ' ㎜ ! 頝 # 稱 ! zT !...
同样问题: 新建的词典如何设置权重 比如:相宜本草 (某化妆品品牌) 被分成: 相宜 本草 我通过词典增加的 “相宜本草” 但是不管用 mydict.txt 文件内容如下: 1 相宜本草 2 雅漾 3 舒护 4 活泉水 # scws -A ...
...耗费的时间都花费在分词上,反正现在内存也便宜,而且词典不算太大。如果程序偶尔才需要分一下词,那就没必要load到内存里了。 [/quote] 恩,主要是把整个词典load到内存需要一些时间的(不光读取还要转换成xtree结构)
...么方式,是PHP还是c的API, set_dict 时的第二参数可以指定将词典读入内存的. [/quote] 安装了apache扩展,使用PHP进行调用,也可以设置读入内存? 如果可以的话,每次分词还要设置词典么? [/quote] 这个要的, 仅仅对当前的那个 s...
...这些我也都照做了。 建立一个本地目录放规则集文件和词典文件,建议使用:C:/program files/scws/etc 从 scws 主页上下载词典文件,解压后将 *.xdb 放到上述目录中 词典系列:http://www.ftphp.com/scws/down/scws-dict-chs-gbk.tar.bz2 ...