...到病除。。。 [/quote] 谢谢管理员,俺想问下,如果在dict_user.txt里加了词汇,是不是要把索引全部重新建立一遍? 如果这个自定义分词是需要不定期的更新的话,有什么好办法没?难道每次都要重新建立索引吗?
在另一帖子中回复您的,我猜测是您的 scws 对像字符集没有正确指出,而 php.ini 默认设为 gbk导致,建议显式地指定字符集 $so = scws_new('utf8'); 或在任何 add_dict 之前调用 set_charset
需要指定词典位置,比如: # scws -A -d /hp/opt/scws/dict/default.utf8.xdb:/home/vanni/scws/mydict.txt -c utf8 "相宜本草洗面奶和雅漾舒护活泉水哪个好" 相宜/a 本草/nz 洗面奶/nz 和/c 雅漾/@ 舒护/@ 活泉水/@ 哪个/r 好/a
...且,采用自定义分词的方法,好像没有效果。 我修改了dict_user.txt,其内容为: 塔里木 12.07 20.38 ns 然后重建索引,重启服务,但搜索结果依旧。 好像没有起作用。 可以到 http://www.heihedata.org/search/ 搜索试验[hr] 可以先搜索塔里...
要命了,管理员请指点: linux命令行执行: scws 北京大学 -c utf8 -d /usr/local/scws/etc/dict.utf8.xdb -M 3 返回: 北京大学 北京 大学 php调用system执行同样的命令,返回4个单字。
...元/q ,/un 甚至/d 不/d 抵/v 库存/n 调整/vn 费用/n ”。我在dict_extra.txt中添加了“财年 11.82 12.38 n”,但结果还是和第一次一样。请问我如何能将“财年”这个词添加进去?还有就是最好能将“上一/nz”这个词删掉。谢谢
...开的,生成后有4M, 第二次: 积分 20.0 20.0 @ 用的是原dict.xdb导出txt后的格式,生成后有10M, 为什么相差这么多呢?
... 番茄汤(分词OK) 可是结果什么都没显示。 $so->set_dict("d:\test.xdb", "SCWS_XDICT_XDB") 的调用也正常。 不知道哪里出了问题?
看了论坛的一些资料,重新进行配置如下$cws->set_dict(ini_get('scws.default.fpath') . '/a.txt' , SCWS_XDICT_TXT);(注:a.txt)为文本字典,运行无报错,但是无法正确匹配(如:我的a字典就2个词,好纠结啊,纠结死啦,但是当我输入时还是分...
...都集成到xapian的queryparser中了,我想直接加入新的 scws_add_dict 把我的词典搞进来就行,不过没看到文档有描述词典格式的