我想使用系统自动的分词功能,可是只看到有接口和好几个实现了接口的类XSTokenizerFull 等,现在的系统能实现吗?谢谢
不是很明白,你说的自动分词??是什么意思 你在配置文件中不要指定 tokenizer 选项就会自动使用 SCWS 分词了。
这个自己编译下csws的扩展就可以了。他已经带了csws的。去csws的目录里编译下PHP的扩展就可以了。
我也正想要这个功能,学习一下 单独装scws跟编译好像没什么差别吧 官方能不能直接在SDK里面给出接口啊
对只要编译一下 scws 扩展就可以了。在 xunsearch-full-xxx 下面有 scws-1.1.8/phpext 在此目录下 phpize ./configure make && make install 即可,以上步骤根据不同用户权限略有不同。
xunsearch不连接数据库的。 你可以把数据从"txt文件,pdf文件,oracle,mysql“等各类文件中,添加到xunsearch库中。
还是不明白! 你把这段文字用scws切割会有问题吗?如果你这段字是用空格或逗号分隔,那么你可以用 split 这个分词器啊。 搜索的时候搜索任何一个分割后的TAG都可以搜索到。
[quote='icebolt' pid='282' dateline='1322453185'] 如果只是想实现分词,为什么直接用scws呢,何必用xunsearch呢? [/quote] 因为同一个系统里面,既有需要分词提取tag的地方,又有搜索,当然会出现此情况了。目前已安装scws来实现该功能...
[quote='hightman' pid='255' dateline='1322196172'] 还是不明白! 你把这段文字用scws切割会有问题吗?如果你这段字是用空格或逗号分隔,那么你可以用 split 这个分词器啊。 搜索的时候搜索任何一个分割后的TAG都可以搜索到。 [/quote] ...