建议不要分开。分开的话如果结构不同,你硬合在一起也不好看啊。 如果同结构只是分库索引,则调用 XSSearch::addDb 即可
我安装SCWS-1.1.1已经php扩展scws.so 查看版本却是(Module version:0.0.3, Library version:1.0.4),并非1.1.1 win环境安装php扩展版本是(Module version:0.0.4, Library version:1.1.1) 分词结果完全不同,请问怎么回事
请问,我在词典里词典里增加了:宫保鸡丁 词典里原来有:宫保、鸡丁 这两个词 对"我爱吃宫保鸡丁"进行分词 我希望我获得的分词结果里 只出现“宫保鸡丁”而不同时出现“宫保” “鸡丁” 请问应该怎么做呢?谢谢
研究了一下源代码,最终功夫不负有心人,成功的避过了中英文混合,使用字典中的词语分词,我用的是 在调整每次读取数据的大小和缓冲区大小时有不同的情况
...有没有导入进去。应该不会丢失。 3,繁体词库和简体词库不同。如果觉得不完美,你可以想办法扩展一下。弄好了,共享给大家,谢谢。
我也有同样问题,有几种不太一样的数据形式,数据库中合成一个表的可能性不大,不过索引可以考虑合成到一个项目中。但是如何处理id主键呢?来自不同表的id值应该会引起冲突,是不是可以考虑为索引库单独生成一个uuid?
如果你能长时间用 $scws 对象那就可以一次加载,多次使用。如果每次在不同的脚本中 set_dict 那肯定是每次都加载啊。
...用的了; 至于 mode 看需要吧,只是一个整型 ,如果你在不同线程中切分建议各自用一个 mode ,除非你自己能确定它们的切词设置是共用的(主要用于保存切词中那些是否忽略符号,是否复合分词等的设置)
再来补充: 我机器有两套gcc,一个3.x,一个4.x 之前出问题是3.x编译libscws.a,4.x编译demo 后来统一用4.x编译后...问题消失了...似乎 3.x和4.x对 dst[-1] ^= 0x20; 这行代码有不同的看法.....我只能这样猜了