Highyman: 能請問一下,我可以將 SCWS 用在繁體中文的分詞上嗎?如果可以,我應該如何產生繁體中文的分詞詞庫呢? 我預備使用 UTF-8 作為中文編碼而非 Big5。 謝謝你的分享。 Mark
... dn 就是我自定义的词性。这样我在scws 分词后,程序中可以用来判断。 不知道是否可以目前? 感谢hightman 大哥 提供的那么好用的分词工具。
少量加几个不需要优化。。。。甚至加千把个万把个也可以不优化呵。 可以等待到比较稳定时再集中优化一次。
...费时间为一个月. 免费测试结束后.100个免费测试用户可以用论坛100点积分联系客服换得下一个月的免费空间使用权 (当你以积分换空间使用权后管理员删除100的积分)该活动期限为一年 普通用户以80点声望换得开通一个月...
因为英文默认按空格分词了,但因为我这边应用的特殊,希望能实现这样的搜索 标题:freemp3download,搜索 mp3可以检索到,我试了下demo,story可以搜索到的,sto就搜索不到。 谢谢。
...C的服务端没有发现任何错误。 如果你的服务器装有GDB,可以试一下在GDB环境下面启动? 对于 stop 失败的情况你可以试试用 faststop 这样会对子进程强行发送 KILL 信号
...字段。如果某个字段的索引方式为 `self` 或 `both`,那么还可以指定为字段检索, 也就是要求这个字段匹配指定的关键词,用法为格式为 “*字段名*:*关键词*”。 > note: 搜索语句最大支持长度为 80 字节(每一个汉字占 3 字节),...
[quote='hpxl' pid='116' dateline='1319506745'] 500万条数据可以分段来读取,比如每次10000条,就不会出现上面的php错误了。判断是不是某条数据是不是已经存在了,可以根据主键来判断是不是已存在,存在的跳过就可以了。例如: [php]$qu...
...考虑一些用户没有安装MBSTRING扩展的情况。 像你这样你可以考虑自己拓展一个 Tokenizer 类,然后根据自己需要生成 tokens 就可以了。 二元分词并不是直接分成N长的若干段,而是 ABCD => AB + BC + CD 你的作法会把 ABCD => AB+CD 这样搜...