想做自定义词库的功能。 哪位大侠,是否可以告知, http://www.xunsearch.com/scws/demo/get_tfidf.php 的算法。 谢谢
我看了一下,有点晕乎乎,不知道哪个是最新的 我想要一个php下的简单分词的实现, 词库用mysql效率高还是cdb高?
...法 public string getCustomDict() {return} string 自定义词库内容 源码: sdk/php/lib/XSIndex.class.php#L484 (显示) public function getCustomDict(){ $res = $this->execCommand(XS_CMD_INDEX_USER_DICT, XS_CMD_OK_INFO); return $res->buf;} 获取自定义词典内容
自定义词库加载不上,是什么原因呢? $cws = scws_new(); $cws->set_charset('utf8'); $cws->set_dict('/usr/local/scws/etc/dict.utf8.xdb'); $cws->set_dict(BASE_PATH.'admin/data/dict/wo.txt',SCWS_XDICT_TXT);
看了一下基本上说内置了中文分词 内置中文分词 好处我想应该索引会相对的小一些 但是坏处就是要维护词库 新出词语不用立马根据 所以问一下是否支持一元分词 这样就可以实现类似mysql like方式的搜索了
全是 /un 应该是词典不工作。这个词库应该是不依赖机器字节序的啊 TXT没有提供下载,但我们提供了PHP的脚本可以将XDB转换成TXT
[quote='hightman' pid='3961' dateline='1294120955'] 这个其实可以通过现有的 libscws 实现的,不过 phpext 里还没有提供。。。 [/quote] 这个是个蛮实在的功能,可以快速形成一个自定义的词库,如果可以,建议phpext提供
需要增加一个新词“中国梦”。 使用的php XDB工具,增加词库后导入生成xdb文件。 重新生成coreseek的索引 索引的时候还是搜不出来这个词。 我确认使用的是utf-8 no-bom头的格式。 请问如何解决。谢谢