...search 最新修订版 1.0.1 正式发布。 该版本主要是针对上一个版本的一些细节改进和BUG修正,强烈建议所有用户升级到这个最新版本。 其中有一个重要改进是针对搜索日志(用于热门搜索、相关搜索等),阻止一些废词进入...
...字母为单位建立索引的确可以达到很好的效果,中文名以一个汉字为单位。 最后贴出我的代码给有需要的人: [php] class XSTokenizerUnary implements XSTokenizer { private $length = 1; // 默认切分长度 public function __construct($arg = null){ ...
...自定义词库。 全局自定义词库 ------------- 这是针对同一个 `xunsearch` 安装实例来讲,该服务端下的所有项目都将共用这个自定义词库。 严格来讲,这是 SCWS 本身就提供的功能,xunsearch 只是做了整合和规范。涉及的相关文件如...
编写第一个配置文件 `Xunsearch` 的配置文件是纯文本的 `INI` 格式,用任何文本编辑器均可编写,在 `Unix` 类型的系统下推荐 用 `vi`,而 `Windows` 下可以用记事本或 `EditPlus` 进行编写。我们也正在计划不久的将来制作一...
...好的词 // 直到 get_result() 返回 false 为止 // 返回的词是一个关联数组, 包含: word 词本身, idf 逆词率(重), off 在text中的偏移, len 长度, attr 词性 // $text = "中国航天官员应邀到美国与太空总署官员开会"; $pscws->send_text($text); while ($s...
...询的方式都较另外二者灵活. 在今天做测试时, 有遇到一个关于复合分词问题, 类似于"官方網站"这样的词汇, 默认配置下是作为单一词划出, 于是搜索"網站"时不可见. 如果设定-M 为 3 (0011) 可以解决这个问题, 但是在xunsearch中未...
...统以及逆词频率(表示词重要性), 你可以参考现有的词造一个系数. 而词性标注请看这篇: http://www.hightman.cn/bbs/showthread.php?tid=42 [/quote] 謝謝 ! 那 TF/IDF 事實上我可以自己來定義了嗎? 另外我在您附的檔案最後約107668 行後就...
...与utf-8(基于scws功能) 3.运行中可修改词库,不停服务只需一个命令即可使新词库生效 4.最大150K文本提交 5.可分词、提取高频词 6.支持GET与POST方式 7.支持短词、二元、主要单字、全部单字(基于scws功能) 8.支持标点过滤(基于scws...
...词没错。 $top = scws_get_tops($sh, 5,'n,v');这样还是返回的都是一个空数组。 能不能告诉我大概哪里错了,我自己来检查,我照着流程做了好几次了一直都是这样的
正确写法,官方多写了一个T吧,那个代码反正我试验是错误的! [php] $cws->add_dict(ini_get("scws.default.fpath").'/dict.xdb'); $cws->add_dict("./dict_extra.txt", SCWS_XDICT_TXT); [/php] 在说说词分词测试: 我的网址:http://sjz.haojishu.com/tools/222.php...