...doc/php/guide/util.logger[/url] 2. 小修改大提升,支持自定义 SCWS 分词词典,文本格式。但旧有索引必须重建,新增的词汇才能生效。 [url]http://www.xunsearch.com/doc/php/guide/index.dict[/url] 3. 其它一些 PHP-SDK 工具和 API的修改: XSIndex ...
纯PHP编写的xdb词典(SCWS - http://www.ftphp.com/scws 所采用)导入导出工具!! 1. 词典导出:dump_xdb_file.php 在命令行模式下运行 php dump_xdb_file.php [存入的文本文件] 第二参数省略则直接输出到标准输出。 2. 词典生成:make_xdb_f...
使用的版本是SCWS-1.2.2 我用自己的词库替换了dict.utf8.xdb,然后尝试分词“朝鲜近日播放的一个纪录片中,发现”,发现“纪录片中”在分词结果中丢失了 Array ( [word] => 朝鲜 [off] => 0 [len] => 6 [idf] => 0 [attr] => @ ) Array ( [word] => 近...
...tu安装时:./setup.sh 错误提示:[code]Configuring xapian-core-scws ... ----- checking for library containing zlibVersion... -lz checking for uuid/uuid.h... no checking for uuid.h... no configure: error: Neither uuid/uuid.h nor uuid.h found - required for brass, chert and flint (you...
使用的是scws-1.2.1 对“有空间”这个句子进行分词,理想的结果应该是“有空 空间” 但实际结果是“有空 间” 即使通过scws_add_dict()添加了自定义的txt字典(里面只包含“空间 11.82 12.38”一行),仍然分不出“空间”这个词。...
...我还有就是刚才我试了,我用我自定义的词生成词典,用scws_set_dict添加我的词典后(词典中的word TF IDF 都很高的,记性我标记为@),但输出(scws_get_tops)的有好多并不是我定义的词语,而且好多还把我定义的词组分解为多个,...
...是乱码,我要右键选择编码,完后复制的![hr] extension = scws.so scws.default.charset = utf8 scws.default.fpath = /usr/local/scws/etc
...内容如下,保存为名字 del.txt,然后在分词前加入一句 $scws->add_dict('/path/to/del.txt', SCWS_XDICT_TXT); 如果您不会制作词典可以从 http://www.ftphp.com/scws/download.php 重新下载 [code] ; /path/to/del.txt 民医院 1 1 ! [/code]
... $text = $this->applySetting($text); $cmd = new XSCommand(XS_CMD_SEARCH_SCWS_GET, XS_CMD_SCWS_GET_RESULT, 0, $text); $res = self::$_server->execCommand($cmd, XS_CMD_OK_SCWS_RESULT); while ($res->buf !== '') { $tmp = unpack('Ioff/a4attr/a*word', $res->buf); $tmp['word'] = XS::c...
[quote]SCWS_XDICT_XDB (这表示直接读取 xdb 文件)、SCWS_XDICT_MEM (这表示将 xdb 文件全部加载到内存中,以 XTree 结构存放)。具体用哪种方式需要根据自己的实际应用来决定。[b]当使用本库做为 daemon server 时应当使用 mem 方式,当只...