不停的报这个错。ERROR: output xdb file exists:后面是文件名 是从网站上面下载的XDB导入导出工具 起初我以为是我改的txt格式不对还是怎么的 后来我直接将xdb导出成txt,如下 php E:\www\dump_xdb_file.php E:\www\dict.xdb E:\www\1.txt 成功导...
是不是你创建的XDB文件没有调用相应的optimize方法 ? php里有一个 $xdb->Optimize(); 这是在创建文件后必须调用的,即使不调用,效率也不会像你描述的这么慢吧。
我在分词中没加$so->add_dict("dict.xdb",SCWS_XDICT_XDB); $so->add_dict("dict.txt",SCWS_XDICT_TXT); 这个情况下“云计算”分词如下:"云 计算"。我加了$so->add_dict("dict.xdb",SCWS_XDICT_XDB); $so->add_dict("dict.txt",SCWS_XDICT_TXT); 并在txt文件中加入 “...
但网址和EMAIL如果这样切,也太粗糙了吧。要全部匹配才能检索到,输入 EMAIL 的前段或网址的一部分均检索不到了。 至于消除 HTML 标签,这不应该是分词的事哦
...非常想知道答案 效率第一 = = 是不是要用 gen_dict.c 创建XDB比较好 还是其他原因?
今天又在网站上重新下载了 简体utf8 xdb字典,和make_xdb 等软件,做次操作, xdb->txt 再txt->xdb 就不行了,直接报错! 麻烦版主测试一下,给一个修改字典的方法,谢谢!
...+”计算“的效果。 使用 txt 附加词典时请显式地先指定 xdb 词典,以便 txt 词典后生效。 $so->add_dict('dict.xdb', SCWS_XDICT_XDB); $so->add_dict('dict.txt', SCWS_XDICT_TXT); [color=red]$so->set_multi(3);[/color] .. 这样将会得到”云计算“”云计“”计算...
...务端的词典路径 $mode int 词典类型, 常量: SCWS_XDICT_XDB|SCWS_XDICT_TXT|SCWS_XDICT_MEM {return} XSTokenizerScws 返回对象本身以支持串接操作 源码: sdk/php/lib/XSTokenizer.class.php#L283 (显示) public function setDict($fpath, $mode = null){ if (!is_i...
...帮忙看下,下面是什么错误,,这个dic1.txt 直接从可用的xdb文件用dump导出的,现在不做任何修改直接make_xdb 就会报如下错误: C:\php>php make_xdb_file.php hah11.xdb dic1.txt INFO: Loading text file data ... PHP Notice: Uninitialized string offset: 1 in...