搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

11.使用自定义词库的时候，部分词会丢失

更新时间：2014-04-18 17:04 t By tianly

使用的版本是SCWS-1.2.2 我用自己的词库替换了dict.utf8.xdb，然后尝试分词“朝鲜近日播放的一个纪录片中，发现”，发现“纪录片中”在分词结果中丢失了 Array ( [word] => 朝鲜 [off] => 0 [len] => 6 [idf] => 0 [attr] => @ ) Array ( [word] => 近...

12.增加词“中国梦”遇到的问题

发布时间：2013-09-25 15:09 t By kaiwenli

需要增加一个新词“中国梦”。使用的php XDB工具，增加词库后导入生成xdb文件。重新生成coreseek的索引索引的时候还是搜不出来这个词。我确认使用的是utf-8 no-bom头的格式。请问如何解决。谢谢

13.添加自定义词库的问题

更新时间：2010-06-03 16:06 t By xiaolan

使用自定义的文本字库， $scws = scws_new(); $scws->add_dict("/path/to/dict",SCWS_XDICT_TXT); 自定义的词库可以使用了，可是原有的词库就没了。。。于是。。再这样，先添加原有的词库 $scws = scws_new(); $scws->set_dict("/path/to/dict.utf8.xdb"); $scws->...

14.PSCWS4使用问题

更新时间：2010-10-21 17:10 t By hnmazda

...r'], $tmp['times'], $tmp['weight']); } $cws->close(); utf8编码好像使用不了，我把所有文件(ini,php,包括test.php)都改成utf8编码存储，header输出的也是utf8编码，执行默认的test.php，产生乱码，不知道问题出现在哪？dict.utf8.xdb是新下载的没有...

15.请问一下，xdb与txt词库那个读取效率更高

发布时间：2013-06-29 21:06 t By 阿弟2013

...l,host这类处理效果比较差，我们目前采用两个分析器配合使用来达到最好的效果，要是scws能处理得了像email,host,url和tag之类的分类，那效率应该是更棒了谢谢你们的无私开源这么好的作品

我是 centos5 scws 1.1.2 php 以扩展形式安装 . 如果我不显式的定义 $so->add_dict(ini_get("scws.default.fpath") . '/dict.utf8.xdb'); $so->set_rule(ini_get('scws.default.fpath') . '/rules.utf8.ini'); 那么就分词正常. 这个是第一个问题. 第二个问题就是...

17.RE: 分词问题

更新时间：2010-10-14 21:10 t By hightman

...词先单字后多字，所以达不到“云“+”计算“的效果。使用 txt 附加词典时请显式地先指定 xdb 词典，以便 txt 词典后生效。 $so->add_dict('dict.xdb', SCWS_XDICT_XDB); $so->add_dict('dict.txt', SCWS_XDICT_TXT); [color=red]$so->set_multi(3);[/color] .. 这样...

18.xdb追加的遍历接口

发布时间：2012-06-17 13:06 t By hit

..._rec,xdb_next_rec; int xdb_next(xdb_t x,xdb_p_next_rec p_nr); [/code] 使用这个 [code] xdb_next_rec next_rec; while (xdb_next(xt,&next_rec)==1) { if(next_rec.key) printf("%s %d %s %d\n",next_rec.key,strlen(next_rec.key),(char*)next_rec.value,*next_rec.vlen); } [/code] ...

19.【BUG】scws add txt dict 递归栈溢出问题？

更新时间：2013-06-09 10:06 t By ronliu

我想请教一个问题，就是我使用的是C版的scws库，函数scws_set_dict和scws_add_dict加载一个大小为58K的txt字典文件的时候出现了递归的堆栈溢出。但是我将该txt字典转换成xdb文件后再次调用，就不会出现该问题了？但是如果资源使...

20.Libscws C API 使用说明

更新时间：2010-12-30 22:12 t By hightman

...[/color][/size][/b] Libscws 代码是当前 SCWS(简易中文分词) 算法使用C语言编写的链接库，目前仅基于 Unix 族的操作系统，可能必须适当修改才能运行在 Windows 平台中。这套 scws 库没有外部扩展依赖，代码力争简洁高效，针对分词词典...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

搜索