搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

1.关于词库导入的问题！

更新时间：2010-06-05 15:06 t By huangxyun

您好，我做了一个简易的词库，不想要那么多大的词库，为什么我导出词库重新生成之后会出一大堆错误，在make_xdb_file.php以下两行出错。 if ($v['part']) $flag |= 0x02; $data = pack('ffCa3', $v['tf'], $v['idf'], $flag, $v['attr']); 我的词库是UTF...

2.RE: 集成包怎么用自定义词库？

发布时间：2011-09-20 15:09 t By hightman

词库在 $prefix/etc/dict.utf8.xdb 您用制作好的 scws 词库支替换它即可，词库生成办法要看看 scws 的帮助，此外字符集必须是 UTF-8

3.RE: 集成包怎么用自定义词库？

发布时间：2011-09-21 13:09 t By hightman

目前不行。只能自己生成 scws 的词典并放进 $prefix/etc/dict.utf8.xdb 覆盖词典可以自己先制作TXT格式在利用SCWs提供的工具转换成XDB格式 [url]http://www.hightman.cn/bbs/showthread.php?tid=712[/url] 这个贴子后面有讲到

4.[特别提供] 纯PHP编写的sqlite词典工具！！

更新时间：2010-07-08 22:07 t By limaoxiang

...租的服务器，windows环境），所以我只能用scws23了，但是词库我希望自己修改添加，但是XDB，这个格式我用了hightman提供的导入导出工具，就像[url=http://www.hightman.cn/bbs/showthread.php?tid=636]本网站的PHP的XDB导入导出工具[/url]里面提到...

5.RE: 能否提供字典dict.xdb的生成程序

发布时间：2009-06-28 21:06 t By hightman

.... 地址匹配事实上应该针对地名名词(含缩写,别名)建立词库, 然后将其分词, 提取关键字进行比较, 如果相同即可视为相同. 比如同样是 xx市, 有些人可能只写 xx 而没写市

6.增加词“中国梦”遇到的问题

发布时间：2013-09-25 15:09 t By kaiwenli

需要增加一个新词“中国梦”。使用的php XDB工具，增加词库后导入生成xdb文件。重新生成coreseek的索引索引的时候还是搜不出来这个词。我确认使用的是utf-8 no-bom头的格式。请问如何解决。谢谢

7.使用自定义词库的时候，部分词会丢失

更新时间：2014-04-18 17:04 t By tianly

使用的版本是SCWS-1.2.2 我用自己的词库替换了dict.utf8.xdb，然后尝试分词“朝鲜近日播放的一个纪录片中，发现”，发现“纪录片中”在分词结果中丢失了 Array ( [word] => 朝鲜 [off] => 0 [len] => 6 [idf] => 0 [attr] => @ ) Array ( [word] => 近...

8.RE: 对医院的分词不太理想

更新时间：2010-09-07 18:09 t By hightman

杯具的分词词库和规则集导致这个结果, 稍后我看能不能简单调整一下规则集来获得比较好的效果。查到原因了，是因为词库里居然有个错误的词叫“民医院”！！建议删除该词重新生成词典或，写一个附加词典标记为删除。...

9.能否提供新功能

发布时间：2011-01-04 10:01 t By xjpeter

...格式请参考示例，key为词语，value为词频。这样生成词库，相当有方便，能否也增加一下

10.RE: 关于SCWS基于HTTP/POST的分词API的一个问题

发布时间：2011-04-19 15:04 t By tuzwu

...eline='1303195392'] 新版会开发一个API直接在函数里生成临时词库供调用。 [/quote] 感谢管理员回复. 其实我的意思大概可以简化为: 最长分词模式. 分出来的词要达到符合语法的最长.这个难度估计不小,呵呵,也可能是比较不现实的...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

相关搜索