搜索

大约有 60 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.1955秒)

21.scws加载词库和规则集失败,使用者为啥知道呢?

更新时间:2010-12-09 22:12 t By lauxinz

看了论坛很多帖子,其中少都是词库没有加载上,却没有加以判断,结果发现分词结果准确。 其实在scws文档中有这么一句话: [i][b]注:xdict_t 和 rule_t 分别是词典和规则集的指针,可判断其是否为 NULL 来判断加载的成...

22.daemon server(linux后台程序)和embed(库的形式嵌入程序中)

更新时间:2010-12-09 23:12 t By lauxinz

...。具体用哪种方式需要根据自己的实际应用来决定。[b]当使用本库做为 daemon server 时应当使用 mem 方式,当只是 embed 调用时应该使用 xdb 方式[/b],将 xdb 文件加载进内存仅占用了比较多的内存,而且也需要一定的时间(35万条...

23.刚开始使用,项目编码与时间戳问题请教

更新时间:2012-07-05 11:07 t By xilin

...,所以所有字段都需要用iconv将gbk转为utf-8就可以正常使用。sendtime在数据库中是时间戳(int型,需要排序),按文档中使用numeric,搜索出来结果sendtime是乱码,知道是什么原因。 添加索引后发现一个问题,能立即搜索,大概...

24.对于分词的一些困惑

更新时间:2010-10-13 17:10 t By 逆雪寒

使用了自定义字典。完全忽略自带的字典。 然后我在字典里面 分词 : 北海365 365 就这两个词。 然后我 搜的时候 是 : 北海365 这时候返回的分词 却只有: 365 “北海”见了 如果我启动系统自带词典 那么“...

25.XSTokenizerScws的一个使用问题

发布时间:2013-01-29 10:01 t By tisswb

是这样的,我使用XSTokenizerScws进行分词 [php] $tokenizer = new XSTokenizerScws; $tk = $tokenizer->setIgnore(true)->setMulti(11)->getResult("是一"); print_r($tk); [/php] 结果是 [quote] Array ( [0] => Array ( [off] => 0 [attr] => m ...

26.C版简易中文分词-cscwsd-0.0.3 发布

发布时间:2007-06-06 10:06 t By hightman

...rd Segment Daemon 的首字缩写,这是用标准纯 C 编写,并配合使用 autoconf GNU软件工具包, 基本上可以很方便在的各类 Unix-Like OS 系统下顺利编译执行。目前测试过的有 RedHat Linux (as3,as4) FreeBSD 4.x 5.x 6.x。目前只支持 GBK 编码。 这个...

27.图片搜索的一些疑问

更新时间:2014-02-16 17:02 t By Mr.

...分词 应该是none还是full呢? cutlen = 0 weight = 0 phrase = yes;使用精确检索 要实现完全相等的检索我需要用到双引号吗? non_bool = no (如果做索引 直接区间检索 效率比index = self快吗?) [hash_196];纯数字的图片hash值 长度是固...

28.我在Linux下安装成功了,php中也运行了,但是分词对,知道为什么?

发布时间:2010-05-08 00:05 t By xyliufeng

...权利就是没有经过权利人许可又是法律规定的例外,要使用这个作品,就必须经过作者授权,没有授权就是侵权。 [b]分词后:[/b] 陈凯歌 并 是 《 无 极 》 的 唯 一 著 作 权人 , 一 部 电 影 的 整 体 版 权归电 影 制 片...

29.一个疑问……

发布时间:2007-11-28 22:11 t By 逍遥小妖

...和中文标点,否则就会分词失败。 请问这个是我对SCWS的使用方法正确还是SCWS目前只能做成这样? 目前我企图将抓取后的内容剔除全部分词要素之后在交给SCWS。但是,发现似乎总是会漏掉一些,或者有一些东西是未知...

30.自定义分词

... $ret = explode($this->delim, $value); return $ret; } } ~~~ 使用自定义分词器 -------------- 编写完了自定义分词器的代码后,您就可以在项目配置文件中使用它了,在需要用这个分词器的字段中 指定 `tokenizer` 选项的值,例子中省...

  • 时间不限
  • 按相关性排序