...楼主的意思,他希望xunsearch能提供分词接口,给其他程序使用。 我们经常会遇到对一篇文章提取tag的操作,如果XS将分词接口给出了那我们就不需要另外的程序进行分词了。 我也希望使用这个功能。
[quote='hightman' pid='255' dateline='1322196172'] 还是不明白! 你把这段文字用scws切割会有问题吗?如果你这段字是用空格或逗号分隔,那么你可以用 split 这个分词器啊。 搜索的时候搜索任何一个分割后的TAG都可以搜索到。 [/quote] ...
还是不明白! 你把这段文字用scws切割会有问题吗?如果你这段字是用空格或逗号分隔,那么你可以用 split 这个分词器啊。 搜索的时候搜索任何一个分割后的TAG都可以搜索到。
...? 文档里看到有个自定义词库的设置,然后根据文档使用了下,发现没达到效果。比如说,我想搜索拥有"味道恶心"这个词的文章,(我的文档库里面是有相关文章的了)搜索的时候出现了大多都是分成了"XX味道"+"XX恶心"的,所以...
...,所以所有字段都不需要用iconv将gbk转为utf-8就可以正常使用。sendtime在数据库中是时间戳(int型,需要排序),按文档中使用numeric,搜索出来结果sendtime是乱码,不知道是什么原因。 添加索引后发现一个问题,不能立即搜索,大概...
网页设计 分词后变成 网页设计 网页 设计 我想把网页设计就分为网页设计一个词,不需要搜索出含有网页跟设计的内容。 我在dict_user.txt加入 网页设计 这个词,好像并没有效果,还是搜索出来含有网页跟设计的文档。
...分词 应该是none还是full呢? cutlen = 0 weight = 0 phrase = yes;使用精确检索 要实现完全相等的检索我需要用到双引号吗? non_bool = no (如果不做索引 直接区间检索 效率比index = self快吗?) [hash_196];纯数字的图片hash值 长度是固...
...和中文标点,否则就会分词失败。 请问这个是我对SCWS的使用方法不正确还是SCWS目前只能做成这样? 目前我企图将抓取后的内容剔除全部不可分词要素之后在交给SCWS。但是,发现似乎总是会漏掉一些,或者有一些东西是未知...
...据中检索时间不超过 1 秒(非缓存)。 简单易用:前端是使用脚本语言编写的开发工具 (SDK),目前仅支持 PHP 语言。API 简单清晰,开发难度极低,提供全中文的示例代码、文档、辅助脚本工具等。 全功能:除支持基础的自定...
...想通过XSTokenizerScws来获取指定文本的自定义分词结果。sdk使用了github里最新的版本,词典格式由一楼所示,现在取出来的结果并不包含任何自定义词典的关键词,求解。[/code] [php] $text =