[quote='hightman' pid='3685' dateline='1282406611'] 返回的时候根据长度排除啊,GBK的话单字就是2字节,很好判断啊,UTF-8三字节,但也能判断出是不是一个单个的汉字 [/quote] 原来如此。明白了。非常感谢!
[quote='sonictan' pid='4085' dateline='1299146055'] 我根据论坛和ftphp网站上要求,在自己的服务器上配置SCWS,但始终无法分词。 我需要的是utf8编码的。 测试文件在gbk下好使,应该如何改成utf8格式的? 请教管理员,我该如何操作。 :hu...
...php错误了。判断是不是某条数据是不是已经存在了,可以根据主键来判断是不是已存在,存在的跳过就可以了。例如: [php]$query = "id:1753"; $docs = $xs->search->search($query); print_r($docs);[/php] [/quote] 我是使用util/Indexer.php --source=mysql...
...的排列的 (我觉得导出文件可能有问题) 创建XDB文件是根据 foreach $rec[$k] 里面的数字排序的 那样 XDB和TXT里面的排序完全改变了 目前的情况是我导出TXT在创建XDB 分词速度比之前慢了2倍 这个问题很想知道原因T-T XDB->...
...的排列的 (我觉得导出文件可能有问题) 创建XDB文件是根据 foreach $rec[$k] 里面的数字排序的 那样 XDB和TXT里面的排序完全改变了 目前的情况是我导出TXT在创建XDB 分词速度比之前慢了2倍 这个问题很想知道原因T-T XDB->...
...建议。 在数据导入xunsearch有时候需要对数据进行过滤。根据官方的文档进行操作是OK。 但是感觉有点小麻烦。 每次导入的时候都需要指定过滤器。 比如 当我导入数据的时候需要输入 ./util/Indexer.php --rebuild --source=mysql://root:1...
...代码中的 i = 300%2; 就会被认为是 300% 了。。。 3. 由于是根据词库来处理的,繁体词不在词库中就没有办法切分,不过你可以简单的打开 set_duality 功能,这样不认识的散字都会自动按2元切分法,对于搜索来说效果要好于单字。
..._t s, char *xattr); 描述:返回指定词性的关键词表,系统会根据词语出现的先后插入列表。参数 xattr 用来描述要排除 或参与的统计词汇词性,多个词性之间用逗号隔开。当以~开头时表示统计结果中不包含这些词性, 否则...
...推荐以下命名规范: - 字段名都使用小写命名,您可以根据自己的偏好选择用单数或复数形式,但不要二者同时使用。 - 名字中的单词应使用下划线分割 (例如 product_order)。 - 只在搜索项目中设置搜索结果展示、搜索条件必须用...
...20 条。 ~~~ 设置排序方式 ----------- 默认情况,搜索结果根据内部算法计算相关度进行排序,采用著名的 `BM25` 算法,这在信息检索概率模型中表现 非常优秀,通常只要使用默认的算法即可。 通过 [XSSearch::setSort] 我们可以指定...