搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

31.关于 SCWS 简易中文分词系统

更新时间：2013-01-10 16:01 t By hightman

...采集的词频词典，并辅以一定的专有名称，人名，地名，数字年代等规则识别来达到基本分词，经小范围测试大概准确率在 90% ~ 95% 之间，已能基本满足一些小型搜索引擎、关键字提取等场合运用。切词效率测试(UTF-8编码,随机...

32.libscws 段错误的 bug 修正

发布时间：2007-07-05 09:07 t By hightman

...动识别出来的词有可能超过 255 字，如全部连续的双字节数字或字母．超过 255 字后这里的 j 将变得不正确可能导致 item-> 指向 NULL ,　故加入以下红色部分判断． [code] static void _scws_mset_word(scws_t s, int i, int j) { word_t item; item...

33.项目配置文件详解

... 服务端连接参数的格式包含 3 种格式： 1. *端口号(数字)*，连接 `localhost` 的该端口号 (例：`8383`) 2. *地址:端口号*，冒号连接地址（域名、IP地址）和端口 (例：`127.0.0.1:8383`) 3. *文件路径*，本机的 `unix socket` 连接路径...

34.scws-1.0.0 正式发布 (含php扩展及2文本词典)

更新时间：2010-01-29 13:01 t By hightman

...集的词频词典，并辅以一定的专有名称，人名，地名，数字年代等规则识别来达到基本分词，经小范围测试大概准确率在 90% ~ 95% 之间，已能基本满足一些小型搜索引擎、关键字提取等场合运用。首次雏形版本发布于 2005 年...

35.编写第一个配置文件

...明显，它是主键，所以它的类型必须是 `id` - `fid` 内容为数字的版块ID，但由于我们不需要对它进行排序或区间查找，所以用 `string` 类型即可，为了按版块检索，我们必须对它进行索引，而它也不需要分词，所以分词器用内置...

36.RE: [特别发布] 纯PHP编写的xdb词典导入导出工具！！

更新时间：2011-03-01 22:03 t By hit

...可能有问题) 创建XDB文件是根据 foreach $rec[$k] 里面的数字排序的那样 XDB和TXT里面的排序完全改变了目前的情况是我导出TXT在创建XDB 分词速度比之前慢了2倍这个问题很想知道原因T-T XDB->TXT这似乎是一个很难逆转或...

37.为何导出txt,里面内容不动在创建XDB之后速度变慢很多很多

发布时间：2011-03-03 00:03 t By hit

...可能有问题) 创建XDB文件是根据 foreach $rec[$k] 里面的数字排序的那样 XDB和TXT里面的排序完全改变了目前的情况是我导出TXT在创建XDB 分词速度比之前慢了2倍这个问题很想知道原因T-T XDB->TXT这似乎是一个很难逆转或...

...'); ?column? ---------- t (1 row) [hr] 还有如Unsigned integer这类的数字 postgres=# select to_tsvector('zw_simple','-0.25'); to_tsvector ------------- '0.25':1 (1 row) postgres=# select to_tsvector('simple','-0.25'); to_tsvector ------------- '-0.25':1 (1 row)

39.RE: [2012] SCWS-1.2.0 发布，BSD协议、支持自定义词库、PHP5.4

发布时间：2012-08-27 16:08 t By kill-all999

...现分词，但是通过scws_get_top5()方法获取数据的时候(字母+数字大于等于3个的时候也会返回)。求过滤方案。 $sh = scws_open(); scws_set_charset($sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_set_rule($sh, './rules.ini');//文件内容...

40.按字段值分面搜索

...的，比实际数量可能会偏小。 > 如果您确实需要得到精确数字，请将 [XSSearch::setFacets] 的第二参数设为 true 。 > > 此外，分面搜索仅针对字段值较短的情况，当字段值的长度超过 **255** 字节时会被忽略而不参与统计。 > > 每次搜索...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

搜索