搜索

大约有 40 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.1008秒)

11.index

...r 自定义字段词法分析器接口 XSTokenizerFull 内置整值分词器 XSTokenizerNone 内置空分词器 XSTokenizerScws SCWS - 分词器(与搜索服务端通讯) XSTokenizerSplit 内置的分割分词器 XSTokenizerXlen 内置的定长分词器 XSTokenize...

12.xunsearch-1.4.8 (基于 xapian+scws 的开源中文搜索引擎,小问题优化改进)

发布时间:2013-12-11 15:12 t By hightman

...代码兼容性 2. 增加用户案例文档:USERCASE 3. 改进自定义分词器 XSTokenizerScws 接受参数作为复合等级 4. 升级 libevent 到 2.x 版 5. 修正中文 stopwords 不生效的问题 6. 取消恼人的 NODB(S#506) 错误提示 7. 新增获取文档匹配词表的接口 X...

13.使用自定义词库的时候,部分词会丢失

更新时间:2014-04-18 17:04 t By tianly

...是SCWS-1.2.2 我用自己的词库替换了dict.utf8.xdb,然后尝试分词“朝鲜近日播放的一个纪录片中,发现”,发现“纪录片中”在分词结果中丢失了 Array ( [word] => 朝鲜 [off] => 0 [len] => 6 [idf] => 0 [attr] => @ ) Array ( [word] => 近日 [off] => 6 ...

14.xunsearch-1.0.0 正式版 (基于xapian/scws/php的开源中文全文搜索引擎)

发布时间:2011-09-23 13:09 t By hightman

... C/C++ 开发多线程服务端,索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据,在 500 万网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。 [b]简单易用:[/b]前端是使用脚本语言编写的开发工具 (SDK),目前仅支...

15.关于 Xunsearch PHP-SDK

...采用 C/C++ 编写,索引设计基于著名而悠久的 [Xapian][1],分词采用 自主研发同样也是开源的 [SCWS分词][2],两者完美结合,理论上单个搜索库支持 40 亿条 记录。可编译运行于 Linux/FreeBSD 等各种 UNIX 类型的系统。 *Xunsearch PHP-SDK* 是...

16.咨询SCWS准确率是如何计算出来的

发布时间:2013-10-08 17:10 t By tiankong

我想咨询一个问题。SCWS官网简介上指出,SCWS中文分词系统(Simple Chinese Word Segmentation)经小范围测试准确率在 90% ~ 95% 之间。 上面的准确率是如何计算出来的呢?或者有其他类似的标准测试工具吗?谢谢!

17.RE: 中文分组粗分方法

发布时间:2010-05-26 19:05 t By baobao

...立断 14.01 8.10 i WORD ATTR我都能理解。 上贴说的逐字分词后 计算权重的时候使用IDF,貌似就是类似基于字典的最大概率方式来定义权重,或者说是对于歧义的取舍。 TF IDF 具体是指什么? 使用的概率计算公式能阐述下么? ...

18.关于自建字典问题

发布时间:2013-09-02 00:09 t By gwgwgw

先谢谢highman提供了这么方便的分词工具! 使用中发现,在字典的建立过程中,及php make_xdb_file.php 报了一大堆警告: Notice: Undefined index: tf in C:\xampp\php\xdb\make_xdb_file.php on line 93 Notice: Undefined index: idf in C:\xampp\php\xdb\make_xdb_file.p...

19.xunsearch-1.4.1 (xapian+scws 开源搜索引擎,修正搜索进程死锁)

发布时间:2013-02-21 11:02 t By hightman

... C/C++ 开发多线程服务端,索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据,在 5 亿网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。 [b]简单易用:[/b]前端是使用脚本语言编写的开发工具 (SDK),目前仅支持...

20.C版简易中文分词-cscwsd-0.0.3 发布

发布时间:2007-06-06 10:06 t By hightman

...下:运行后在本地绑定一个端口(缺省是 4700)监听处理分词服务,无其它功能。针对输入的文字进行分词后然后原样输出,注意每次输入均以 "\n" 作为处理标记,即一行处理一次并返回。这样作的目的在于提高分词的效率和通...

1234
  • 时间不限
  • 按相关性排序