搜索

大约有 70 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.1010秒)

21.RE: xunsearch-1.4.5 (基于 xapian 和 scws开源中文搜索引擎,高扛压不死锁)

发布时间:2013-03-26 16:03 t By vus520

hightman 辛苦~ 第一时间升级到最新版了。我有一个疑问,找了一些文档,没有找到相当的说明,希望你有时间能帮我解答一下。 现在自定义分词,是不是只能在索引的时候进行,我的项目中需要对内容进行自动分词,用于生...

22.C版简易中文分词-cscwsd-0.0.3 发布

发布时间:2007-06-06 10:06 t By hightman

[b][size=3]简要说明[/size][/b] cscwsd 是英文全称 C-Simpled Chinese Word Segment Daemon 的首字缩写,这是用标准纯 C 编写,并配合使用 autoconf GNU软件工具包, 基本上可以很方便在的各类 Unix-Like OS 系统下顺利编译执行。目前测试过的有 RedHat...

23.xunsearch-1.4.8 (基于 xapian+scws 的开源中文搜索引擎,小问题优化改进)

发布时间:2013-12-11 15:12 t By hightman

...s 接受参数作为复合等级 4. 升级 libevent 到 2.x 版 5. 修正中文 stopwords 不生效的问题 6. 取消恼人的 NODB(S#506) 错误提示 7. 新增获取文档匹配词表的接口 XSSearch::setRequireMatchedTerm 官方网站:[url]http://www.xunsearch.com[/url] 下载地址...

24.RE: SCWS 能否添加 “中文+英文”和“中文+数字”自定义词

发布时间:2012-08-30 20:08 t By xiaofeng

[quote='hightman' pid='1078' dateline='1346301119'] 支持是支持的,但数字字母最多只支持2位。 你说的情况其实切分成“斯巴鲁+WRX”并不会有多大问题吧。 像 Q币 QQ空间 这样的都是可以支持成词的。 [/quote] 感谢hightman 的回复。 ...

25.RE: 中文分组粗分方法

发布时间:2010-05-26 19:05 t By baobao

我用您发布的工具,把字典解压。得出了关于的词的字段 WORD TF IDF ATTR 当机立断 14.01 8.10 i WORD ATTR我都能理解。 上贴说的逐字分词后 计算权重的时候使用IDF,貌似就是类似基于字典的最大概率方式来定义权重...

26.关于SCWS基于HTTP/POST的分词API的一个问题

发布时间:2011-04-01 10:04 t By tuzwu

感谢SCWS提供了这么优秀的中文分词库. 我有个问题如下: 文字内容为:"武汉车友会的地盘,听武汉车友的,来这里涂鸦吧" 我希望分词结果为 武汉车友会,武汉车友 ,其他的词都不要.该如何做呢. 传递参数如下: array('data'=>$data, 'igno...

27.xunsearch-1.0.0 正式版 (基于xapian/scws/php的开源中文全文搜索引擎)

发布时间:2011-09-23 13:09 t By hightman

...采用 C/C++ 开发多线程服务端,索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据,在 500 万网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。 [b]简单易用:[/b]前端是使用脚本语言编写的开发工具 (SDK),目前...

28.mysql 其实支持中文全文检索的

发布时间:2010-05-14 10:05 t By xiaolan

只是。。。 没法用而已。。 因为英文中都是用空格进行分割的 不过如果将ft_min_word_len改为2, 然后在程序里将内容用scws进行分词,然后存入数据库单独的字段里,用空格分开,检索的时候, 用mysql的全文检索,可以检索到...

29.二元分词问题

发布时间:2011-11-14 17:11 t By icebolt

...index = both tokenizer =xlen(2) 二元分词只能对英文生效,对中文不生效 同时急于需要一元分词,主要是做黑词筛选用,因为有的时候就要搜索某些一元词,比如 武器 near/2 售,但是不能实现

30.RE: scws1.1.8为什么第一次都很慢。

更新时间:2011-10-24 14:10 t By ci169

...文本: SCWS 是 Simple Chinese Words Segmentation 的缩写,即简易中文分词系统。 ************** 第一次提交 ********************************* No. WordString Attr Weight(times) ------------------------------------------------- 01. 缩写 n 6.72...

  • 时间不限
  • 按相关性排序