搜索

大约有 90 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.3893秒)

71.RE: [特别发布] 纯PHP编写的xdb词典导入导出工具!!

发布时间:2009-07-19 11:07 t By heraldboy

还有就是内存的问题,因为我希望在服务器端有个自动生成词库的功能,命令行方式不是很方便。 主要是用机器先自动分词,人工发现不合理,再把新词增加进去。

72.scws 1.1.2 php extension安装的问题

发布时间:2010-06-12 17:06 t By vinwuser

...ws,我用php 的 dl() 函数测试是否可以调用。这个可以,但分词结果不对,猜测是词库调用的原因,但我把xdb放到php同目录下或者调用/usr/local/scws/etc/下的词库,都得到scws_set_dict(): supplied argument is not a valid scws handler resource。这是...

73.xunsearch-1.4.0 (基于xapian+scws的开源中文搜索,大幅改进性能及稳定性)

发布时间:2013-01-22 12:01 t By hightman

... C/C++ 开发多线程服务端,索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据,在 5 亿网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。 [b]简单易用:[/b]前端是使用脚本语言编写的开发工具 (SDK),目前仅支持...

74.求助:演示的源码在本地和演示上分词测试结果不同【已解决】

更新时间:2013-07-02 21:07 t By jjyang

刚在本地布了一套环境测试,使用同一段文字,演示的分词结果和我本地的结果不同,检查设置项没发现问题所在,所以问一下请大家帮忙看看是什么问题。 [b]分词内容:[/b] [quote]  本报长沙讯 22日晚7点50分左右,湖南农...

75.求TF/IDF算法(官方的计算器没有作用)

发布时间:2013-05-22 13:05 t By zouhc

...果计算出来的大部分内容都是一样的值,而且也无法用于分词。 另外用这个计算器计算得到的TF和IDF值和词典中原先的不一样。 如:词典中的词语“辣椒油”在词典中是这样的: 辣椒油 13.45 9.22 n 我用计算器得出是这样...

76.求TF/IDF算法(官方的计算器没有作用)

发布时间:2013-05-22 13:05 t By zouhc

...果计算出来的大部分内容都是一样的值,而且也无法用于分词。 另外用这个计算器计算得到的TF和IDF值和词典中原先的不一样。 如:词典中的词语“辣椒油”在词典中是这样的: 辣椒油 13.45 9.22 n 我用计算器得出是这样...

77.RE: 能否提供字典dict.xdb的生成程序

发布时间:2009-06-28 21:06 t By hightman

...实上应该针对地名名词(含缩写,别名)建立词库, 然后将其分词, 提取关键字进行比较, 如果相同即可视为相同. 比如同样是 xx市, 有些人可能只写 xx 而没写市

78.RE: 1.1.2的 自定义字典无法使用

更新时间:2010-05-23 22:05 t By 逆雪寒

...et=utf8 scws.default.fpath=/usr/local/scws/etc 而php 是这样 //分词 $so = scws_new(); $so->set_charset('utf8'); // 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件 $so->add_dict(ini_get("scws.default.fpath") . '/dict...

79.libscws的问题

发布时间:2009-12-02 16:12 t By nftw

...DME中提供的例子对 "我是一名中国的程序员"这句话,进行分词, 代码如下: [php] #include #include #include #include int main(int argc, char *argv[]) { scws_t s; scws_res_t res, cur; char *text;// = "Hello, 我名字叫李那曲是一...

80.xunsearch-1.4.1 (xapian+scws 开源搜索引擎,修正搜索进程死锁)

发布时间:2013-02-21 11:02 t By hightman

... C/C++ 开发多线程服务端,索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据,在 5 亿网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。 [b]简单易用:[/b]前端是使用脚本语言编写的开发工具 (SDK),目前仅支持...

  • 时间不限
  • 按相关性排序