搜索

大约有 40 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.0064秒)

21.RE: xunsearch-1.4.5 (基于 xapian 和 scws开源中文搜索引擎,高扛压不死锁)

发布时间:2013-03-28 12:03 t By vus520

[quote='hightman' pid='3722' dateline='1364360180'] 你这个词典是在 etc/dict_user.txt 还是项目目录下的 data/app/dict_user.txt ? 如果是后者需要升级到 1.4.6-dev 才支持,前者必须在改词典后重启 xs-searchd [/quote] 我今天升级到1.4.6了,词典在etc/d...

22.能否提供新功能

发布时间:2011-01-04 10:01 t By xjpeter

... $words, string $dict_file) 从$words数组建立名称为$dict_file的词典,若成功则返回true。$words数组的格式请参考示例,key为词语,value为词频。 这样生成词库,相当有方便,能否也增加一下

23.C版简易中文分词-cscwsd-0.0.3 发布

发布时间:2007-06-06 10:06 t By hightman

...例子。切词速度比原 PHP直接分词要提高数十倍以上。 词典采用的是 .txt 格式,解决了编辑困扰问题。格式非常简单,一行一条目,词与频率之间用(TAB制表符或空格)分开,具体的程序运行说明,请参看发布包中的 README [size=...

24.RE: 关于gen-scws-dict 操作方法

发布时间:2011-06-28 12:06 t By hightman

文本词典格式,文档多处有提到吧 每行记录包含以下字段 \t\t\t 工具 用法可以 ./gen-scws-dict -h 查看

25.RE: 关于gen-scws-dict 操作方法

发布时间:2011-06-30 13:06 t By hit

[quote='hightman' pid='6577' dateline='1309234009'] 文本词典格式,文档多处有提到吧 每行记录包含以下字段 \t\t\t 工具 用法可以 ./gen-scws-dict -h 查看 [/quote] -h 看过.. 不太明白命令规则..

26.RE: 自定义的 txt 字典 有关问题 求助

发布时间:2010-04-09 15:04 t By lerado

我刚才用统一的词性生成了一个词典,但同一个文件, 生成的大小怎么不同呢, 第一次: 积分 20.0 20.0 @ 中间我是用一个空格格开的,生成后有4M, 第二次: 积分 20.0 20.0 @ 用的是原dict.xdb导出txt后的格式,生成后有10M, ...

27.XSTokenizerScws

...__construct() 构造函数 XSTokenizerScws addDict() 添加分词词典, 支持 TXT/XDB 格式 XSTokenizerScws getResult() 获取分词结果 XSTokenizerScws getTokens() XSTokenizer 接口 XSTokenizerScws getTops() 获取重要词统计结果 XSTokenizerScws g...

28.daemon server(linux后台程序)和embed(库的形式嵌入程序中)

更新时间:2010-12-09 23:12 t By lauxinz

...差距有多大?xdb格式没有装入内存,只是在分词过程中去词典文件中查找,每一次分词都要read一次磁盘。xdb全部装入内存采用xtree结构存储,28万词典会占用多大的内存?

29.[特别提供] 纯PHP编写的sqlite词典工具!!

更新时间:2010-07-08 22:07 t By limaoxiang

这个工具是基于作者的工作的一点点扩展,我不是本项目的开发人员,仅仅是因为需要使用这个功能在我的网站上而基于hightman提供的代码的修改,现在返回给项目,希望更多的人能有用。 原因:我希望给网站提供分词功能,...

30.关于词典中的词性标注

发布时间:2007-06-09 12:06 t By hightman

由于词典条目多达26万条之巨,在整理的时候已经把很多明显不对的标注或词条清理了,但仍然肯定有很多错误的条目。 主要表现在不是词的列在词里,还有词性标注错误的。本词典中的标注使用的是北大版本的标注集(见附...

1234
  • 时间不限
  • 按相关性排序