搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

21.RE: xunsearch-1.4.5 (基于 xapian 和 scws开源中文搜索引擎，高扛压不死锁)

发布时间：2013-03-28 12:03 t By vus520

[quote='hightman' pid='3722' dateline='1364360180'] 你这个词典是在 etc/dict_user.txt 还是项目目录下的 data/app/dict_user.txt ? 如果是后者需要升级到 1.4.6-dev 才支持，前者必须在改词典后重启 xs-searchd [/quote] 我今天升级到1.4.6了，词典在etc/d...

22.能否提供新功能

发布时间：2011-01-04 10:01 t By xjpeter

... $words, string $dict_file) 从$words数组建立名称为$dict_file的词典，若成功则返回true。$words数组的格式请参考示例，key为词语，value为词频。这样生成词库，相当有方便，能否也增加一下

23.C版简易中文分词-cscwsd-0.0.3 发布

发布时间：2007-06-06 10:06 t By hightman

...例子。切词速度比原 PHP直接分词要提高数十倍以上。词典采用的是 .txt 格式，解决了编辑困扰问题。格式非常简单，一行一条目，词与频率之间用(TAB制表符或空格)分开，具体的程序运行说明，请参看发布包中的 README [size=...

24.RE: 关于gen-scws-dict 操作方法

发布时间：2011-06-28 12:06 t By hightman

文本词典格式，文档多处有提到吧每行记录包含以下字段 \t\t\t 工具用法可以 ./gen-scws-dict -h 查看

25.RE: 关于gen-scws-dict 操作方法

发布时间：2011-06-30 13:06 t By hit

[quote='hightman' pid='6577' dateline='1309234009'] 文本词典格式，文档多处有提到吧每行记录包含以下字段 \t\t\t 工具用法可以 ./gen-scws-dict -h 查看 [/quote] -h 看过.. 不太明白命令规则..

26.RE: 自定义的 txt 字典有关问题求助

发布时间：2010-04-09 15:04 t By lerado

我刚才用统一的词性生成了一个词典，但同一个文件，生成的大小怎么不同呢，第一次：积分 20.0 20.0 @ 中间我是用一个空格格开的，生成后有4M，第二次：积分 20.0 20.0 @ 用的是原dict.xdb导出txt后的格式，生成后有10M， ...

...__construct() 构造函数 XSTokenizerScws addDict() 添加分词词典, 支持 TXT/XDB 格式 XSTokenizerScws getResult() 获取分词结果 XSTokenizerScws getTokens() XSTokenizer 接口 XSTokenizerScws getTops() 获取重要词统计结果 XSTokenizerScws g...

28.daemon server(linux后台程序)和embed(库的形式嵌入程序中)

更新时间：2010-12-09 23:12 t By lauxinz

...差距有多大？xdb格式没有装入内存，只是在分词过程中去词典文件中查找，每一次分词都要read一次磁盘。xdb全部装入内存采用xtree结构存储，28万词典会占用多大的内存？

29.[特别提供] 纯PHP编写的sqlite词典工具！！

更新时间：2010-07-08 22:07 t By limaoxiang

这个工具是基于作者的工作的一点点扩展，我不是本项目的开发人员，仅仅是因为需要使用这个功能在我的网站上而基于hightman提供的代码的修改，现在返回给项目，希望更多的人能有用。原因：我希望给网站提供分词功能，...

30.关于词典中的词性标注

发布时间：2007-06-09 12:06 t By hightman

由于词典条目多达26万条之巨，在整理的时候已经把很多明显不对的标注或词条清理了，但仍然肯定有很多错误的条目。主要表现在不是词的列在词里，还有词性标注错误的。本词典中的标注使用的是北大版本的标注集（见附...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

搜索