搜索

大约有 40 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.0057秒)

11.PHP4版 简易中文分词(PSCWS) 第2/3版

发布时间:2007-06-06 09:06 t By hightman

...没有绝对的谁优谁劣,似乎半斤八两。 两者都是基于词典词频查询,推荐词典格式为 cdb,因为它在 PHP 中有捆绑而且同时支持 windows 和 *Unix* ,只需要在PHP编译时加入 --with-dba --with-cdb 即可,在 windows 中打开 php-dba.dll 扩展就行...

12.scws分词乱码问题,求解

发布时间:2012-07-17 16:07 t By wainilxx7

...页显示编码也是用的gbk。 然后我用记事本打开XDB 格式词典文件dict.xdb,效果如下: XDB"/B ? ?? 悯H@   % G ! ? ! p # Z  #  ! ? # ? ) ? ! ? !  ! ? % ? ! ? ! ;* # P- # -0 ! ? % ? # ? # 5= # A ! 鰾 ! tG ! bJ ' ㎜ ! 頝 # 稱 ! zT !...

13.“有空间”的分词有问题和扩充词典

更新时间:2013-05-18 14:05 t By lyjkensou

使用的是scws-1.2.1 对“有空间”这个句子进行分词,理想的结果应该是“有空 空间” 但实际结果是“有空 间” 即使通过scws_add_dict()添加了自定义的txt字典(里面只包含“空间 11.82 12.38”一行),仍然分不出“空间”这个词。...

14.关于扩展词库的问题

发布时间:2012-12-10 15:12 t By timeage

... 斯 蒂 芬 [b]罗铭 罗 铭 罗[/b] 大大 大 大 罗 我的自定义词典为: 铭罗 1 0 n 罗铭 1 0 n 我的原意是想分出我的词典中所有的单词:“罗铭” “铭罗”,但加入到自定义词典后,却完全没有了“铭罗”这个词。 问题2...

15.RE: libscws的问题

发布时间:2009-12-04 13:12 t By nftw

...ict_chs_gbk.xdb", SCWS_XDICT_MEM); 这句话出了问题, 也就是可能词典不正确. 但这个词典目前测试在64位系统下也是可以正常工作的, 检查一下词典的字节数是不是没有下载完整. [/quote] 谢谢您的回复,词典是用README中提供的命令生成...

16.自定义 SCWS 词库

... xunsearch 服务端,那么每个服务端独自使用自己的自定义词典文件。 添加删除修改自定义词库只要编辑该文件即可,以下为相关规范: - 文件为纯文本文件,编码必须是 UTF-8,可用任何编辑器修改 - 每行一条记录表示一个词...

17.RE: 请教:关于地市信息的分词结果,如何更准确?

发布时间:2010-09-26 20:09 t By hightman

由于词库太大干扰所致,建议可以附加一个小词典(目的是删除这些无用词汇,以下我写出来作参考,把下面的文字存成dict.txt,然后在原有的set_dict之后加上 scws_add_dict(s, 'path/to/this_ad_dict.txt', SCWS_XDICT_TXT); 这样使文本词典生效. ...

18.XSTokenizerScws::setDict

...s setDict(string $fpath, int $mode=NULL) $fpath string 服务端的词典路径 $mode int 词典类型, 常量: SCWS_XDICT_XDB|SCWS_XDICT_TXT|SCWS_XDICT_MEM {return} XSTokenizerScws 返回对象本身以支持串接操作 源码: sdk/php/lib/XSTokenizer.class.php#L283 (...

19.XSTokenizerScws::addDict

...s addDict(string $fpath, int $mode=NULL) $fpath string 服务端的词典路径 $mode int 词典类型, 常量: SCWS_XDICT_XDB|SCWS_XDICT_TXT|SCWS_XDICT_MEM {return} XSTokenizerScws 返回对象本身以支持串接操作 源码: sdk/php/lib/XSTokenizer.class.php#L299 (...

20.RE: 集成包怎么用自定义词库?

更新时间:2011-09-20 17:09 t By xjtdy888

...pian的queryparser中了,我想直接加入新的 scws_add_dict 把我的词典搞进来就行,不过没看到文档有描述词典格式

1234
  • 时间不限
  • 按相关性排序