搜索

大约有 30 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.1971秒)

11.RE: 定义的 txt 字典 有关问题 求助

发布时间:2010-04-09 15:04 t By hightman

那个属性对分词效果有一定影响的,TF主要用于词的切分,IDF用于统计,词性就用在取TOP时过滤或标注上。 最好是基于现有的词典去补充,你重建一个的话数据又都没有效果可能会比较差。SCWS主页上有一个TF/IDF计算器,你可...

12.RE: 如何修正分词错误

发布时间:2012-02-22 19:02 t By vanni

定义一个定义词典,包括下面内容: 了 100 100 e 现在 100 100 时间 100 100

13.“有空间”的分词有问题和扩充词典

更新时间:2013-05-18 14:05 t By lyjkensou

...但实际结果是“有空 间” 即使通过scws_add_dict()添加了定义的txt字典(里面只包含“空间 11.82 12.38”一行),仍然分不出“空间”这个词。 还有如何设置才能识别出网址和邮箱等格式? 另外关于scws-gen-dict,按照github上的...

14.RE: xunsearch-1.4.5 (基于 xapian 和 scws开源中文搜索引擎,高扛压不死锁)

发布时间:2013-03-28 12:03 t By vus520

... 我现在的问题是想通过XSTokenizerScws来获取指定文本的定义分词结果。sdk使用了github里最新的版本,词典格式由一楼所示,现在取出来的结果并不包含任何定义词典的关键词,求解。[/code] [php] $text =

15.RE: 1.1.2的 定义字典无法使用

更新时间:2010-05-23 22:05 t By 逆雪寒

谢谢 hightman 的回答. 不过我确定我市完全按照你说的做的 php.ini 是这样的配置 [scws] extension=scws.so scws.default.charset=utf8 scws.default.fpath=/usr/local/scws/etc 而php 是这样 //分词 $so = scws_new(); $so->set_charset('utf8'); // 这里没有...

16.对于分词的一些困惑

更新时间:2010-10-13 17:10 t By 逆雪寒

使用了定义字典。完全忽略带的字典。 然后我在字典里面 分词 : 北海365 365 就这两个词。 然后我 搜的时候 是 : 北海365 这时候返回的分词 却只有: 365 “北海”不见了 如果我启动系统词典 那么“...

17.想手动指定一些不进行分词的词语

发布时间:2013-07-23 16:07 t By seagg

...如何操作,才能使得这个词不被分开 我看到有用户定义词典 dict_user.txt 我在里面写了: 米兔车贴 1.0 1.0 ! 但还是被分了 还看到一个stopwords.txt的文件,但将米兔车贴放到里面了也还是会被分 。。。

18.RE: 求TF/IDF算法(官方的计算器没有作用)

发布时间:2013-05-22 13:05 t By hightman

...致用不到分词,只是靠在一起时需要消岐才用得到。你定义词典用不了要查查是什么别的原因。 通常问题: 1.词典写的字符集不对,比如把GBK当UTF-8了 2.词典更新后的修改时间由于某些原因比/tmp目录下生成的临时xdb还要旧,...

19.最新的主要变动

...进优化代码兼容性 - 增加用户案例文档:USERCASE - 改进定义分词器 XSTokenizerScws 接受参数作为复合等级 - 升级 libevent 到 2.x 版 - 修正中文 stopwords 不生效的问题 - 取消恼人的 NODB(S#506) 错误提示 - 新增获取文档匹配词表的接口 [XSS...

20.RE: [HELP]xunsearch安装好了,搜索没有结果集。。。

发布时间:2011-10-26 15:10 t By vist2007

...有提供scws的api接口,实现短语分词功能 2.是否可以对scws定义中文词典,方便扩展

123
  • 时间不限
  • 按相关性排序