搜索

大约有 87 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.0055秒)

61.RE: 自定义的 txt 字典 有关问题 求助

发布时间:2010-04-09 15:04 t By lerado

我刚才用统一的词性生成了一个词典,但同一个文件, 生成的大小怎么不同呢, 第一次: 积分 20.0 20.0 @ 中间我是用一个空格格开的,生成后有4M, 第二次: 积分 20.0 20.0 @ 用的是原dict.xdb导出txt后的格式,生成后有10M, ...

62.RE: 关于词频的解释

更新时间:2013-04-15 11:04 t By hightman

加大,前门,缩小,从前 不过这个是词性关系,可以考虑增大 p(1) + n 的权重。 在 etc/rules.ini 和 etc/rules.utf8.ini 的 [attrs] 后方加入 p(1) + n = 5 即可 我们的DEMO已经更新,[url]http://www.xunsearch.com/scws/demo/v4.php[/url] 您也可以参见我们...

63.RE: scws_has_word的逻辑问题

发布时间:2010-07-29 14:07 t By hightman

关于has_word, 不是很明白你的意思, has_word 用于检测当前文本中是否包含这些属性的词。 scws_get_words 是按词性返回分词结果,标点的词应该默认应该是 un 或 # 之类可以自行排除。

64.RE: scws_has_word没有得到部分指定词库中的词

发布时间:2011-12-08 16:12 t By hightman

has_word 是用来判断词性的啊,你怎么用的代码 ?

65.三个问题需要求教

发布时间:2011-01-17 11:01 t By nftw

1, 当英文或数字与汉字链接时,词性会被视为un。如"LG集团",LG与集团紧连着,这种情况下,我希望把LG也视为en。能不能通过修改rules改变呢?因为我不是太理解un指的是什么,好像助词'的'、标点符号等都被视为un。我在插入...

66.刚翻译了一下这个倒java上

更新时间:2011-02-22 10:02 t By mudie

...qq44720124[hr] 另外,高人同学可以考虑下这几个问题: 1.词性参与权重计算导致的问题挺多,这点是不是考虑规则权重调整一下? 2.可能是考虑性能问题,采取的局部寻优的办法也导致了一些问题,是不是考虑全局寻优,或者长...

67.RE: set ignore bug ?全角数字不见了

发布时间:2011-11-03 23:11 t By hightman

...line='1320310178'] 那些全被视为符号了。。。符号其实是指 词性为 un 的 [/quote] 那很奇怪,我用WINDOWS下的DLL ,他就不会把全角字符这个给去掉 [/quote] 那应该是2者的词典不一样吧。。。你可以试试在不IGNORE的情况 下打印词情...

68.RE: 自定义的 txt 字典 有关问题 求助

发布时间:2010-04-09 15:04 t By hightman

...效果有一定影响的,TF主要用于词的切分,IDF用于统计,词性就用在取TOP时过滤或标注上。 最好是基于现有的词典去补充,你重建一个的话数据又都没有效果可能会比较差。SCWS主页上有一个TF/IDF计算器,你可以参看一下效果...

69.RE: 提高人民生活水平 的分词有误

更新时间:2011-01-04 14:01 t By hightman

多谢,此问题源于 rules.ini 中的词性修正。当初把单个字的动词+名词重点提升了权重。 参见这贴子:http://www.hightman.cn/bbs/showthread.php?tid=575&page=1&highlight=hightman#pid3092 当初解决”结合成分子时“ ”学人家人肉“ 。。 之类,所...

70.RE: scws_has_word的逻辑问题

更新时间:2010-07-29 15:07 t By backluck

...测当前文本中是否包含这些属性的词。 scws_get_words 是按词性返回分词结果,标点的词应该默认应该是 un 或 # 之类可以自行排除。 [/quote] 关于has_word,我的意思是说,当我不传属性参数,返回的会是0

  • 时间不限
  • 按相关性排序