搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

61.RE: 自定义的 txt 字典有关问题求助

发布时间：2010-04-09 15:04 t By lerado

我刚才用统一的词性生成了一个词典，但同一个文件，生成的大小怎么不同呢，第一次：积分 20.0 20.0 @ 中间我是用一个空格格开的，生成后有4M，第二次：积分 20.0 20.0 @ 用的是原dict.xdb导出txt后的格式，生成后有10M， ...

62.RE: 关于词频的解释

更新时间：2013-04-15 11:04 t By hightman

加大，前门，缩小，从前不过这个是词性关系，可以考虑增大 p(1) + n 的权重。在 etc/rules.ini 和 etc/rules.utf8.ini 的 [attrs] 后方加入 p(1) + n = 5 即可我们的DEMO已经更新，[url]http://www.xunsearch.com/scws/demo/v4.php[/url] 您也可以参见我们...

63.RE: scws_has_word的逻辑问题

发布时间：2010-07-29 14:07 t By hightman

关于has_word, 不是很明白你的意思, has_word 用于检测当前文本中是否包含这些属性的词。 scws_get_words 是按词性返回分词结果，标点的词应该默认应该是 un 或 # 之类可以自行排除。

64.RE: scws_has_word没有得到部分指定词库中的词

发布时间：2011-12-08 16:12 t By hightman

has_word 是用来判断词性的啊，你怎么用的代码？

65.三个问题需要求教

发布时间：2011-01-17 11:01 t By nftw

1，当英文或数字与汉字链接时，词性会被视为un。如"LG集团"，LG与集团紧连着，这种情况下，我希望把LG也视为en。能不能通过修改rules改变呢？因为我不是太理解un指的是什么，好像助词'的'、标点符号等都被视为un。我在插入...

66.刚翻译了一下这个倒java上

更新时间：2011-02-22 10:02 t By mudie

...qq44720124[hr] 另外，高人同学可以考虑下这几个问题： 1.词性参与权重计算导致的问题挺多，这点是不是考虑规则权重调整一下？ 2.可能是考虑性能问题，采取的局部寻优的办法也导致了一些问题，是不是考虑全局寻优，或者长...

67.RE: set ignore bug ?全角数字不见了

发布时间：2011-11-03 23:11 t By hightman

...line='1320310178'] 那些全被视为符号了。。。符号其实是指词性为 un 的 [/quote] 那很奇怪，我用WINDOWS下的DLL ，他就不会把全角字符这个给去掉 [/quote] 那应该是2者的词典不一样吧。。。你可以试试在不IGNORE的情况下打印词情...

68.RE: 自定义的 txt 字典有关问题求助

发布时间：2010-04-09 15:04 t By hightman

...效果有一定影响的，TF主要用于词的切分，IDF用于统计，词性就用在取TOP时过滤或标注上。最好是基于现有的词典去补充，你重建一个的话数据又都没有效果可能会比较差。SCWS主页上有一个TF/IDF计算器，你可以参看一下效果...

69.RE: 提高人民生活水平的分词有误

更新时间：2011-01-04 14:01 t By hightman

多谢，此问题源于 rules.ini 中的词性修正。当初把单个字的动词+名词重点提升了权重。参见这贴子：http://www.hightman.cn/bbs/showthread.php?tid=575&page=1&highlight=hightman#pid3092 当初解决”结合成分子时“ ”学人家人肉“ 。。之类，所...

70.RE: scws_has_word的逻辑问题

更新时间：2010-07-29 15:07 t By backluck

...测当前文本中是否包含这些属性的词。 scws_get_words 是按词性返回分词结果，标点的词应该默认应该是 un 或 # 之类可以自行排除。 [/quote] 关于has_word，我的意思是说，当我不传属性参数，返回的会是0

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

相关搜索