搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

1.词库词性标注问题反馈

更新时间：2012-09-04 09:09 t By 任侠001

...供的xdb格式词库导出，发现存在以下非北大标注标准中的词性： 'df','jb','mq','rr','rz','iv','ld','ln','lx','in','jb','jn','qd','qe','uj','un','vi','vq' 这些应该都算是标注不正确的吧还有最近我经常来论坛，这几天论坛里每天垃圾帖子太多了...

2.RE: 关于词典中的词性标注

发布时间：2009-08-06 00:08 t By hightman

单字标为 @ 是以前遗留下来的, 未确定词性, 还有一部分被标为 un 了, 建议把 un 改为 '@' ,否则可能导致散字自动聚合成2元分词时会不聚合.

3.RE: 关于词典中的词性标注

发布时间：2009-08-04 12:08 t By zgycsmb

自己怎么增加新的词呢，请楼主解答，谢谢！

4.RE: 词库词性标注问题反馈

发布时间：2012-09-19 14:09 t By hightman

我看到就删除，烦死了，一点办法也没有。

5.RE: 关于词典中的词性标注

发布时间：2009-08-06 08:08 t By akira

感謝您的建議最初合併字典後，用較長的內文 + IN BOOLEAN MODE 搜尋，會有 0 筆資料的情況，後來反覆縮短原文查詢發現，多數與 att = un 有關聯，只是不敢武斷就是了。本週一，狠心將 un 完全調成 a (形容词)，同時完全移除只...

6.关于词典中的词性标注

发布时间：2007-06-09 12:06 t By hightman

...多错误的条目。主要表现在不是词的列在词里，还有词性标注错误的。本词典中的标注使用的是北大版本的标注集（见附录），在使用中发现错误的请大家协助跟踪汇报。这是一个长期艰巨的任务，希望本着有一纠一的原则...

7.RE: 关于词典中的词性标注

发布时间：2009-08-05 06:08 t By akira

得助於 xdb词典导入导出工具，已經完成 UTF8 chs + cht 的合併，也自己加了一些詞, 目前使用中，感覺很好。想回應的是自己在合併過程中，碰到的情況。在個別將 dict_chs(t).utf8.xdb 導出，倒入資料庫處理時發現，有重複的字...

8.在 Xunsearch 使用 SCWS

...源参数文本 _$text_ 中的起始偏移位置 - *attr* 这个词汇的词性，使用北大标注 - *word* 分好的词条 ~~~ [php] $text = '迅搜(xunsearch)是优秀的开源全文检索解决方案'; $words = $tokenizer->getResult($text); print_r($words); ~~~ ### 提取重要词汇调...

9.RE: 自定义的 txt 字典有关问题求助

发布时间：2010-04-09 15:04 t By hightman

...效果有一定影响的，TF主要用于词的切分，IDF用于统计，词性就用在取TOP时过滤或标注上。最好是基于现有的词典去补充，你重建一个的话数据又都没有效果可能会比较差。SCWS主页上有一个TF/IDF计算器，你可以参看一下效果...

10.[求助]如何转换pre版本的xdb为txt格式

发布时间：2007-12-25 17:12 t By hackson

...问题想请教下hightman大大，似乎0.0.1-pre版本的词库增加了词性标注，这对我很有帮助。想请教一下如何把0.0.1-pre版本的dict.xdb转换成txt呢？我找到了您发布的scws-v23里面的mk_txt.php，但是好像和新版本的xdb词库不兼容，能否麻烦提...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

相关搜索