搜索

大约有 14 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.0053秒)

1.词库词性标注问题反馈

更新时间:2012-09-04 09:09 t By 任侠001

...供的xdb格式词库导出,发现存在以下非北大标注标准中的词性: 'df','jb','mq','rr','rz','iv','ld','ln','lx','in','jb','jn','qd','qe','uj','un','vi','vq' 这些应该都算是标注不正确的吧 还有最近我经常来论坛,这几天论坛里每天垃圾帖子太多了...

2.RE: 关于词典中的词性标注

发布时间:2009-08-06 00:08 t By hightman

单字标为 @ 是以前遗留下来的, 未确定词性, 还有一部分被标为 un 了, 建议把 un 改为 '@' ,否则可能导致散字自动聚合成2元分词时会不聚合.

3.RE: 关于词典中的词性标注

发布时间:2009-08-04 12:08 t By zgycsmb

自己怎么增加 新的词呢, 请楼主解答,谢谢!

4.RE: 词库词性标注问题反馈

发布时间:2012-09-19 14:09 t By hightman

我看到就删除,烦死了,一点办法也没有。

5.RE: 关于词典中的词性标注

发布时间:2009-08-06 08:08 t By akira

感謝您的建議 最初合併字典後,用較長的內文 + IN BOOLEAN MODE 搜尋,會有 0 筆資料的情況,後來反覆縮短原文查詢發現,多數與 att = un 有關聯,只是不敢武斷就是了。 本週一,狠心將 un 完全調成 a (形容词),同時完全移除只...

6.关于词典中的词性标注

发布时间:2007-06-09 12:06 t By hightman

...多错误的条目。 主要表现在不是词的列在词里,还有词性标注错误的。本词典中的标注使用的是北大版本的标注集(见附录),在使用中发现错误的请大家协助跟踪汇报。这是一个长期艰巨的任务,希望本着有一纠一的原则...

7.RE: 关于词典中的词性标注

发布时间:2009-08-05 06:08 t By akira

得助於 xdb词典导入导出工具,已經完成 UTF8 chs + cht 的合併,也自己加了一些詞, 目前使用中,感覺很好。 想回應的是自己在合併過程中,碰到的情況。 在個別將 dict_chs(t).utf8.xdb 導出,倒入資料庫處理時發現,有重複的字...

8.在 Xunsearch 使用 SCWS

...源参数文本 _$text_ 中的起始偏移位置 - *attr* 这个词汇的词性,使用北大标注 - *word* 分好的词条 ~~~ [php] $text = '迅搜(xunsearch)是优秀的开源全文检索解决方案'; $words = $tokenizer->getResult($text); print_r($words); ~~~ ### 提取重要词汇 调...

9.RE: 自定义的 txt 字典 有关问题 求助

发布时间:2010-04-09 15:04 t By hightman

...效果有一定影响的,TF主要用于词的切分,IDF用于统计,词性就用在取TOP时过滤或标注上。 最好是基于现有的词典去补充,你重建一个的话数据又都没有效果可能会比较差。SCWS主页上有一个TF/IDF计算器,你可以参看一下效果...

10.[求助]如何转换pre版本的xdb为txt格式

发布时间:2007-12-25 17:12 t By hackson

...问题想请教下hightman大大,似乎0.0.1-pre版本的词库增加了词性标注,这对我很有帮助。想请教一下如何把0.0.1-pre版本的dict.xdb转换成txt呢?我找到了您发布的scws-v23里面的mk_txt.php,但是好像和新版本的xdb词库不兼容,能否麻烦提...

12
  • 时间不限
  • 按相关性排序