搜索

大约有 87 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.1008秒)

21.RE: 关于词典中的词性标注

发布时间:2009-08-06 08:08 t By akira

感謝您的建議 最初合併字典後,用較長的內文 + IN BOOLEAN MODE 搜尋,會有 0 筆資料的情況,後來反覆縮短原文查詢發現,多數與 att = un 有關聯,只是不敢武斷就是了。 本週一,狠心將 un 完全調成 a (形容词),同時完全移除只...

22.RE: 2009/5 scws-1.0.2更新发布,加入词性语义消岐规则

发布时间:2009-05-25 18:05 t By redboy

没有找到更新后的 php_scws.dll 文件,请问在哪儿可以下载到最新(1.0.2)的版本? 还有一个问题,就是如何添加修改词库??谢谢

23.RE: 关于词典中的词性标注

发布时间:2009-08-05 06:08 t By akira

得助於 xdb词典导入导出工具,已經完成 UTF8 chs + cht 的合併,也自己加了一些詞, 目前使用中,感覺很好。 想回應的是自己在合併過程中,碰到的情況。 在個別將 dict_chs(t).utf8.xdb 導出,倒入資料庫處理時發現,有重複的字...

24.RE: [bug] 获取统计词时的词性过滤处理有问题

发布时间:2011-10-26 16:10 t By hightman

... v,n 结果只有 n 的,测试~v,n,vn 结果还是会出现包含这些词性的。 这。。。似乎完全有BUG,稍后查。 [/quote] 感谢 magike 网友再度来信指出,目前已经在CVS中作了修正,预计在下一版本同时发布。 看了一下确实是宏定义的...

25.关于词典中的词性标注

发布时间:2007-06-09 12:06 t By hightman

...多错误的条目。 主要表现在不是词的列在词里,还有词性标注错误的。本词典中的标注使用的是北大版本的标注集(见附录),在使用中发现错误的请大家协助跟踪汇报。这是一个长期艰巨的任务,希望本着有一纠一的原则...

26.RE:1268

发布时间:2008-04-08 13:04 t By ianlow

可以添加对词性的判断,以及词性的权重比,应该可以达到你想要的效果~ 例如:在SCWS分析以上三句词性得到: 你/r 给/v 我/r 买/v 的/uj 衣服/n 你/r 看/v 的/uj 书/n 一/m 件/q 衣服/n 以此可以看出,其中匹配的是 你/r 的/uj 衣服/n ...

27.RE: 「清除标点符号断词」错误回报

发布时间:2010-05-16 22:05 t By hightman

清除符号本质上是根据词性来处理的。勾上词性后发现这些被清除的词性都是 un 所以会被清除,这是因为词典的数据不对导致的,之前的繁体词典是一位朋友帮忙整理的,可能有所缺漏和不对。

28.XSTokenizerScws::hasWord

... $text string 要判断的文本 $xattr string 要判断的词性, 参见 getTops 的说明 {return} bool 文本中是否包含指定词性的词汇 源码: sdk/php/lib/XSTokenizer.class.php#L382 (显示) public function hasWord($text, $xattr){ $text = $this->applySet...

29.在 Xunsearch 使用 SCWS

...源参数文本 _$text_ 中的起始偏移位置 - *attr* 这个词汇的词性,使用北大标注 - *word* 分好的词条 ~~~ [php] $text = '迅搜(xunsearch)是优秀的开源全文检索解决方案'; $words = $tokenizer->getResult($text); print_r($words); ~~~ ### 提取重要词汇 调...

30.自定义词典产生的故障

更新时间:2012-04-29 20:04 t By yunxiaoad2

自定义了dict_user.txt 出现奇怪现象,所有词性都变成了string(3),而且还出现了乱码: array(3) { ["off"]=> int(0) ["attr"]=> string(3) "@�" ["word"]=> string(15) "重庆鸡公煲" } array(3) { ["off"]=> int(0) ["attr"]=> string(3) "ns�" ["word"]=> string(6) "重庆" ...

  • 时间不限
  • 按相关性排序