搜索

大约有 87 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.1000秒)

31.RE: 我想过滤由‘人’‘得’‘到’‘直’ 这几个字组成的关键字

发布时间:2010-05-31 01:05 t By hightman

...滤的词新增加文本词典,属性设为 ! 即可。或者自己根据词性直接在取得返回值的时候排除它。。 因为你是包含的作法的话,是不是“人们”“人家”“人民”全都要过滤了??这样肯定不合适,所以建议直接根据词性过滤...

32.RE: 遇到一个分词错误的问题

发布时间:2014-02-10 10:02 t By hightman

rule.utf8.ini里那些调节是通过常用词性组合来改变权重,这要求 词典的词性必须十分准确才行

33.XSTokenizerScws::getTops

...text string 待分词的文本 $limit string 在返回结果的词性过滤, 多个词性之间用逗号分隔, 以~开头取反 如: 设为 n,v 表示只返回名词和动词; 设为 ~n,v 则表示返回名词和动词以外的其它词 $xattr {return} array 返回词...

34.如何修正分词错误

更新时间:2012-01-06 16:01 t By worldwind

...分词为: 现在时/n 间/f 期待分词结果:现在 时间 ②词性方面如何修正呢? 例如,希望将,“了”的词性由 v 改为: e 新建一个userdic辞书,然后添加: 了 1.0 1.0 e 通过:scws_add_dict(s, "/usr/local/scws/etc/userdict.utf8...

35.RE: [2010] SCWS-1.1.3 发布,支持文本词典实现自定义词库啦!!

更新时间:2010-11-13 10:11 t By snakeyasin

...次为“词语"(由中文字或3个以下的字母合成), "TF", "IDF", "词性", 字段时间用空格或制表符分开,数量不限,可自行对齐以美化。 3) 除“词语”外,其它字段可忽略不写。若忽略,TF和IDF默认值为 1.0 而 词性为 "@" 4) 由于 tx...

36.RE: 遇到一个分词错误的问题

发布时间:2014-02-11 11:02 t By robinjia

...,还是恶俗?大家怎么看的?”这个句子,无论怎么调整词性语法规则表都是会分成“武松杀 /nr 嫂 /ng 雕塑 /n 是 /v 艺术 /n , /un 还是 /n 恶俗 /n ? /un 大家 /r 怎么 /r 看 /v 的 /uj ? /un”。 我的理解是,这是因为程序里并没有判...

37.RE: [2010] SCWS-1.1.3 发布,支持文本词典实现自定义词库啦!!

发布时间:2012-11-06 22:11 t By umland

...次为“词语"(由中文字或3个以下的字母合成), "TF", "IDF", "词性", 字段时间用空格或制表符分开,数量不限,可自行对齐以美化。 3) 除“词语”外,其它字段可忽略不写。若忽略,TF和IDF默认值为 1.0 而 词性为 "@" 4) 由于 tx...

38.[2013] SCWS-1.2.2 发布,BSD协议、支持自定义词库、PHP5.4

更新时间:2013-07-11 21:07 t By hightman

...布于 2011-04-20[/b] 修正夹杂在汉字中间的1-2个英文字符的词性为 en 而不是原来的 un 导致清除符号时消失. 调整将数字后面的独立 % 纳入整词作为百分比,如 33.3% 作为整词而不再是 33.3 和 % 修改连字符(-)和下划线(_)的规则,当出...

39.关于scws和词库的一些建议

更新时间:2011-04-23 21:04 t By lauxinz

...属性的词,假如品牌的属性设置为pp,因为这些纯英文词的词性切分后都为/en。在非法词过滤时也是如此,不能使用scws_has_word()函数来判断是否有指定属性的词,假如非法词属性为*,非法的英文单词切分后属性为/en。 另外有两个...

40.XSTokenizerScws

... scws 版本号 XSTokenizerScws hasWord() 判断是否包含指定词性的词 XSTokenizerScws setCharset() 设置字符集 XSTokenizerScws setDict() 设置分词词典, 支持 TXT/XDB 格式 XSTokenizerScws setDuality() 设置散字二元组合 XSTokenizerScws ...

  • 时间不限
  • 按相关性排序