搜索

大约有 76 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.2951秒)

21.RE: 对于分词的一些困惑

发布时间:2010-10-13 17:10 t By hightman

由于分词规则开头会先进行中英文粗分,那时就强行把数字、字母与多字节的汉字拆分开。 只有夹在汉字中间的1~2个数字或字终才被允许和汉字组合,比如“T恤” ”Q币“ 这种。 假设你的词典里有”北海36“,被分的句子是...

22.RE: 对医院的分词不太理想

更新时间:2010-09-07 18:09 t By hightman

杯具的分词词库和规则集导致这个结果, 稍后我看能不能简单调整一下规则集来获得比较好的效果。 查到原因了,是因为词库里居然有个错误的词叫“民医院”!! 建议删除该词重新生成词典或,写一个附加词典标记为删除。...

23.scws-1.1.6 发布

更新时间:2011-04-20 15:04 t By hightman

... 作为整词而不再是 33.3 和 % 3.修改连字符(-)和下划线(_)的规则,当出现在字母单词之间时视为同一词而不再强行切开,此时如果激活复合分词的 DUALITY 选项,则仍能将符号切开作为复合词。 4.修正浮点数的识别规则,避免将IPv4...

24.xunsearch是隔多久会自动对索引进行更新

更新时间:2014-11-19 17:11 t By xzm

...道要怎么做。 因为现在要做排序,想按照自己要的一些规则排序。 还有查询的时候 $search->setSort($sort); $search->setLimit($limit, $offset)->search(); 他这个是现在整个数据库按我的规则排序后在按这个$limit, $offset要求来去的数据吗 如果是...

25.SCWS-php扩展的说明及用法

发布时间:2007-06-07 18:06 t By hightman

...nd_text 方法或 scws_send_text 函数被调用前,没有加载词典和规则集时,系统会自动在scws.default.fpath(ini配置)中查找相应的字符集词典。词典和规则文件的命名方式为 dict[.字符集].xdb 和 rules[.字符集].ini ,当字符集是 gbk 时中括号里...

26.SCWS - rules.ini 规则集配置文件

发布时间:2007-06-07 20:06 t By hightman

; ; auto regular ; $Id: rules.ini,v 1.3 2007/06/07 08:37:07 hightman Exp $ ; ; special word, 特殊词汇 ; [special] C++ .NET C# R&B S.H.E P&B ; ; nostats ; [nostats] about all also an and any are as at be but by both can for from have here if in is it no ...

27.Libscws C API 使用说明

更新时间:2010-12-30 22:12 t By hightman

...ar { int start; int end; }; 注:xdict_t 和 rule_t 分别是词典和规则集的指针,可判断其是否为 NULL 来判断加载的成功与失败。 ·[b]scws 系列结果集[/b],每次 scws 返回的分词结果的数量都是不定的,直到返回结果为 NULL 才表示这次分...

28.RE: 遇到一个分词错误的问题

发布时间:2014-02-11 11:02 t By robinjia

...俗?大家怎么看的?”这个句子,无论怎么调整词性语法规则表都是会分成“武松杀 /nr 嫂 /ng 雕塑 /n 是 /v 艺术 /n , /un 还是 /n 恶俗 /n ? /un 大家 /r 怎么 /r 看 /v 的 /uj ? /un”。 我的理解是,这是因为程序里并没有判断武松已...

29.RE:1232

发布时间:2007-06-07 20:06 t By hightman

这中间有些规则其实需要写明才更清楚,今天累了不想写了。 先把这些发出来,可以看出点端倪

30.RE:1238

发布时间:2007-06-12 21:06 t By hightman

1.单字节的数字和中文字目前的规则不允许一起存在,像45万就可以,或四十五万 2."当好"在词典中出现并有较高的频率,这可能是错误的,可以修正词典.关于词典的问题有相关文章已经说过了,词库太大,出错...

  • 时间不限
  • 按相关性排序