搜索

大约有 30 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.0060秒)

11.英文数字组合字符串分词问题,已结贴。

更新时间:2014-05-14 10:05 t By hpxl

华硕主板H61-PLUS,想分词结果中包含H61。 通过 [url=http://www.xunsearch.com/scws/demo/v48.php]http://www.xunsearch.com/scws/demo/v48.php[/url] 得到的结果为“华硕/主板/H/61/-/PLUS”。尝试过自定义词库,$prefix/data/项目名称/dict_user.txt 加入H61,但是...

12.对于分词的一些困惑

更新时间:2010-10-13 17:10 t By 逆雪寒

...呢。[hr] 经过测试,还发现。 不加载任何字典和规则。 数字是照样能给分词出来的。。似乎默认就把一窜数字就是一个词 这样来分[hr] 那如果是这样就麻烦了。。怎么能解决 中文+数字 结合的词呢?

13.一个疑问……

发布时间:2007-11-28 22:11 t By 逍遥小妖

...用范围似乎特别的窄…… 对于一个页面来说,通常含有数字、英文、英文标点、中文标点、中文等文字要素(可阅读部分,HTML已过滤),视情况而定,搜索引擎还有可能抓出含有乱码的片段。 但是SCWS分词时似乎要求字符串中...

14.发现有几种情况会导致分词不准确?

发布时间:2011-09-15 14:09 t By 逆雪寒

scws分词不正确的情况 1、中文夹杂连续两个以上英文或数字(例如:程jj序ii员e 正常,程jjj序ii员e 不正常) 2、英文数字组合中,同时含有连续一个以上英文或数字的组合(例如:w1156k 正常,w16ky不正常) 3、含有任意一个...

15.关于 SCWS 简易中文分词系统

更新时间:2013-01-10 16:01 t By hightman

...采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。 切词效率测试(UTF-8编码,随机...

16.RE: addRange后count不准确

发布时间:2014-05-05 16:05 t By yuangu125

这个统计的我也是不准,不明白什么原因,数字可能还好,这个中文搜索,精确匹配的,就是怪怪的。

17.我对切词尝试做了下功能修改

更新时间:2013-12-27 20:12 t By linqingtao

...} } else { // fix me 这个地方是前面有字母或数字的切词 // MAX_ALNUM_CUT是中英文混合的最多多少个数字或字母就作为一个单独的词 // 原代码默认是2 修改为了一个宏 // 这部分处理的是开头有数字...

18.第四版遇到()和中英文混合分词的问题。

发布时间:2008-01-03 11:01 t By kts2tt

... 六灯夜视D502 这样的名称 也只能分出 中文, 英文和数字没有被分出来,是为什么?请教高手。 我用的是SCWS 扩展 PHP 5.2.x 版二进制文件!

19.scws-1.0.0 正式发布 (含php扩展及2文本词典)

更新时间:2010-01-29 13:01 t By hightman

...集的词频词典,并辅以一定的专 有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大 概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取 等场合运用。首次雏形版本发布于 2005 年...

20.RE: 请问一下,xdb与txt词库那个读取效率更高

更新时间:2013-06-29 23:06 t By 阿弟2013

...'); ?column? ---------- t (1 row) [hr] 还有如Unsigned integer这类的数字 postgres=# select to_tsvector('zw_simple','-0.25'); to_tsvector ------------- '0.25':1 (1 row) postgres=# select to_tsvector('simple','-0.25'); to_tsvector ------------- '-0.25':1 (1 row)

123
  • 时间不限
  • 按相关性排序