搜索

大约有 50 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.1002秒)

21.自定义词库怎么控制(字母+数字)组合的个数

发布时间:2012-08-27 16:08 t By kill-all999

我目前使用自定义词库实现分词,但是通过scws_get_top5()方法获取数据的时候(字母+数字大于等于3个的时候也会返回)。求过滤方案。 $sh = scws_open(); scws_set_charset($sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_set_rule($sh, './r...

22.RE: 如何让分词不把“1000元”分成两个词?

发布时间:2013-07-30 11:07 t By hightman

这个你还是在切分结果中再处理吧,把数字和量词重新合成

23.RE: 发现有几种情况会导致分词不准确?

发布时间:2011-09-17 01:09 t By hightman

这个是最新一期的更新修改的,当数字、字母连续3个以上时就不作为混杂元素了,会将它们切开。 起初是因为 iso9001 没有切词导致搜索 iso 或 9001均搜索不到

24.第四版遇到()和中英文混合分词的问题。

发布时间:2008-01-03 11:01 t By kts2tt

富贵鸟(Y1W) 类似这样的名称分词的结果 却是 富贵 鸟(Y1W) 最关键的 Y1W 没有被分出来。 而且 六灯夜视D502 这样的名称 也只能分出 中文, 英文和数字没有被分出来,是为什么?请教高手。 我用的是SCWS 扩展 PHP 5.2.x 版二...

25.一个疑问……

发布时间:2007-11-28 22:11 t By 逍遥小妖

...搜索引擎结合…… 现在目前已经成功用SCWS替换其原本的分词代码。 但是却发现一个问题,就是SCWS的适用范围似乎特别的窄…… 对于一个页面来说,通常含有数字、英文、英文标点、中文标点、中文等文字要素(可阅读部分...

26.自定义字典的问题

发布时间:2011-03-14 22:03 t By zfzeng

...库,(测试用的,只放2个词在词库), 然后对这句话进行分词“我爱喝南瓜汤,番茄汤”进行分词, 希望得到结果 我爱喝(未被分词) 南瓜汤(分词OK) , 番茄汤(分词OK) 可是结果什么都没显示。 $so->set_dict("d:\test.x...

27.三个问题需要求教

发布时间:2011-01-17 11:01 t By nftw

...一体。有没有办法? 3, GB2312编码中的繁体字不能正常分词,如“家電節能”,会分为 “家+電+節+能”。 总之 scws用着很顺手,感谢hightman.

28.scws-1.1.6 发布

更新时间:2011-04-20 15:04 t By hightman

...词之间时视为同一词而不再强行切开,此时如果激活复合分词的 DUALITY 选项,则仍能将符号切开作为复合词。 4.修正浮点数的识别规则,避免将IPv4地址识别为2个小数的尴尬,比如 192.168.1.1 以前会被切成 192.168 和1.1 2个数字,现...

29.图片搜索的一些疑问

更新时间:2014-02-16 17:02 t By Mr.

...相等的数据,然后根据hash_196字段按匹配度排序 我对xlen分词器不是很了解 这个排序mysql可以实现 但是mysql分割后的位置不是固定的 project.name = hash project.default_charset = UTF-8 server.index = /dev/shm/xs-indexd.sock server.search = /dev/shm/xs-se...

30.英文可以自定义词性吗?

发布时间:2013-08-30 05:08 t By mynoname

通常英文是不需要分词的,但很多时候词性是需要的,比如nike,dior这类品牌英文。 目前默认词性都是en,有什么办法可否自定义词典来改变他的词性。 还有个问题,就是纯数字的词性为什么是en呢,不是m? 望赐教。

12345
  • 时间不限
  • 按相关性排序