搜索

大约有 30 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.0063秒)

11.RE: 如何让分词把“1000元”分成两个词?

发布时间:2013-07-30 11:07 t By hightman

这个你还是在切分结果中再处理吧,把数字和量词重新合成

12.RE: 发现有几种情况会导致分词准确?

发布时间:2011-09-17 01:09 t By hightman

这个是最新一期的更新修改的,当数字、字母连续3个以上时就作为混杂元素了,会将它们切开。 起初是因为 iso9001 没有切词导致搜索 iso 或 9001均搜索

13.自定义字典的问题

发布时间:2011-03-14 22:03 t By zfzeng

..., 我定义了个词库,可是一用这个词库,就分出来,数字和英文除外。 比如我定义“南瓜汤”,“番茄汤”作为一个词库,(测试用的,只放2个词在词库), 然后对这句话进行分词“我爱喝南瓜汤,番茄汤”进行分词, 希...

14.一个疑问……

发布时间:2007-11-28 22:11 t By 逍遥小妖

...用范围似乎特别的窄…… 对于一个页面来说,通常含有数字、英文、英文标点、中文标点、中文等文字要素(可阅读部分,HTML已过滤),视情况而定,搜索引擎还有可能抓出含有乱码的片段。 但是SCWS分词时似乎要求字符串中...

15.图片搜索的一些疑问

更新时间:2014-02-16 17:02 t By Mr.

...= none cutlen = 0 weight = 0 phrase = no non_bool = no [hash_64];纯数字的图片hash值 长度是固定的64位整数 非唯一 但相同的值比较多 type = string;应该能用numeric类型吧? index = self tokenizer = none;要实现匹配一个64位数值是完全相等的 ...

16.英文可以自定义词性吗?

发布时间:2013-08-30 05:08 t By mynoname

通常英文是需要分词的,但很多时候词性是需要的,比如nike,dior这类品牌英文。 目前默认词性都是en,有什么办法可否自定义词典来改变他的词性。 还有个问题,就是纯数字的词性为什么是en呢,是m? 望赐教。

17.项目配置文件详解

... 服务端连接参数的格式包含 3 种格式: 1. *端口号(数字)*,连接 `localhost` 的该端口号 (例:`8383`) 2. *地址:端口号*,冒号连接地址(域名、IP地址)和端口 (例:`127.0.0.1:8383`) 3. *文件路径*,本机的 `unix socket` 连接路径...

18.为何导出txt,里面内容动在创建XDB之后速度变慢很多很多

发布时间:2011-03-03 00:03 t By hit

...可能有问题) 创建XDB文件是根据 foreach $rec[$k] 里面的数字排序的 那样 XDB和TXT里面的排序完全改变了 目前的情况是我导出TXT在创建XDB 分词速度比之前慢了2倍 这个问题很想知道原因T-T XDB->TXT这似乎是一个很难逆转或...

19.编写第一个配置文件

...明显,它是主键,所以它的类型必须是 `id` - `fid` 内容为数字的版块ID,但由于我们需要对它进行排序或区间查找,所以用 `string` 类型即可, 为了按版块检索,我们必须对它进行索引,而它也需要分词,所以分词器用内置...

20.libscws 段错误的 bug 修正

发布时间:2007-07-05 09:07 t By hightman

...动识别出来的词有可能超过 255 字,如全部连续的双字节数字或字母.超过 255 字后 这里的 j 将变得正确可能导致 item-> 指向 NULL , 故加入以下红色部分判断. [code] static void _scws_mset_word(scws_t s, int i, int j) { word_t item; item...

123
  • 时间不限
  • 按相关性排序