搜索

大约有 7 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.0993秒)

1.数字汉字混合分词的困扰

发布时间:2014-04-20 17:04 t By 漫步云海

带阿拉伯数字的节日 如”51劳动节“ 只能分出”劳动节“,只要数字在前面就识别不出来,同时也很奇怪如果这些数字大于百位数 如”2014劳动节“ 就能分出2014劳动节,最终想要”61儿童节“=61+儿童节 的效果,大神求助。。...

2.RE: 对于分词的一些困惑

发布时间:2010-10-13 17:10 t By hightman

...先进行中英文粗分,那时就强行把数字、字母与多字节的汉字拆分开。 只有夹在汉字中间的1~2个数字或字终才被允许汉字组合,比如“T恤” ”Q币“ 这种。 假设你的词典里有”北海36“,被分的句子是 “北海36度”,那...

3.scws-1.1.6 发布

更新时间:2011-04-20 15:04 t By hightman

1.修正夹杂在汉字中间的1-2个英文字符的词性为 en 而不是原来的 un 导致清除符号时消失. 2.调整将数字后面的独立 % 纳入整词作为百分比,如 33.3% 作为整词而不再是 33.3 % 3.修改连字符(-)下划线(_)的规则,当出现在字母单词...

4.scws-1.0.0 正式发布 (含php扩展及2文本词典)

更新时间:2010-01-29 13:01 t By hightman

...一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的 切分成词,因为词是汉语的基本语素单位,而书写的时候不像英语会在词之间 用空格分开,所以如何准确快速的分词一直是中文分词的攻关难点。 本分...

5.项目配置文件详解

...字段默认为 300 。长度单位是字节,通常 UTF-8 编码的一个汉字为 3 个字节。 ~~~ cutlen = 0 ~~~ #### weight 混合区检索时的概率权重 在混合检索时,可以对标题内容等不同字段进行权重计算,如果你不想该字段参与计...

6.[2013] SCWS-1.2.2 发布,BSD协议、支持自定义词库、PHP5.4

更新时间:2013-07-11 21:07 t By hightman

... (感谢lauxinz) [b]scws-1.1.6 发布于 2011-04-20[/b] 修正夹杂在汉字中间的1-2个英文字符的词性为 en 而不是原来的 un 导致清除符号时消失. 调整将数字后面的独立 % 纳入整词作为百分比,如 33.3% 作为整词而不再是 33.3 % 修改连字符...

7.构建搜索语句

...词*”。 > note: 搜索语句最大支持长度为 80 字节(每一个汉字占 3 字节),此规则同时适用于 > [XSSearch::search] [XSSearch::count] 的 `$query` 参数。 搜索语句举例如下: ~~~ [php] $search->search('上海人民公园'); // 检索 body 型字段及混...

  • 时间不限
  • 按相关性排序