但网址和EMAIL如果这样切,也太粗糙了吧。要全部匹配才能检索到,输入 EMAIL 的前段或网址的一部分均检索不到了。 至于消除 HTML 标签,这不应该是分词的事哦
[quote='hightman' pid='7795' dateline='1399967280'] 这不是切分。这是增加匹配,以同义词的形式支持切分后的短词匹配。 [/quote] 嗯,确实呀,不过这个需求估计很多自定义的同学都希望自己可以调整设置吧。 谢谢管理员:D。
我是一个新手,对于php只懂一些皮毛,现在想使用 SCWS(简易中文分词) 基于HTTP/POST的分词的API 但是不知道怎么调用,我用这个方式调用API,结果显示在网页上,我要如何调用才能将结果获取下来呢?比如我能将结果直接存在一...
[quote='askie' pid='312' dateline='1323228058'] 我也遇到了同样问题! [/quote] 把type 设置成为 string 貌似是一种变通的方法
我用addWeight给文章标题增加权重 但是,刷新看,结果是一会儿加上去了,一会儿又没加上去 这个失败率有点高啊。。。50%左右 需要做什么额外的操作么?
...我的平台上反复测试过,完全没有这样的情况。改什么就是什么,前提是确定你的txt文件确实被成功修改了。 你建议你在 test.php 里的 scws_new() 之前加一句: echo "dict content: \n"; echo file_get_contents('/data/html/365search/dict.film.txt'); echo...
2010年高考英语一轮复习达标测试卷 高考是个单词,但是分出来的结果如下: 2010 年高 考 英语 一轮 复习 达标 测 试卷 No. WordString Attr Weight(times) ------------------------------------------------- 01. 一轮 nz ...
1.修正夹杂在汉字中间的1-2个英文字符的词性为 en 而不是原来的 un 导致清除符号时消失. 2.调整将数字后面的独立 % 纳入整词作为百分比,如 33.3% 作为整词而不再是 33.3 和 % 3.修改连字符(-)和下划线(_)的规则,当出现在字母单词...