行,我试试。另外,你不认为应该说说怎么解决“武松杀”那个问题吗?[hr] 加了“一张”这个词后,确实解决了那个问题。
事实上,我UTF-8的一直不成功,GBK的就会出现那样奇怪的问题 今天我又再试了一下(GBK版本的),在Windows下,在文件保存的时候,选择编码“ANSI”,这样就不会出现那样奇怪的问题了
...新手,对于php只懂一些皮毛,现在想使用 SCWS(简易中文分词) 基于HTTP/POST的分词的API 但是不知道怎么调用,我用这个方式调用API,结果显示在网页上,我要如何调用才能将结果获取下来呢?比如我能将结果直接存在一个变量中...
不知道还有没有其它更好的解决办法?不能改代码,也必须保留武这个姓。正在考虑加一条规则,可是我不懂那些词性语法规则的运作原理。
请问scws分词如何分出“四个字的词”呢? 目前只要超过三个就被拆分成两个,比如我要拆分 “2013春夏汽车新款” 中“2013春夏”怎么弄呢? 词典中我添加了“2013”、“春夏”、“2013春夏”,就是拆分不出“2013春夏”。求...
请问scws分词如何分出“四个字的词”呢? 目前只要超过三个就被拆分成两个,比如我要拆分 “2013春夏汽车新款” 中“2013春夏”怎么弄呢? 词典中我添加了“2013”、“春夏”、“2013春夏”,就是拆分不出“2013春夏”。求...
这是正常情况,分词的机制决定的。通常讲,搜索单字是不有意义的,一定有这个需求的话需要自己修改分词引擎让它支持拆为单字。 具体看 XSTokenizerScws 这节,可以自行扩展然后通过 setMulti 方法索引单字
带阿拉伯数字的节日 如”51劳动节“ 只能分出”劳动节“,只要数字在前面就识别不出来,同时也很奇怪如果这些数字大于百位数 如”2014劳动节“ 就能分出2014和劳动节,最终想要”61儿童节“=61+儿童节 的效果,大神求助。。...