事实上,我UTF-8的一直不成功,GBK的就会出现那样奇怪的问题 今天我又再试了一下(GBK版本的),在Windows下,在文件保存的时候,选择编码“ANSI”,这样就不会出现那样奇怪的问题了
...et_dict(ini_get('scws.default.fpath') . '/dict.utf8.xdb'); 再次运行,分词正确了[hr] 不过,又出现了奇怪的问题,我在原来的测试文本后面随便加了两个字母,分词又不对了。我继续增加字母,有时候对,有时候不对。(GBK版本)
...的演示程序(源代码另存为)。 UTF-8版本的一直不成功,分词结果就如我最开始的截图; GBK版本的在保存文件的时候选择文件编码为ANSI,就一切正常了。如果编码选择GB2312,就会出现随便输入一些字符,时行时不行。 然后,...
...$cws->send_text('我爱看电影,不知道电影院里有什么?'); 分词的结果竟是:“我 爱 看 电 影 , 不 知 道 电 影 院 里 有 什 么 ? ” 这到底是怎么回事呢,安装过程都很顺利呀!就是不能正常分词![hr] 刚找到原因了,...
想请教下,假如我开启复合分词,在返回的分词结果里怎么区分哪些是复合分词的结果,哪些是平常的结果? 比如我对“中国人”分词,返回中国+人+中国人,怎么单独提取复合词 中国+人呢?
...利。 然后下载官方DEMO(源码另存为)来运行的时候,分词结果不对,不明其中原因。 DEMO:http://www.ftphp.com/scws/demo/v48.php 输入的文本也是官方DEMO一样的,分词结果如下: ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 陈凯歌 并 ...
比如说“这本书”,在用C语言编译调用scws分词结果为"这/本书",但是编译为php扩展后调用,结果为"这本书",没有分掉,同一份代码同一个词库同一个规则集,为什么会出现不一样的结果?
...新手,对于php只懂一些皮毛,现在想使用 SCWS(简易中文分词) 基于HTTP/POST的分词的API 但是不知道怎么调用,我用这个方式调用API,结果显示在网页上,我要如何调用才能将结果获取下来呢?比如我能将结果直接存在一个变量中...
由于词库太大干扰所致,建议可以附加一个小词典(目的是删除这些无用词汇,以下我写出来作参考,把下面的文字存成dict.txt,然后在原有的set_dict之后加上 scws_add_dict(s, 'path/to/this_ad_dict.txt', SCWS_XDICT_TXT); 这样使文本词典生效. ...