[quote='hightman' pid='3626' dateline='1279100902'] 1. 多一个T是哪儿,我没看明白。 2. 你的错误是因为你用错误词了,48.php 是针对UTF-8的,而你调用了gbk的词典,把你的词典语句改为 dict.utf8.xdb 即可 3. dict_extra.txt 也必须是UTF-8编码 4. 删...
...我遇到了并发下切词core dump的问题.为了验证问题,用c写了一个简单程序,测试稳定出core,希望大家和hightman帮忙看看这是不是一个bug,还是用法有误?代码如下: #include ...
...附录),在使用中发现错误的请大家协助跟踪汇报。这是一个长期艰巨的任务,希望本着有一纠一的原则。如有汇报,请遵守格式为: 词 原attr 正确attr -------------------------- XXX - - (表示错误或不需要的词,应...
...和英文除外。 比如我定义“南瓜汤”,“番茄汤”作为一个词库,(测试用的,只放2个词在词库), 然后对这句话进行分词“我爱喝南瓜汤,番茄汤”进行分词, 希望得到结果 我爱喝(未被分词) 南瓜汤(分词OK) , 番...
1.没有记录,不能直接调,系统只记录了一部分干净的词用于统计热门搜索、拼音建议 2.search.log是一个交换文件,系统定时取走更新入 log_db,不必理它。
...php]http://www.dot66.net/search2.php[/url] 2. 自动分类,这个是一个智能学习的分类系统,很粗糙。 [url=http://hi.twomice.net/a.php]http://hi.twomice.net/a.php[/url]
1. 你的词典只有“再试一个”这个词,当然就只有它了 2. scws_new/scws_free 是C 里的函数,在PHP中是 scws_open/scws_close 建议在PHP中用对象方式使用 scws 即 $so = scws_new(); $so->set_charset('gbk'); $so->set_dict(...
...ize][/b] [b][size=4][color=#154ba0]简介[/color][/size][/b] SCWS 是一个简易的分词引擎,它可以将输入的文本字符串根据设定好的选项切割后以数组形式返回每一个词汇。它为中文而编写,支持 gbk 和 utf-8 字符集,适当的修改词典后也可...
哦,我没有说清楚,我用的是PHP版的,是一个词典文件,生成两次XDB,每次里面的分格符不同,上面说的。 我还有就是刚才我试了,我用我自定义的词生成词典,用scws_set_dict添加我的词典后(词典中的word TF IDF 都很高的,记...