...加期望加上直接入字典库的功能。这样更加方便,就是不知道难度如何。因为目前我的词库可能每天都有新的加进去。 PS:我是个有洁癖的代码工人:D:D:D
...方案啊,给你API你想怎么导入就怎么导入。 [/quote] 我知道啊,就是试了一下,感觉搜索速度还是不够,想看看其他的方案,因为xunsearch是scws+xapian,就想看看有scws+sphinx的方案。 我600多万的数据,4G内存,搜频率高一点的词...
首先惭愧今天才知道scws这么好的项目。。 -________- 。。 最近有个PHP项目需要用到中文分词。。辗转很久来到了这里。。 在本机安装也很顺利,。 不过。。编码用的UTF8 按照文档里面的demo也自己做个小东西。。试试。。。...
...导出TXT在创建XDB 分词速度比之前慢了2倍 这个问题很想知道原因T-T XDB->TXT这似乎是一个很难逆转或者是无法逆转的过程 (我只是感觉到导出文件的TXT可能有问题)或者创建的XDB文件有些特别的地方没有优化?
...太老了,很多词语都没有。我想自己扩充我的词库,但不知道TF/IDF如何获得。 通过你提过的新词生词的TF/IDF计算器(http://www.xunsearch.com/scws/demo/get_tfidf.php) 结果计算出来的大部分内容都是一样的值,而且也无法用于分词。 ...
...太老了,很多词语都没有。我想自己扩充我的词库,但不知道TF/IDF如何获得。 通过你提过的新词生词的TF/IDF计算器(http://www.xunsearch.com/scws/demo/get_tfidf.php) 结果计算出来的大部分内容都是一样的值,而且也无法用于分词。 ...
...导出TXT在创建XDB 分词速度比之前慢了2倍 这个问题很想知道原因T-T XDB->TXT这似乎是一个很难逆转或者是无法逆转的过程 (我只是感觉到导出文件的TXT可能有问题)或者创建的XDB文件有些特别的地方没有优化?
...der输出的也是utf8编码,执行默认的test.php,产生乱码,不知道问题出现在哪?dict.utf8.xdb是新下载的没有动,非常感谢。 另外一个问题,我使用PSCWS4,是想在发布的文章内容中提取关键字,数量大约8个左右就可以了,get_tops()能...
我想将收集的词加入到词库中去,用以提高切词的准确度,不知道如何添加。 还有,我想问问,Windows版的“php_scws.dll”文件有没有更新到1.0.3版 非常感谢。
...ct('/usr/local/scws/etc/dict.xdb'); $cws->send_text('我爱看电影,不知道电影院里有什么?'); 分词的结果竟是:“我 爱 看 电 影 , 不 知 道 电 影 院 里 有 什 么 ? ” 这到底是怎么回事呢,安装过程都很顺利呀!就是不能正...