我电脑APACHE+PHP 4GB内存 E6300处理器 PHP简易中文分词(SCWS) 第4版(GBK) 在我电脑上用你默认的分词内容"陈凯歌并不是..." 第一次0.8xxxs 第二次0.098711013793945 而你们演示的就快多了 0.0039410591125488 为什么差距这么大?
...ack.gif[/img][/url] PHP扩展 windows 版: http://www.yanbin.org/php-scws-windows-edtion/ [/quote] 谢谢,我复制一份到这下载吧,自己也能用用:) 对了词典制作其实用PHP脚本也能作,我忘了放出来呵
...http://baike.baidu.com/view/1228847.html 并没有很固定的算法,SCWS中的tf/idf均经过特殊加工处理了
...错了! “是一”本身不是词,只是因为二元结合法所以scws自动将其合成为一个词。 复合分词是对原本是词的长词情况处理的,比如”中国“可以切成”中“+”国“+”中国“ 你的问题必须是 [code] $tk = $tokenizer->setDuality(false...
多谢建议。这个部分要做得精准的话其实是比较尖端的,SCWS分词后有提供一些热门词排序,如果简单归结为标签也是不妥的,我觉得需要有标签库进行匹配和比对。
[quote='hightman' pid='3556' dateline='1274018936'] 用scws的MYSQL插件就不需要另外存一份了,而且操作也简便,对表设计和操作不需要做任何额外的处理。其它差别不大吧 [/quote] 好的 谢谢
这些 PHP 工具在发布时都有测试通过,但PHP版本众多,加上各自配置又不一样,所以难免还有问题。目前 PHP 的工具部分照顾不过来,请尝试自行修正一下。 计划在下一版本中直接在 gen-scws-dict 中提供C版的工具,不要再通过PHP了
...保暖内衣“,这点我就非常不解了,按照我的理解,依照scws的分词策略,要么就分成”保暖+内衣“,要么就是”保暖内衣“,怎么会有”内衣“和”保暖内衣“呢?你可以把你的分词结果给我看看。
...包括类包拷贝到了线上。 出现如下错误。 configure:error: scws_new() NOT found in libscws, please check it first http://bbs.xunsearch.com/showthread.php?tid=7 按照这个贴子处理,还是不行。 没有 ln -s libuuid.so.1.0 libuuid.so; 这个文件。[hr] 除了把系统重装...
全部是英文单词 数据来源: twitter tumblr amazon alibaba flickr 等的标签 原来多是词组形式 改成了scws的单字形式 没有附加任何属性 也就是说全部使用默认属性 参考 http://www.xunsearch.com/doc/php/guide/index.dict