全是 /un 应该是词典不工作。这个词库应该是不依赖机器字节序的啊 TXT没有提供下载,但我们提供了PHP的脚本可以将XDB转换成TXT
富贵鸟(Y1W) 类似这样的名称分词的结果 却是 富贵 鸟(Y1W) 最关键的 Y1W 没有被分出来。 而且 六灯夜视D502 这样的名称 也只能分出 中文, 英文和数字没有被分出来,是为什么?请教高手。 我用的是SCWS 扩展 PHP 5.2.x 版二...
我在自己的网站上使用scws做分词,当文章中有类似PC-BSD之类有连字符的英文词时,都分成类“PC - BSD”,但这是个软件名,本不应分开,英文中加-号的一般都视为一个词,按理说不应分开的,有什么方法解决吗?
带阿拉伯数字的节日 如”51劳动节“ 只能分出”劳动节“,只要数字在前面就识别不出来,同时也很奇怪如果这些数字大于百位数 如”2014劳动节“ 就能分出2014和劳动节,最终想要”61儿童节“=61+儿童节 的效果,大神求助。。...
我安装了PSCWS4,然后再Windows上可以顺利运行,但是分词成功率极低,比如输入: “中国航天官员应邀到美国与太空总署官员开会 发展中国家 上海大学城书店 ” 返回的是: “中 国 航 天 官员应 官员 员应 邀 到 美 国 ...
在ubuntu12.04下安装了分词, http://www.xunsearch.com/scws/demo/v48.php(演示分词) 与本地的分词效果不一样 本地分词结果: 陈凯歌 并 不 是 《 无 极 》 的 唯 一 著 作 权人 , 一 部 电 影 的 整 体 版 权归电 影 制 片 厂 所 有 。 一 ...