...环境是集成环境wamp) 下面这些我也都照做了。 建立一个本地目录放规则集文件和词典文件,建议使用:C:/program files/scws/etc 从 scws 主页上下载词典文件,解压后将 *.xdb 放到上述目录中 词典系列:http://www.ftphp.com/scws/down/scws...
文档中写到: [quote]每行一个词,由4个字段组成,字段之间用 \t 或空格分隔: 1) 注释以 # 或 分号开头。 2) 每行由4个字段组成,依次为“词语"(由中文字或[b]3个以下的字母合成[/b]), "TF", "IDF", "词性", 字段时间用空格...
...il/Quest.php demo pid:2 util/Quest.php demo "第三篇 OR pid:1" 这三个里,只有第二个、第三模式(pid:2、"第三篇 OR pid:1")能成功,第一个不行。 util/Quest.php demo "subject:小弟 OR pid:49" 这样也不行。 能不能,给个示例说一下,怎么弄。 ...
每次更新都是期望改进,而不是倒退呵。 1.1.2 目前已经放入 [url]http://www.ftphp.com/scws/down/scws-1.1.2.tar.bz2[/url] 供下载。 您说的 1.1.2 在分词效果上比 1.1.8 还要好,可否指出哪几个实例 ?
有个问题,在演示地址中,统计词性: 需要屏蔽 ~vn,~nr时, 仅第一个有效,不能设置多个
...字母与多字节的汉字拆分开。 只有夹在汉字中间的1~2个数字或字终才被允许和汉字组合,比如“T恤” ”Q币“ 这种。 假设你的词典里有”北海36“,被分的句子是 “北海36度”,那么“北海36”是可以成功切分的。 原因就...
第一个问题:是先执行 setSort() 进行排序后再执行 setCollapse() 进行折叠还是先执行 setCollapse() 进行折叠后再执行 setSort() 进行排序? 第二个问题:在项目中,遇到问题如下 先看个索引表结构 id cate_id prod_price 1 1 ...
... 最近用到了切词,然后就用了scws,使用后发现有几个地方和自己的需求不符合, 1)、中英文混合的 英文超过2个字就会被切割,不管词典里面有没有这个数据,比如词典里面有 “ABC支持开源" , 对“ABC支持开源" 切词的...
自定义词库有些词无效。。 有的是3个以上的,有些是4个以上的,不定。。 ubuntu linux环境,自编译安装 比如顶置的例子我这里是这样的 ; dict_extra.txt 我是新增词 2.0 再试一个 1.0 1.0 @ ; 以下词为删除项 删除 ...
hightman, 您好,我将过滤器做了以下处理: 1,放在/usr/local/xunsearch/sdk/php/lib/下面,并且赋予755权限; 2,运行命令util/Indexer.php --rebuild --source=mysql://隐藏 --sql="select did, tag, title, content from wiki_doc" --filter=/usr/local/xunsearch/sdk/php/lib/M...