在 demo 中测试 v,n 结果只有 n 的,测试~v,n,vn 结果还是会出现包含这些词性的。 这。。。似乎完全有BUG,稍后查。
我在自己的网站上使用scws做分词,当文章中有类似PC-BSD之类有连字符的英文词时,都分成类“PC - BSD”,但这是个软件名,本不应分开,英文中加-号的一般都视为一个词,按理说不应分开的,有什么方法解决吗?
...的方法 名称描述定义于 process() 字段数据处理函数 XSDataFilter processDoc() 索引文档处理函数 XSDataFilter 方法明细 process() 方法 abstract public mixed process(array $data, mixed $cs=false) $data array 字段名和值...
...rt-1]) ? attr_en : attr_un); 2. 百分号这个暂时 scws 还没有办法处理,因为 % 号被当作普通符号粗分时就断开了,不过可以在粗分阶段就强制处理,希望 scws 的下一个版本提供这个功能,如果有兴趣自己可以试试 hack 一下,应该可以通...
这个目录SCWS是按分开处理的, 主要是考虑了搜索实用性, 呵呵. 如果你要它连在一起, 得修改一下代码, 修改 libscws/scws.c 然后重新编译 [code] *** scws.c Sun May 9 01:16:11 2010 --- scws.c.condj Thu Jun 24 11:00:20 2010 *************** *** 326,342 **** ...
.... 开始批量导入数据 (请直接输入数据) ... 报告:累计已处理数据 10000 条 ... 报告:累计已处理数据 20000 条 ... 报告:累计已处理数据 30000 条 ... 报告:累计已处理数据 40000 条 ... 报告:累计已处理数据 50000 条 ... 报告:累...
.... 开始批量导入数据 (请直接输入数据) ... 报告:累计已处理数据 10000 条 ... 报告:累计已处理数据 20000 条 ... 报告:累计已处理数据 30000 条 ... 报告:累计已处理数据 40000 条 ... 报告:累计已处理数据 50000 条 ... 报告:累...
[quote='hightman' pid='6629' dateline='1312967825'] 在 demo 中测试 v,n 结果只有 n 的,测试~v,n,vn 结果还是会出现包含这些词性的。 这。。。似乎完全有BUG,稍后查。 [/quote] 感谢 magike 网友再度来信指出,目前已经在CVS中作了修正,预...
...觉适应特殊要求的改动会少点(超字段数方案由脚本方案处理,觉得处理好255这个特殊vno,就可以突破。)。还有就是对xapian的扩展有了可能。在贵公司提供商业支持时,可以对不同方案灵活处理,版本升级,相同的主引擎和客户端...
... string highlight(string $value, $strtr=false) $value string 需要处理的数据 $strtr {return} string 高亮后的数据 源码: sdk/php/lib/XSSearch.class.php#L846 (显示) public function highlight($value, $strtr = false){ // return empty value directly if ...