我看了那个文档,发现有一种是文件数据源,还有一种是SQL库的数据源 但是纯HTML页面,如何收录或者生成索引? 比如www下面某个文件夹全是html格式的静态页面,这样的情况怎么弄啊?
比如“北京er朝阳” 能分出北京和朝阳 变成”北京erty朝阳“,中间有2个以上的半角字符就不行了,只能分出北京,分词终止。 这个是什么原因 用的是php_scws.dll vc9
比如我要搜a4纸,但是实际上我的意思是要出a4复印纸,问题是基词的分割是a4与纸,指定同义词的时候就会无效,谁有更好的解决方案? 我的方案是过滤这个关键字,用setQuery的or语法查出来
我试了下目前的多粒度分词,有一种情况不能实现 比如词典里有: 我们是中国人 我们是中国 我们是 中国人 中国 当要分句子: 我们是中国人 无论怎么设置,都无法分出 我们是中国 我们是 这些词 就是目前是...
我下了个PSCWS23 代码并成功安装,结果分词只对汉字有效。我用的其中的pscws3分词。 比如我输入“2009年” 分词结果却为“年”。也就是说,它只输出了汉字部分 请问这该怎么解决
通常英文是不需要分词的,但很多时候词性是需要的,比如nike,dior这类品牌英文。 目前默认词性都是en,有什么办法可否自定义词典来改变他的词性。 还有个问题,就是纯数字的词性为什么是en呢,不是m? 望赐教。
使用xunsearch进行搜索的时候,有的关键字和翻页查询时间最高到11s.我运行的$query都是一些简单基本的语句,请问有什么方法和手段可以来提高查询效率.比如开启缓存模块等等.(ps:服务器都是32g内存 cpu也比较高)
如题 ,比如我在dict_user文件里添加abc10000,查看分词的时候,它还是会分成abc +10000,这样就达不到效果了、、、
...search 结合时作了很多特殊处理,保障查全率和准确率。 比如“管理制度” 解析为 “管理制度” OR “管理 AND 制度”
...到 千万 千年 千* 我搜索 那 出现的 是不是完整词的 比如等到胜利那一天,都市那点事,世界那麽大,帕那索斯博士的奇幻秀。。。可是我想搜的 “那些年,我们一起追的女孩”确没有出来,请管理员指教 急急急哇