搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

...是因为二元结合法所以scws自动将其合成为一个词。复合分词是对原本是词的长词情况处理的，比如”中国“可以切成”中“＋”国“＋”中国“ 你的问题必须是 [code] $tk = $tokenizer->setDuality(false)->setIgnore(true)->setMulti(11)->getRe...

先谢谢highman提供了这么方便的分词工具！使用中发现，在字典的建立过程中，及php make_xdb_file.php 报了一大堆警告： Notice: Undefined index: tf in C:\xampp\php\xdb\make_xdb_file.php on line 93 Notice: Undefined index: idf in C:\xampp\php\xdb\make_xdb_file.p...

439.RE: 疑问？为什么索引大小大约为数据大小的3.5倍

发布时间：2012-03-06 01:03 t By coo

索引肯定比原来的数据要大的，因为要分词然后存储吧，一个句子可能被分割好多段

440.RE:1251

发布时间：2008-04-26 08:04 t By hightman

繁体分词演示: [url]http://www.hightman.cn/demo/scws/v48.cht.php[/url] 引擎本身不需要更改, 只需要将rules.utf8.ini和dict.utf8.xdb改为繁体的词典即可. 词典制作参见相关代码里的工具 scws-1.0 里包含了词典制作工具. 顺便奉上之前整理制作的...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

搜索

431.比如我要加入关键词 65Mn这种专业词怎么做

432.咨询SCWS准确率是如何计算出来的

433.实时加载字典，服务器严重吃不消，有没有办法？

434.RE: 一个字符搜索不到数据，必须两个字符或以上才行

435.RE: 请问如何搜索字段值在一个长列表中的记录？

436.RE: 中文分组粗分方法

437.RE: XSTokenizerScws的一个使用问题

438.关于自建字典问题

439.RE: 疑问？为什么索引大小大约为数据大小的3.5倍

440.RE:1251

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

相关搜索