搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

21.在PPC等处理器上测试SCWS分词算法，不能正确分词

发布时间：2013-05-28 10:05 t By tiankong

...确分词。例如将“乒乓球拍卖完了”分词后结果为： WORD: 乒/un (IDF = 0.00) WORD: 乓/un (IDF = 0.00) WORD: 球/un (IDF = 0.00) WORD: 拍/un (IDF = 0.00) WORD: 卖/un (IDF = 0.00) WORD: 完/un (IDF = 0.00) WORD: 了/un (IDF = 0.00) 请问：scws分词算法在X86处...

22.XSTokenizerScws::getTops

...rray 返回词汇数组, 每个词汇是包含 [times:次数,attr:词性,word:词] 源码: sdk/php/lib/XSTokenizer.class.php#L361 (显示) public function getTops($text, $limit = 10, $xattr = ''){ $words = array(); $text = $this->applySetting($text); $cmd = new XSCommand(XS_CMD_SEARC...

23.RE: scws_has_word的逻辑问题

发布时间：2010-08-05 15:08 t By hightman

这有什么关系呢，AT为NULL时返回0也合乎情理啊。

24.请教为什么我这个无法分割成功啊？

发布时间：2011-07-05 20:07 t By cool

...; while ($tmp = $so->get_result()) { foreach($tmp as $k=>$v){ echo $v['word']."|"; } print_r($tmp); } $so->close(); 我用的版本是：php_scws.dll(2) PHP扩展库 Windows/PHP 5.2.x 准确: 95%, 召回: 91%, 速度: 40KB/sec 在PHP里面运行后：显示我|是|一|个|中|国|...

25.XSTokenizerScws::getTokens

...se UTF-8 $_charset = self::$_charset; self::$_charset = 'UTF-8'; $words = $this->getResult($value); foreach ($words as $word) { $tokens[] = $word['word']; } // restore charset self::$_charset = $_charset; return $tokens;} XSTokenizer 接口

26."从中学到大学的知识" 划分有歧义？

发布时间：2011-12-21 11:12 t By hehc

... 短句片断:大学[4, 5] 独立字: 的[6] 短句片断:知识[7, 8] Word: 从中/n (IDF = 5.25) Word: 学到/v (IDF = 5.28) Word: 大学/n (IDF = 4.23) Word: 的/uj (IDF = 0.00) Word: 知识/n (IDF = 4.57) "从中学到"的切分出现了问题，权重应该怎么调一下？

27.RE: 如何接入word/excle/pdf或ppt等相关文档呢？

发布时间：2012-08-13 21:08 t By hightman

需要借助第三方工具转换为纯文本

28.RE: scws_has_word没有得到部分指定词库中的词

发布时间：2011-12-09 13:12 t By hightman

用最新版本吧

29.RE: 如何接入word/excle/pdf或ppt等相关文档呢？

发布时间：2012-08-16 15:08 t By sandand

有具体的办法吗？请指教啊,多谢啦！！！！给个具体建议也行

30.RE: scws_has_word的逻辑问题

发布时间：2010-08-05 15:08 t By backluck

...te] 但是这跟文档的描述有出入啊。 [quote] ·int scws_has_word(scws_t s, char *xattr); 描述：判断text中是包括指定的词性的词汇。参数 xattr 用来描述要排除或参与的统计词汇词性，多个词性之间用逗号隔开。当以~开头时表示统...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

相关搜索