...询对应的文字id 难道我还要拿分词再查找对应的词库来获取id?这样就太慢了,估计不是这样做的,不知道大家怎么解决这个问题的。 [php] Array ( [0] => Array ( [word] => 我 [off] => 0 [len] => 3 ...
调用API获取返回结果后,对结果如何进行处理获取自己想要的信息呢? 现在获取返回结果是这样的, a:2:{s:6:"status";s:2:"ok";s:5:"words";a:1:{i:0;a:5:{s:4:"word";s:12:"在线测试";s:3:"off";i:0;s:3:"len";i:12;s:3:"idf";d:8.19999980926513671875;s:4:"attr";s:1:"...
... $so->send_text("朝鲜近日播放的一个纪录片中,发现"); //获取分词结果,如果提取高频词用get_tops方法 while ($words = $so->get_result()) { foreach ($words as $word) { print_r($word); } } $so->close();
... 查询分词(自动侦测连接?): $cws->send("我是中国人"); 获取结果 echo $cws->recv(); 设定参数: key=>value binary => (on) autodis => (on|off) ignore_mark => (yes|no) delim => '_|/'... $cws->set("autodis", "yes") 关闭 $cws->clos...
...目前使用自定义词库实现分词,但是通过scws_get_top5()方法获取数据的时候(字母+数字大于等于3个的时候也会返回)。求过滤方案。 $sh = scws_open(); scws_set_charset($sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_set_rule($sh, '...
...段 我加上搜索字段,出来了某个分类的分面值,我循环获取某个分面的值,然后统一在一起就解决了,哎,暂时就这样吧,希望xunsearch 啥时候可以针对 split(|) 分割的字段进行分面搜索 $arrTag = array(9000,9001,9002……); $tagCount =...
...ict_extra.txt", SCWS_XDICT_TXT); ... 2. 非法关键词的判断及获取(可用于过滤。。) 1) 将非法词汇收集整理,作成 txt 格式文件,统一将其属性设为 '*' 即可 2) 按步骤最后加载黑词词库 3) 在 $cws->send_text($text); 之后 调用 ...