我有一自定义词库,用来文本中的非法词。譬如“美女” ,用scws_get_tops分出来的词中有这个词,但是scws_has_word却判断为不包含这个词。 但是大部分自定义词库中的词还是能用scws_has_word判断出来,而有些却有不可以,尤其是两...
...延迟通常是若干秒吧。 4)你可以借助其它工具转换为文本,这个在XS里没有包含。 [/quote] 你好, 怎么实现远程库,有相关资料吗
建议把这些要过滤的词新增加文本词典,属性设为 ! 即可。或者自己根据词性直接在取得返回值的时候排除它。。 因为你是包含的作法的话,是不是“人们”“人家”“人民”全都要过滤了??这样肯定不合适,所以建议直...
...上 scws_add_dict(s, 'path/to/this_ad_dict.txt', SCWS_XDICT_TXT); 这样使文本词典生效. 其中词典格式为 词 tf idf attr (当attr为!表示删除该词) [code] 市廛 1 1 ! 河华 1 1 ! 阳道 1 1 ! 道南路 4 2 nz 小白兔 4 2 n [/code] 以下我是根据你的实例编写的,...
...次调用,就不会出现该问题了? 但是如果资源使用txt文本,参数使用SCWS_XDICT_XDB,也不会有问题。 图片在附件中! [hr] 因为我这边是将scws的源码直接加入到我的C++工程代码中的,所以可以直接看到递归堆栈溢出的地方。在...
...t scws_zchar *zmap; } scws_st, *scws_t; scws结构体和每一次分词文本有关,这样scws在多线程环境中每一个线程都需要加载load词典,这样势必会浪费很多内存资源,特别是当词典比较大的时候? 能否把只读的词典部分从scws_st结构体...
...tring $text, string $limit=10, $xattr='') $text string 待分词的文本 $limit string 在返回结果的词性过滤, 多个词性之间用逗号分隔, 以~开头取反 如: 设为 n,v 表示只返回名词和动词; 设为 ~n,v 则表示返回名词和动词以外的其它词 ...
...替也不行 另外我用函数scws_set_ignore(s,1),怎么去不掉文本中的空格等特殊字符[hr] 我用的版本是scws-1.1.2
...中原因。 DEMO:http://www.ftphp.com/scws/demo/v48.php 输入的文本也是官方DEMO一样的,分词结果如下: ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 陈凯歌 并 不 是 《 无 极 》 的 唯 一 著 作 权人 , 一 部 电 影 的 整 体 版 权归电 影 制 ...
无法直接编辑xdb文件, 只能通过自带的 gen_dict 从文本文件转换词典, 目前尚未提供直接导出的工具(将来可能提供) windows版的php_Scws.dll因缺省编译环境和经验本人未能编译, 以前都是由网友bin友情编译... 如果您的词汇是属于通...