...TF是词频系数,IDF是逆词频率系数 而Attr是北大标注法的词性,这四个字段之间用\t隔开。 --- hightman 特别制作于 2009.7.1 下载地址:http://www.ftphp.com/scws 或 www.hightman.cn/bbs 的 scws 版
...d 词本身, idf 逆词率(重), off 在text中的偏移, len 长度, attr 词性 // $text = "中国航天官员应邀到美国与太空总署官员开会"; $pscws->send_text($text); while ($some = $pscws->get_result()) { foreach ($some as $word) { echo $word['word'].'=>'.$word['at...
...属性的词,假如品牌的属性设置为pp,因为这些纯英文词的词性切分后都为/en。在非法词过滤时也是如此,不能使用scws_has_word()函数来判断是否有指定属性的词,假如非法词属性为*,非法的英文单词切分后属性为/en。 想hack一下...
...问题想请教下hightman大大,似乎0.0.1-pre版本的词库增加了词性标注,这对我很有帮助。想请教一下如何把0.0.1-pre版本的dict.xdb转换成txt呢?我找到了您发布的scws-v23里面的mk_txt.php,但是好像和新版本的xdb词库不兼容,能否麻烦提...
...率(表示词重要性), 你可以参考现有的词造一个系数. 而词性标注请看这篇: http://www.hightman.cn/bbs/showthread.php?tid=42 [/quote] 謝謝 ! 那 TF/IDF 事實上我可以自己來定義了嗎? 另外我在您附的檔案最後約107668 行後就是 Warning: frea...
...tp://bbs.xunsearch.com/showthread.php?tid=1235][b][color=blue]SCWS - 词典词性标注详解[/color][/b][/url] [url=http://www.xunsearch.com][b][size=5]推荐: 搭配 SCWS 面向 PHP 的全文检索解决方案 FTPHP/XUNGLE 已经可用 :)[/size][/b][/url] [url=http://bbs.xunsearch.com/showthread...
...$words = scws_get_words($sh,'~un,nr'); 随便找一段文字,来分词 词性除了un和nr之外,就剩不下中文字了。。 。。 比如PHP简易分词第四版在线演示中的那段文字, 本机测试结果是这样: 陈凯歌/nr 并/un 不/un 是/un 《/un 无/un 极/un ...